无名图书
中文文本自动分词和标注
刘开瑛
出版社
商务印书馆
出版时间
2000-01-01
ISBN
9787100030687
评分
★★★★★
标签
中文分词
信息检索
搜索引擎
计算机
书籍介绍
《中文文本自动分词和标注》介绍了信息处理用现代汉语分词词表的收词原则和方法,《信息处理用现代汉语分词规范》设计原则及规范内容,中文文本歧义切分技术等内容。
用户评论
书写得挺好,就是层次性欠缺。用于现在,内容有点过时,且没有对算法实现的简介。
2中文文本自动标注包括两方面内容:词性自动标注和语义自动标注。难点是兼类词的自动词类歧义排除。39需要研制一个与领域无关的通用或常用词词表。41经验+统计方法。163用双向扫描识别歧义字段。163往往越是常用的词,不同的用法就越多。附录2《信息处理用现代汉语词类及标记集》超级实用诶!简直就是一个迷你现代汉语语法系统框架!
读读历史书籍,可以看到历史的局限性。但更可以看到事物的本质。 对于分词而言脱离语法的分词错误率会更高。同样脱离语音的文字也增加了训练的难度。
2000年出版,内容和现今的nlp书籍也没有太多差异。书中用了大量的例子开解释内容,的确方便理解处理过程中的种种障碍与难题。
过时了
不是很适应我数据处理的需求....
Z-Library