设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 189|回复: 1

中文分词是中文信息处理的基础

[复制链接]
发表于 2019-11-12 17:59:46 | 显示全部楼层 |阅读模式

中文分词是中文信息处理的基础,是自然语言处理的基础模块,中文信息处理包括三个层次:词法分析,句法分析,语义分析。中文分词是词法分析的第一步。
Level1:词法分析 (Lexical Analysis)
分词(word segmentation):将输出的子串切分成单独的词语
词性标注(part-of-speech tag):为每个词赋予一个类别,如名词、动词、形容词 etc.;一般属于相同词性的词,在句子中承担类似的角色
Level2:句法分析(synactic parsing):对输入的文本句子进行分析以得到句子的句法结构的处理过程;句法分析的输出结果常作为语义分析的输入
短语结构句法分析(phrase-structure syntactic parsing):识别出句子中的酸雨结果以及短语间的层次句法关系
依存句法分析(dependency syntactic parsing):识别句子中词汇与词汇之间的相互依存关系,属于浅层句法分析
深层文法句法分析:利用深层文法,如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层的句法和语义分析
Level3:语义分析(semantic parsing):理解句子表达的真实语义
语义角色标注(semantic role labeling):属于浅层语义分析技术
三个层级的联合方式
级联:分词、词性标注、句法分析、语义分析分别训练模型;实际使用时,逐一使用各模进行分析,最终得到所有结果
联合模型:多任务联合学习和解码,如分词词性联合、词性句法联合、分析词性句法联合、句法语义联合等,联合模型通常可显著提高分析质量(但复杂度高,速度慢)
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记。中文分词是中文信息处理的基本技术,指将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

回复

使用道具 举报

发表于 2019-11-12 17:59:49 | 显示全部楼层
回个帖子,下班咯~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-12-16 16:50 , Processed in 0.290156 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表