中文分词是中文信息处理的基本技术,指将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。其研究瓶颈主要包括以下方面: 1.分词歧义 分词歧义:指在一个句子中,一个字串可以有多种不同的切分方法,一个句子经常对应几个合法词序列,因此,汉语分词中的一个重要问题就是在所有这些可能的序列中选出一个正确的结果。 分词歧义是中文分词的主要困难 交集性歧义:可用动态规划来解决 e.g. “北京大学生前来报到”,容易被划分成“北京大学/生前/来/报到” 组合型歧义:指同一个子串既可合又可分;可用统计语言模型来解决 eg.“学生会宣传部”中的“学生会”是一个词,“学生会主动完成作业”里的“学生 会”就必须拆开。 统计语言模型:对于任意两个词语 w1、 w2 ,统计在语料库中词语 w1 后面恰好是 w2 的概率 P(w1, w2) 。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(∅, w1) · P(w1, w2) · … · P(wn-1, wn) ,其中 w1, w2, …, wn 依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。 2.未登录词识别 未登录词识别 未登录词包括:中外人名、中国地名、机构组织名、事件名、货币名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语,是种类繁多,形态组合各异,规模宏大的一个领域。对这些词语的自动辨识,是一件非常困难的事。中文没有首字母大写,计算机很难分辨人名地名等专有名词 人名刚好与上下文组合成词:比如“高通向人大常委会提交报告” 人名刚好是常用词:比如“汪洋” 品牌名、机构名、地名等专有名词的识别 缩略词的识别 网络新词更难识别:甚至没有固定的生产机制 3.错别字、谐音字规范化 当处理不规范文本(如网络文本和语音转录文本)时,输入的句子中不可避免会存在一些错别字或刻意的谐音字(如香菇—>想哭),这些词对分词系统造成很大干扰。 4.分词粒度问题 对“词语的最小单位”的定义存在主观性,导致多人标注的语料存在大量不一致现象,即表达相同意思的同一字串,在语料中存在不同的切分方式。
|