设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 225|回复: 1

以搜索引擎为例阐述中文分词应用

[复制链接]
发表于 2019-11-12 17:58:46 | 显示全部楼层 |阅读模式

中文分词指将一个汉字序列切分成一个个单独的词。现有的中文分词算法有五大类:基于词典的方法,基于统计的方法,基于规则的方法,基于字标注的方法,基于人工智能技术(基于理解)的方法。中文分词目前主要有四个瓶颈,分别是分词歧义、未登录词识别、分词粒度问题、错别字和谐音字规范化。
中文分词有五大评价准则:分词正确率,切分速度,功能完备性,易扩充性和可维护性,可移植性。中文信息处理包括三个层次:词法分析,句法分析,语义分析,其中中文分词是词法分析的第一步,非常重要。
中文分词是大部分下游应用的基础,这些下游应用小到POS词性标注、NER命名实体识别,大到自动分类、自动摘要、自动校对、语言模型、机器翻译、搜索引擎、语音合成等等。
中文分词是大部分下游应用的基础,这些下游应用小到POS词性标注、NER命名实体识别,大到自动分类、自动摘要、自动校对、语言模型、机器翻译、搜索引擎、语音合成等等。下面以搜索引擎为例,具体阐述中文分词在搜索引擎中的应用。
搜索引擎针对用户提交查询的关键词串进行的查询处理后,根据用户的关键词串用各种匹配方法进行分词。
搜索引擎的查询处理:1.首先到数据库里索引相关信息,若用户提交的字符串不超过3个汉字,则直接去数据库索引。分词若超过4个字符串,则用分隔符(如空格、标点)把用户提交的字符串分割成N个子查询串2.再检测用户提供的字符串里有无重复词汇,若有,则丢弃,默认为一个词汇;检查用户提交的字符串有无字母和数字,若有则把字母和数字当做一个词。

回复

使用道具 举报

发表于 2019-11-12 17:58:49 | 显示全部楼层
路过的帮顶
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-12-16 16:51 , Processed in 0.288953 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表