青岛做网站
        行业新闻
行业新闻
当前位置:首页> 新闻动态 > 行业新闻

百度中文分词的原理是什么?

来源:华软创信  ‌|  ‌类型:青岛做网站/网站建设  |  ‌时间:2012-09-14
  大家好,我是青岛网站建设。中文分词技术是搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法。用户在提交查询的关键词时,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容。今天就跟大家谈一下百度中文分词的分词原理是什么?希望对大家有所帮助。

其实百度分词基本有三种分法:

1、基于理解的理解分词方法:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的。当输入的字符串中包含≤3个中文字符的话百度分词就会直接接到数据库索引词汇;而当字符串长度>4个中文字符的时候,百度中分词会会把这个词分成若干个字符。

2、基于统计的统计分词方法:百度把一个词标红的原因:标红的词一般是一个关键词。相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。比如你搜索“网站”的时候,百度它自认的把“网站建设”也当成了一个关键词,所以出现“网站”这个词标红,这就是百度分词法:基于统计分词。

 3、基于字符串匹配的字符串匹配的方法。字符串匹配的分词一般为3种:1.正向最大匹配法;2.逆向最大匹配法;3.最少切分。在百度中搜索“青岛网站建设哪家好”而在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网页。这样文章标题中的长尾是在排名中非常重要的。

 

 

免责声明:本站所有资讯内容搜集整理于互联网或者网友提供,并不代表本网赞同其观点,仅供学习与交流使用,如果不小心侵犯到你的权益,如果你对文章内容、图片和版权等问题存在异议,请及时联系我们删除该信息。