《了解搜索引擎原理》中文分词原理

| 已有人阅读此文| 作者:徐小坏 |

seo博客继续讲解关于《了解搜索引擎原理》,今天来讲中文分词,在一些 SEO 材料中,预处理也被简化称为索引,因为索引是预处理最主要的步骤。

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。

和爬行抓取一样,预处理也是在后台提前完成,用户搜索时感觉不到这个过程。《搜索引擎蜘蛛抓取原理

中文分词

是中文搜索引擎特有的步骤。搜索引擎存储和处理页面,以及用户搜索都是以词为基础。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。

搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

中文分词方法基本上有两种,一是基于词典匹配,另一个是基于统计。

基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简单,其准确度很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法优势是对新出现的词反应更快速,也有利于消除歧义。基于词典匹配和统计的两种分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法,达到快速高效,又能识别生词、新词,消除歧义。

中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索“搜索引擎优化”:

 

百度搜索引擎优化

百度快照显示的对“搜索引擎优化”的分词结果从快照中可以看到,百度把“搜索引擎优化”这六个字当成一个词。

而在 Google 搜索同样的词:

谷歌搜索引擎优化

快照显示的对“搜索引擎优化”的分词结果快照显示 Google 将其分切为“搜索”,“引擎”和“优化”三个词。
显然百度切分得更为合理,搜索引擎优化是一个完整的概念。Google 分词时倾向于更为细碎。
再举一个更明显的例子。在 Google 搜索“点石互动”四个字:

谷歌搜索引擎优化

Google 快照显示的对“点石互动”的分词结果快照显示 Google 将其切分为“点”,“石”及“互动”三个词。

“点石互动”这个中文 SEO 领域最知名的品牌,显然并没有进入 Google 的词典中。

在百度搜索“点石互动”时会发现,百度将“点石互动”当作一个词。甚至在百度搜索“点石大会报名”,可以发现百度把“点石大会”都当成一个词:

百度搜索引擎优化

百度快照显示的对“点石大会报名”的分词结果

这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢搜索词完整匹配地出现在页面上,也就是说搜索“点石互动”时,这四个字连续完整出现更容易在百度获得好的排名。

Google 就与此不同,不太要求完整匹配。一些页面出现“点石”和“互动”两个词,但不必完整匹配地出现,“点石”出现在前面,“互动”出现在页面的其他地方,这样的页面在 Google 搜索“点石互动”时,也可以获得不错的排名。有兴趣的可以阅读谷歌官方《谷歌搜索引擎优化指南者

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以 SEO 人员对分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、h1 标签以及黑体中出现关键词。如果页面是关于“和服”的内容,那么可以把“和服”这两个字特意标为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为黑体的应该是一个词。

去停止词无论英文中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”, “地”,“得”之类的助词,“啊”,“哈”,“呀”之类的感叹词,“从而”,“以”, “却”之类的介词。这些词被称为停止词,因为它们对页面主要意思没什么影响。

英文中的常见停止词如 the,a,an,to,of 等。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

PS:欢迎转载本站文章,但是,希望您注明来源,并留下原文链接地址。http://www.aizyw.cn/seo/48.html


喜欢请分享到:

0

  • 各大搜索引擎网站提交入口
  • 没想到《猎场》里面的胡歌竟然这么重视seo优化
  • 《了解搜索引擎原理》页面去重,去停止词,消除噪声算法
  • 百度极光算法上线,倡导各位资源方重视网站落地页时间规范
  • 百度seo优化网站排名基础
  • 2018年最新黑帽SEO作弊方法详解
  • SEO综合工具:5118大数据平台!
  • 网站SEO优化公式解析,简单又非常重要的公式
  • 什么是泛解析?怎么做泛解析?
  • 崔鹏瀚SEO:2017-2018年国内搜索引擎市场份额分析报告