《了解搜索引擎原理》页面去重,去停止词,消除噪声算法

| 已有人阅读此文| 作者:徐小坏 |

去停止词

无论英文中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”, “地”,“得”之类的助词,“啊”,“哈”,“呀”之类的感叹词,“从而”,“以”, “却”之类的介词。

这些词被称为停止词,因为它们对页面主要意思没什么影响。

英文中的常见停止词如 the,a,an,to,of 等。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

搜索引擎原理

消除噪声

绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”,“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的,完全不相关。

所以这些区块都属于噪声,对页面主题只能起到分散作用。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据 HTML 标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。

去重

搜索引擎还需要对页面进行去重处理。

同一篇文章经常会重复出现在不同网站以及同一个网站的不同网址上,搜索引擎并不喜欢这种 重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为去重。去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。
这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取 10 个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。

典型的指纹计算方法如 MD5 算法(信息摘要算法第五版)。

这类指纹算法的特点是,输入(特征关键词)有任何微小的变化,都会导致计算出的指纹有很大差距。

了解了搜索引擎的去重算法,SEO 人员就应该知道简单地增加“的,地,得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。

而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

PS:欢迎转载本站文章,但是,希望您注明来源,并留下原文链接地址。http://www.aizyw.cn/seo/49.html


喜欢请分享到:

0

  • 百度seo优化网站排名基础
  • 各大搜索引擎网站提交入口
  • SEO综合工具:5118大数据平台!
  • 什么是泛解析?怎么做泛解析?
  • 2018年最新黑帽SEO作弊方法详解
  • 百度极光算法上线,倡导各位资源方重视网站落地页时间规范
  • 没想到《猎场》里面的胡歌竟然这么重视seo优化
  • 崔鹏瀚SEO:2017-2018年国内搜索引擎市场份额分析报告
  • 网站SEO优化公式解析,简单又非常重要的公式
  • 《了解搜索引擎原理》页面去重,去停止词,消除噪声算法