Sunday, January 29, 2012

百度网页消重的揭秘

网页消重是指在搜索引擎抓取网页的预处理阶段,对抓取回来的网页进行检查,确定抓取的内容不会重复!排除掉一些转帖的,大量重复内容,也是反SPAM机制的一部分。

现在大家都知道,搜索引擎给原创内容的权重是很高的。所以,才有了后来的为原创的出现。那么,只要我们知道搜索引擎的消重机制,就可以很容易作出为原创的文章来。所以,基于这个目的,我就做了一系列的测试!

首先,我知道搜索引擎不可能拿抓取回来的文章和数据库里面的每一篇文章都进行全文比对,他只是对每一篇文章都生成一个指纹,然后进行指纹比对。所以,只要我们知道他是怎么生成指纹的,我们就可以有意地改变这一指纹来达到伪原创的目的。我查阅了许多相关资料,知道了一些搜索引擎做网页消重的方法,虽然这些方法的具体计算公式我不是很明白,但是基本上可以概括为下面的几个类型。

关于关键词的网页消重。基于前N个关键字的生成指纹,基于关键字附近的文字来生成指纹等……

关网页描述的网页消重。网页描述的

关于标点符号的网页消重。基于文章标点前后的词来生成指纹。

于是我选择了在SEOWHY论坛做测试,先是在拿了一篇别人的帖子,把主关键词(SEO,博客)替换成(赛欧,BLOG)同样在发表出去,结果是不收录。我觉得是不是我改的不够彻底,因为百度可以认出BLOG是博客。所以我又把(赛欧,BLOG)全部替换成(测试,原创)这样整篇文章的关键字都变成了测试和原创。再次发表出去,结果还是不收录。所以,基于关键词的网页消肿可能性不大

所以,我把目光投在了基于网页描述的网页消重,把第一段的文章调换了一下,改变了网页的描述,结果还是不收录!最后,我把这篇文章的所有逗号删除,句号换成了感叹号,发表出去。结果5分钟就收录了。

两篇文章的所有文字一摸一样,就是改变了标点符号,前者不收录,后者收录了。这证明百度是基于标点符号的网页消重。

由于不方便在同一个论坛不断发表重复内容的帖子。后两个测试帖我放在了超级站长论坛的SEO/SEM板块,名字叫做 《测试实战技巧之养原创》,两篇题目内容基本一样。为了避免AD嫌疑,超级站长论坛的网址我就不发了。大家想看的可以去百度搜索

所以,经过以上测试,我得出初步的结论,百度是基于标点符号的网页消重,也就是说,大家以后伪原创只需要把标点符号位置改了,或者把标点前后的文字改了。当然,这个只是我的一个初步的结论,到底是不是真的如此还需要大家来论证!另外,本测试只针对百度,不包括百度外的所搜引擎~。

No comments:

Post a Comment