公司网站已经上线了有3个月了,google上面有一千多条网页的收录,在某些关键词的排名上也有不错的效果。可是百度的结果让人很失望,到目前为止还只是一条首页的收录记录,并且更新还很慢。百度的更新是出了名的慢,所以众多站长为此非常烦恼。说起这个方面,Google说什么还真的比较地道一些。
但是,3个月还不收录内页,这个现象让我非常的担心。原本担心是否我的程序有问题。可是我服务的几个客户全部都收录了内页,而且都是在2-3周的时候开始收录的。所以,不应该是程序的问题。那内容和操作呢?是否是给百度认为作弊了呢?可是我没有对我的网站做任何作弊的行为啊。
在经过仔细的分析以后,我初步得出以下的猜想,与大家分享一下。
看了很多关于百度收录的文章,发现百度收录有一个特点,就是关注原创性。如果百度认为这个网站的原创性不够,甚至主要的文章内容为转载,则会一直保持收录首页,进行观察。如果这个假设成立,那么我的网站只被收录首页就很好解释了。因为在网站建设初期,为了尽快丰富网站内容,做了大量的转载。虽然自己也写了很多内容,可是原创的文章大概只是占20%的程度。而相比之下,我的客户的网站,在建设初期,主要的网站内容都是客户的产品,所以原创性非常高。直到后期才陆续转载他人的文章。所以,其他客户的网站百度的收录是正常的。甚至其中的一个客户,由于产品的数量最高,所以获得了最高的收录。那些转载的文章,似乎始终不被收录。
这样说来,一切问题似乎都得到了很好的解释,也符合逻辑。可是,我们的技术总监提出,它为什么要这样去做呢?判断一个文章是否原创,对信息抓取的时候系统的负荷会更加沉重的。为了验证这个百度对转载尽量不收录的猜测,我们做了一个简单的试验。有兴趣的朋友可以进一步验证。我尝试用带引号的方式输入以下内容,分别得到了百度和google的收录数量,可以明显看到百度的数量要比google少很多。似乎可以验证以上的说法。
| 百度收录 | 谷歌收录 | |
| 猪流感 | 290 | 1,070 |
| 凯美瑞断轴 | 899 | 1,440 |
| 油价上涨 | 2,570,000 | 8,550,000 |
所以,我们猜测,百度虽然在抓取时消耗更大的系统资源来进行验证,可是却获得了更少冗余的文章,对于用户来说是更为友好一些的。而且,由于被检索的数据库数据量比较少,检索时所耗费的时间自然更少一些。这样说来,百度的这种做法似乎更加优化一些。如果说百度比google更晚一点面世的,那么百度的这种考虑自然是从google的经验得出,也为了将搜索结果更加精确,减少重复内容。
百度的这种做法似乎更加吻合中国的国情。因为我国人民抄的能力特别强嘛。
以上纯属猜测,欢迎大家讨论,探求真知。
也不能完全说是抄的,毕竟对信息做了分类整理,暂时还是留着吧。网站当中会增加一个栏目,增加原创性,看看是否有比较好的效果。这位朋友我们可以一起关注一下。