管理资源吧

当前位置:管理资源吧首页>>>meiwen>>>c5>>>百科知识

搜索引擎是如何判断伪原创的

  搜索引擎如何判断网站上的内容是否伪原创,是不是只要中心思想改变,或者调整文章段落,搜索引擎就会认为是原创呢?本文从相似数据监测的角度,解密如果两篇文章,只是段落改变,或者原创一小段话,甚至关键词替换,能否达到原创的目的,欢迎拍砖。

  搜索引擎如何判断伪原创:

  在介绍伪原创之前,先来熟悉一个概念,一般来说,搜索引擎判断复制网页都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。

  什么是信息指纹?信息指纹就是把网页里面正文信息,提取一定的信息,可以是关键字、词、句子或者段落及其在网页里面的权重等,对它进行加密,如MD5加密,从而形成的一个字符串。信息指纹如同人的指纹,只要内容不相同,信息指纹就不一样。

  我们来看一个例子:

  这是一段从Q猪博客的<绿萝2.0揭秘>上,截取的一段文字,“绿萝2.0打击的对象:软文交易平台、软文发布站、软文收益站三类,这和百度惩罚外链购买的方式类似,首先惩罚软文的买卖双方,再惩罚,提供买卖软文交易的平台,相信今后一段时间内,在这些有名的新闻上,那些明显的推广性质软文将会减少,软文的质量将会提高,对用户而言,这些文章将会有更高的可读性。”

  我们提取一下,找出这段话的特征词,包括文章中出现最多的词:1、软文;2、惩罚;

  这里可以看出,这段文字出现最多的是“软文”,其次是“惩罚”,以前有些所谓的伪原创工具,就是调换这些特征词,比如将“软文”改成“SEO”,“惩罚”改成“奖励”,这些特征词的改变,就会导致文章中的信息指纹出现很大的变化。

  通过搜集文章指纹,来判断是否原创,是搜索引擎的一种最基本的算法,所以网络上,一些网站通过转载文章,修改标题,调换段落等手法,对文章进行改造,这些文章,在搜索引擎眼里都是同一篇文章。

  伪原创还有一种情况就是,多篇文章,截取不同的段落,然后再重新组合,构成新的一篇文章,其实这种方式,对于搜索引擎判断是否原创,也是没有作用的,因为搜索引擎搜集指纹,可以段落或者更小的单元作为基础,这样,文章的每一段文字,搜索引擎都可以在数据库中,找到原创的地址,最后,这篇组合的文章,还是会被搜索引擎认定为转载。

  Q猪对伪原创的建议:

  1、通过翻译国外文章,由于文章是不同语言之间翻译得到的,所以两者的信息指纹是完全不同的

  2、修改文章的信息指纹,调整文字间的特征词

  当然,作为搜索引擎,最不喜欢的,就是网站运营者,通过一些搜索引擎的漏洞,反过来戏弄搜索引擎,这种情况,一旦被搜索引擎发现,网站将受到很严厉的惩罚,而且这种伪原创的方式,用户体验会很差,从而进一步影响网站在搜索引擎中排名表现,所以,对于网站管理者来说,真正有效的内容,是原创用户真正想要的内容。本文由Q猪博客(http://www.seozoro.com/)原创发布,尊重版权,转载请注明出处。

meiwen首页 更多meiwen