我们在做网站优化的时候,对自己写的文章当然是希望每篇都可以收录的,可是实际的工作中我们会发现网站内容的收录并不是我们想的那样,对此我们要从深入去了解蜘蛛。百度蜘蛛在进入我们的网站时候,一般会对网站中的每一篇文章进行爬取,可是为什么不是所有的文章都收录呢?
百度蜘蛛对网站中的内容爬取可以分为两种方式,即我们我们常说的广度和深度。从深度来看,蜘蛛会从网站的首页开始爬,之后找到一个目录,顺着这个目录一直去爬,直到最后没有网页可以爬了,就回到根目录下;而另一种的广度爬取,是蜘蛛在同一层的网页上来爬取,网站的首页会有多个目录,广度就是爬完这些目录之后在爬取目录以下的网页。当我们做一个大型网站的时候,以上的体现是最明显的,蜘蛛在爬取的时候也是采用深度和广度相结合来爬取,不管是何种爬取都要注意一点就是不可以让蜘蛛进入一个死胡同。
以上介绍的两种爬取方式,我们从中不难发现蜘蛛的工作原理,根据以上的详情来有针对性的做网站,这样做出来的网站才更加有利于优化。
百度搜索:如何权衡深度与广度
当今我们都热衷于使用国内最大的搜索引擎百度,它也是全球最大的中文搜索引擎。多年来,我们都已经习惯了百度,也有不少人非常迷恋百度,尤其是不熟悉互联网的用户,更是觉得百度是万能的。谷歌退出中国大陆之前,百度跟谷歌还在较劲,那时的百度也是活力十足,不时有让人惊喜的创新推出。但是谷歌退出之后,百度就一枝独秀了,很快统治了中国搜索市场。或许是缺乏竞争,百度也一下子松懈了,虽然小资队伍日益壮大,但是从那时起也没有太多的令人心动创新产品推出了。中国网民增长迅速,对于新网民来说,当前的百度已经有足够的吸引力了,也没有太高的要求。对于老网民来说,虽然偶尔会抱怨一下百度,但是还是基本满意的,况且百度根本没有渠道吸纳网民的意见。
直到近一两年,搜索市场的骚动加剧,不少具创新元素进入搜索市场。国内也有巨头试水搜索市场(比如360),搅动了死水一潭的搜索领域。但是在诸多创新元素当中,最具颠覆性的是这两个:实体搜索和开放搜索。
谷歌的知识图谱已经研制了两年多,2012年五月份才正式推出,目的是实现“直接给出答案”的实体搜索。开放式搜索由中国搜索引擎之父陈沛在2011年10月份提出,目的是把广大的民众智慧融入到搜索结果,实现更加丰富和个性化的搜索。
然而这两者虽然都是搜索界具有颠覆性的创新,也代表了未来的趋势,但是两者的方向却有相背离的尴尬。
首先,未来的搜索需要实体搜索的深度和精度。“所搜即所得”、“直接给出答案”是现在众多网民的追求,这种搜索更加精准,更有效率,所触及的内容深度也足够,可以很快给出让人满意的答案。比如说像先前测试的“不掉毛的狗”,直接给出这种整理好的狗的品种,这就是实体搜索的魅力,无需进行二次筛选。百度目前只是提供了部分实体搜索的结果,而搜狗的“知立方”相对比较完善。
但是,要实现完美的实体搜索,搜索引擎的主导作用很大,需要搜索引擎有一个强大的知识库,这种知识库不仅需要有内容对象,还需要进行对象之间复杂的关系梳理。像搜“上海的踢足球的地方”、“张艺谋的爱情电影”这种词时,既有对象,又需要判断对象关系,这样的话,搜索引擎需要在背后做大量的整合工作,这种知识图谱的构建也需要一步步缓慢进行。
可以预见,这种实体搜索的时效性和广泛性是比较差的。当需要搜一些像微博、评论这种时效性强、个性化内容时,实体搜索显然无法满足要求。也就是说,实体搜索可以很好地挖掘内容深度,却很难把握内容广度,而能够把握内容广度的,只有开放式搜索能够实现。开放式搜索把广大用户的智慧吸纳进来,能够把最新鲜、最广泛的内容整合出来,但是搜索引擎只能做一些组织和引导工作,实际上也很难对这些海量的内容实现有效维护,这样的话搜索引擎的地位就会相对弱化,这与实体搜索又存在一些矛盾的地方。
[Ok3w_NextPage]如果将来两者能够实现完美融合,搜索引擎将会是一个比现在优秀得多的工具。在国内,虽然抱怨百度封闭、寡头的人非常多,但是实际上它在实现开放跟实体融合上面是比较有潜力的。一方面它很早就对用户开放了很多产品,如百科、文库、知道、贴吧、经验等,这些产品内容都是非常优质的,为构建实体搜索的知识图谱打下了坚实的基础。
因此,我们在抱怨百度,在期待360的颠覆性创新的同时,也期待百度能够尽快把开放跟实体进一步融合,让我们的搜索体验能够更加幸福。
本文由:雾化喷嘴www.hbhb8.com发布。