搜索引擎工作原理 带你深入了解搜索引擎的工作方式
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
一、了解爬行器或爬行蜘蛛是怎样搜集信息
搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。
那么它就必须到这个浩瀚的互联网世界是抓取这些信息。据报道,全球网民已经达到十几亿的规模了,那么这十几亿网民中,可想而知,每天能够产生多少信息?搜索引擎又有何能耐把这么多的信息收录在自己的信息库中?它又如何做到以最快的速度取得这些信息的呢?
首先,了解什么是爬行器(crawler),或叫爬行蜘蛛(spider)。称谓很多,但指的都是同一种东西,都是描述搜索引擎派出的蜘蛛机器人在互联网上探测新信息。而各个搜索引擎对自己的爬行器都有不同的称谓:百度的叫Baiduspider;Google的叫Googlebot,MSN的叫 MSNbot,Yahoo则称为Slurp。这些爬行器其实是用计算机语言编制的程序,用以在互联网中不分昼夜的访问各个网站,将访问的每个网页信息以最快的速度带回自己的大本营。
二、搜索引擎每次能带回多少信息怎样整理信息
要想这些爬行蜘蛛每次能够最大最多的带回信息,仅仅依靠一个爬行蜘蛛在互联网上不停的抓取网页肯定是不够的。所以,搜索引擎通过都会派出很多个爬行蜘蛛,让它们通过浏览器上安装的搜索工具栏,或网站主从搜索引擎提交页面提交而来的网站为入口开始爬行,爬行到各个网页,然后通过每个网页的超级链接进入下一个页面,这样不断的继续下去
搜索引擎整理信息的过程称为"建立索引"。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。
三、蜘蛛们是如何爬行的?
所有的蜘蛛的工作原理都是首先从网络中抓取各种信息回来,放置于数据仓库里。为什么称为数据仓库?因为此时的数据是杂乱无章的,还是胡乱的堆放在一起的。因此,此时的信息也是不会出现在搜索结果中的,这就是为什么有些网页明明有蜘蛛来访问过,但是在网页中还不能找到结果的原因。
搜索引擎将从网络中抓取回来的所有资料,然后通过关键字描述等相关信息进行分门别类整理,压缩后,再编类到索引里,还有一部分抓取回来经过分析发现无效的信息则会被丢弃。只有经过编辑在索引下的信息,才能够在搜索结果中出现。最后,搜索引擎则经过用户敲击进的关键字进行分析,为用户找出最为接近的结果,再通过关联度由近及远排列下来,呈现在最终用户眼前。
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
四、重点介绍谷歌Google搜索引擎
Google搜索引擎使用两个爬行器来抓取网页内容,分别是:Freshbot和Deepbot。深度爬行器(Deepbot)每月执行一次,其受访的内容在Google的主要索引中,而刷新爬行器(Freshbot)则是昼夜不停的在网络上发现新的信息和资源,之后再频繁地进行访问和更新。因为,一般Google第一次发现的或比较新的网站就在Freshbot的名单中进行访问了。
Freshbot的结果是保存在另一个单独的数据库中的,由于Freshbot是不停的工作,不停的刷新访问内容,因些,被它发现或更新的网页在其执行的时候都会被重写。而且这些内容是和Google主要索引器一同提供搜索结果的。而之前某些网站在一开始被Google收入,但是没几天,这些信息就在Google的搜索结果中消失了,直到一两个月过去了,结果又重新出现在Google的主索引中。这就是由于Freshbot在不停的更新和刷新内容,而Deepbot要每月才出击一次,所以这些在Freshbot里的结果还没有来得及更新到主索引中,又被新的内容代替掉。直到Deepbot重新来访问这一页,收录才真正进入Google的主索引数据库中!
全世界有成千上万个被称为“搜索引擎”的网站。实际上,这些网站中真正是搜索引擎的不过10个。其中最著名的是Google, Yahoo, Alltheweb, AltaVista和Inktomi等。其他网站的搜索结果都来自于这些搜索引擎,或者他们之间的搜索结果交叉使用。为了让您更好地进行网站推广,对网站进行搜索引擎优化是少不了的。
- « 上一篇:SEO菜鸟入门,SEO基本技巧
- » 下一篇:权重体现网站价值
更多[搜索引擎工作原理]相关信息
- 谷歌内部搜索引擎评估报告谷歌内部搜索引擎评估报告–优化网站页面标题
- 深圳seo|搜索引擎优化|搜索引擎seo重视seo的网站才是有用的网站
- 从搜索引擎百度和谷歌带来流量的办法如何同时既有百度流量又有谷歌流量的办法
- 轻而易举从搜索引擎获得订单做搜索引擎优化使我获得更多订单
- 搜索引擎优化之如何写原创文章好的原创文章是网站优化排名的催化剂
- 搜索引擎网络营销进入黄金阶段企业网络营销严重依赖搜索引擎
- 深圳企业网站推广之搜索引擎优化一份出色的深圳企业网站推广方案是网络营销成功的关键
- 如何做搜索引擎优化策划方案一份详细的seo方案是成功推广网站的保证
- 搜索引擎优化基本原则与要点分析搜索引擎优化需掌握优化技巧
- 利用博客提升网站在搜索引擎的排名养blog开展网络营销网络推广
- 提高博客在搜索引擎排名的技巧
- 针对搜索引擎做网站优化及实施方案
- 搜索引擎报告术语界定
- 搜索引擎研究成果摘要
- 搜索引擎优化如何避免走弯路
- 搜索引擎优化(seo)服务流程
