机器人搜索引擎的工作大致可以分为三个阶段:
第一阶段搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。
第二阶段整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。
第三阶段接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
相关日志
- 2008-10-26 -- 搜索引擎技术研究之技术组成
一个搜索引擎主要包括搜索器、索引器、检索器和用户接口等
搜索器是用于在互联网中漫游,发现和搜集信息。
它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时... - 2008-10-26 -- 搜索引擎技术研究之分类
搜索引擎系统可以分为三大类
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接... - 2008-10-25 -- 根据搜索引擎收录情况看SEO方向
做SEO有段时间了,总是抓不到眉目。自己的博客一直都在更新,有时候一天可以更新10篇左右,但收录情况一直不是很理想。突然有一天我发现,我首推的内容搜索引擎不感兴趣,反而是自己转载的一些文章是百度,go... - 2008-10-17 -- 怎么设置Apache301永久重定向
网站有4个域名,搜索引擎里面的权值都不一样,而且还区分有无WWW的,很乱套,推出一个主域名势在必行。这里以本域名举例说明问题。本来以为要在Apache里面配置这几个域名均为虚拟主机配置,在几个非主域名... - 2008-10-15 -- seo的技术难题
优化难点之一:内容管理系统(CMS)
内容管理系统(CMS)的出现,满足了人们自己创建、发布和更新网站而又不必懂技术的要求。对于那些需要频繁更新或拥有大量投稿群的网站公司来说,CMS系统无疑能够... - 2008-10-12 -- 开源搜索引擎工具包
1.Lucene
Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。L...
如果你觉得这篇文章不错,你可以 给我留个回复或订阅它。无论如何,谢谢你的支持!
评论
还没有评论。
发表评论