1.Nutch
Nutch是Lucene的作者Doug Cutting发起的另一个开源项目,它是构建于Lucene基础上的完整的Web搜索引擎系统,虽然诞生时间不长,但却以其优良血统及简洁方便的使用方式而广收欢迎。我们可以使用Nutch搭建类似Google的完整的搜索引擎系统,进行局域网、互联网的搜索。
2.YaCy
YaCy是一款基于P2P(peer-to-peer)的分布式开源Web搜索引擎系统,采用Java语言进行编写,其核心是分布在数百台计算机上的被称为YaCy-peer的计算机程序,基于P2P网络构成了YaCy网络,整个网络是一个分散的架构,在其中所有的YaCy-peers都处于对等的地位,没有统一的中心服务器,每个YaCy-peer都能独立的进行互联网的爬行抓取、分析及创建索引库,通过P2P网络与其他YaCy-peers进行共享,并且每个YaCy-peer又都是一个独立的代理服务器,能够对本机用户使用过的网页进行索引,并且采取多机制来保护用户的隐私,同时用户也通过本机运行的Web服务器进行查询及返回查询结果。
YaCy搜索引擎主要包括五个部分,除普通搜索引擎所具有的爬行器、索引器、反排序的索引库外,它还包括了一个非常丰富的搜索与管理界面以及用于数据共享的P2P网络。
相关日志
- 2009-12-29 -- 网站收录减少是怎么回事
网站收录减少的几个现象:
1、网站收录基本正常,只有收录内容减少。
网站收录基本正常,只有收录内容减少,这是常事,特别是对于新站。就像我的两个网站电影网和图片网被引擎收录后,短短几天收录数量突飞猛... - 2008-12-11 -- 如何选择Apache,Nginx,Lighttpd的web服务
如果你不确定应该用什么服务器,那就应该用Apache
但是稍微可以配置多个服务的情况下,做一个Nginx在最前端,然后把需要的功能转发给Apache是最好的选择
如果你打算跑fcgi,Lightt... - 2008-10-16 -- web压力测试工具—Siege
获取地址:
ftp://ftp.joedog.org/pub/siege/siege-latest.tar.gz
修改siege配置
vi ~/.siegerc
调整:
verbos... - 2008-10-13 -- 分析Nutch爬虫(Crawler)
爬虫,Crawler:
Crawler的重点在两个方面,Crawler的工作流程和涉及的数据文件的格式和含义。数据文件主要包括三类,分别是web database,一系列的segment加上in... - 2008-10-13 -- 高效开源网络蜘蛛-larbin
相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。
1larbin的简介
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人?Sébastien Ailleret... - 2008-10-12 -- 开源搜索引擎工具包
1.Lucene
Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。L...
如果你觉得这篇文章不错,你可以 给我留个回复或订阅它。无论如何,谢谢你的支持!
评论
还没有评论。
发表评论