Linux AS5下的larbin(2.6.3)安装纪录

tar zxvf larbin-2.6.3.tar.gz
修改./adns/internal.h文件,把568-571行直接注释掉
如果不注释掉就会出现以下这种类型的错误
config.h is unchanged (cd src; gmake dep) gmake[1]: Entering directory `/usr/local/server/larbin/larbin-2.6.3/src’ cp ../config.h . for d in utils interf fetch; do (cd $d; gmake dep-in); done gmake[2]: Entering directory `/usr/local/server/larbin/larbin-2.6.3/src/utils’ makedepend -f- -I.. -Y *.cc 2> /dev/null > .depend gmake[2]: Leaving directory `/usr/local/server/larbin/larbin-2.6.3/src/utils’
注释掉options.h中的这行:#define DEFAULT_OUTPUT // do nothing…,
然后使其余的行生效(每行含义,看下面的说明)让SIMPLE_SAVE :生效,取消#define RELOAD的注释(这是下次启动从上次停止的位置开始), 取消#define CRASH的注释,采用 make debug进行编译

修改完毕后
./configure
make
现在安装成功了,我们要进行一些文件的配置
修改配置文件: larbin.conf
a) 修改第36行,startUrl输入起始网页
b) 修改第20行,Proxy
c) 修改连接数,第20行…

运行:./larbin
中止:Ctrl+C
重起:./larbin -scratch

以下是larbin的简介

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。

latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。

相关日志


如果你觉得这篇文章不错,你可以 给我留个回复订阅它。无论如何,谢谢你的支持!

评论

还没有评论。

发表评论

(必填)

(必填)