博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Nutch1.7学习笔记:基本环境搭建及使用
阅读量:6372 次
发布时间:2019-06-23

本文共 2168 字,大约阅读时间需要 7 分钟。

Nutch1.7学习笔记:基本环境搭建及使用

作者:雨水,时间:2013-10-31博客地址:

说明:Nutch有两个主版本1.x和2.x,它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等。本文是以1.x的最新版Nutch1.7 (发布于2013年6月25日)为例。

环境准备

  1. 一台Ubuntu Linux服务器,可以装在VMware虚拟机中。
  2. 下载Nutch1.7版本的二进制包,地址:,选择一个站点进入后,下载1.7目录下的apache-nutch-1.7-bin.zip.
  3. 下载Solr3.6版本的二进制包,地址: ,选择一个站点进入后,下载3.6.2目录下的apache-solr-3.6.2.zip .

安装配置Nutch

将apache-solr-3.6.2.zip解压,然后执行如下命令:

$mv apache-nutch-1.7nutch

$cd nutch

$bin/nutch

上面两行命令是进入解压后的目录,然后执行nutch命令。如果出现” Usage: nutch COMMAND”的帮助提示,则表明安装成功。如果有问题,可以检查看bin/nutch是否有可执行权限,如果没有可执行”chmod +x bin/nutch”命令添加可执行权限然后再尝试”bin/nutch”。

2. 配置JAVA_HOME环境变量

执行” echo $JAVA_HOME”如果返回空,则表明该变量未设置。需执行如下命令:

$cd

$vi .bashrc

然后将如下文本加入到.bashrc的末尾,注意:需将JAVA_HOME的值替换为你的Javajdk的路径。如果没有安装JDK,建议安装OracleJDK.

export JAVA_HOME=/home/dennis/jdk1.6.0_37

然后执行如下命令刷新当前的环境变量:

$. .bashrc

3. 配置Nutch

(1)配置conf/nutch-default.xml

$cd nutch

$ vi conf/nutch-default.xml

将http.agent.name属性的值改为如下:

<property>

 <name>http.agent.name</name>

 <value>My Nutch Spider</value>

</property>

 (2) 创建urls相关配置:

$ mkdir urls

$cd urls

$ touch seed.txt

然后将你希望爬的网址放入seed.txt中,这里以” ”为例。

(3) 编辑conf/regex-urlfilter.txt将原有的

# accept anything else

+.

替换为你以正则表达式匹配的你希望爬的地址。例如:

+^http://([a-z0-9]*\.)*nutch.apache.org/

这是用正则表达式来限制爬虫的范围仅限于nutch.apache.org这个域。

 

运行Nutch:

$ bin/nutch crawl urls -dir crawl -depth 3 -topN5

运行上述命令执行爬虫。

 

与Solr集成:

1. 安装:将apache-solr-3.6.2.zip解压,然后执行如下命令:

$mv apache-solr-3.6.2 solr

$cd solr/example

$ java -jar start.jar

2. 验证:分别访问如下两个链接,需都能正常访问才可。

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp

3. 与Nutch集成:

(1) 拷贝schema.xml配置文件

将nutch/conf/schema-solr.xml拷贝至solr/example/solr/conf/下,并重命名为schema.xml(覆盖原有的)。

(2) 执行”java -jar start.jar”重启Solr,需先进入solr/example目录。

(3) 执行Solr索引命令,如下:

bin/nutch solrindex http://127.0.0.1:8983/solr/crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

注意:执行时需先进入nutch目录。

(4) 访问测试,可以在Query String中输入” GettingStarted”进行查询,可以得到两个结果。

 

还可以集成中文分词,以便更好地支持中文。

集成中文分词相关配置如下:

 

schema.xml

<fieldType name="text"class="solr.TextField">

               <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

       </fieldType>

 

solrconfig.xml

<lib dir="../../contrib/ik/lib"regex=".*\.jar" />

同时需下载对应的jar包放至相应的目录。

 

参考资料:

1.

转载地址:http://bguqa.baihongyu.com/

你可能感兴趣的文章
暗黑世界 网络游戏从0开始搭建
查看>>
绿色版Sublime Text添加右键菜单打开
查看>>
前端学习随笔 -- 前端框架
查看>>
C++多线程编程<一>之常见面试问题
查看>>
记一次DRBD Unknown故障处理过程
查看>>
Outlook 中的错误消息:"没有足够的可用内存来运行该程序。请退出一个或多个程序,然后再试一次"...
查看>>
django manage.py 扩展
查看>>
从Exchange 通往Office 365系列(二)Office 365简介
查看>>
hadoop集群对机器名大小写敏感
查看>>
Linux中UMASK
查看>>
线下移动支付之年,八个问题让你看透手机移动支付应用
查看>>
乐视狂推的大屏游戏生态,是否会成为又一潜力市场?
查看>>
Linux:mail的邮件收发及查看
查看>>
分析函数详解
查看>>
用会 MySQL LIMIT
查看>>
Shiro 整合SpringMVC 并且实现权限管理,登录和注销
查看>>
我的友情链接
查看>>
阿里云大数据工具,让海底捞更懂你
查看>>
linux 内核升级
查看>>
jeesite 通用的 启动流程方法
查看>>