程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> JAVA編程 >> JAVA綜合教程 >> Nutch2.x+Hbase環境部署和基本使用,nutch2.xhbase

Nutch2.x+Hbase環境部署和基本使用,nutch2.xhbase

編輯:JAVA綜合教程

Nutch2.x+Hbase環境部署和基本使用,nutch2.xhbase


     由於項目想借助Nutch來做網絡爬蟲,所以一番研究,發現網上文檔比較散,學習的很艱難,因此總結了一些,放上來與大家交流。

1       環境部署

Nutch有1.x系列和2.x系列,主要區別是2.x使用了Gora作為持久層媒介,可以將數據持久化到關系型數據庫,更詳細的介紹參考Nutch官網。

這裡主要介紹采用Nutch2.3.1+HBase的方式進行部署,HBase又依賴於HDFS和Zookeeper,實際上,Nutch只是將HBase視為持久層,而並不關心HBase是單機模式還是分布模式,HBase又是將文件存儲於HDFS,將元數據(表信息)存儲於zookeeper,只不過單機模式下,把文件系統視為HDFS,而zookeeper可以使用內置,也可以使用外置的zookeeper。

安裝Nutch

解壓縮源碼包:

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved