本文共 783 字,大约阅读时间需要 2 分钟。
inject -> generate -> fetch -> parse -> updatedb
第一个流程为把链接地址注入数据库
其对应的java 类为 org.apache.nutch.crawl.Injector
实践
./bin/nutch inject data3/crawldb urls/
第二 生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过URL来定位的。 这一步骤主要是对上一步提交的URL集合进行分析,确定抓取任务的详细信息。
org.apache.nutch.crawl.Generator
./bin/nutch generate data3/crawldb/ data3/segments
第三 分析提交的URL集合之后,将页面内容抓取下来,存于segment目录下。
org.apache.nutch.fetcher.Fetcher
./bin/nutch fetch data3/segments/20130529160808/
第四 内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。
org.apache.nutch.parse.ParseSegment
./bin/nutch parse data3/segments/20130529160808/
第五 更新数据库
org.apache.nutch.crawl.CrawlDb
./bin/nutch updatedb data3/crawldb/ -dir data3/segments/
图片来自于 杨尙川的 视频截图
其抓取过程的一些解释 参考于
转载地址:http://dybsx.baihongyu.com/