博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
nutch的抓取流程 以及 手动实践
阅读量:5890 次
发布时间:2019-06-19

本文共 783 字,大约阅读时间需要 2 分钟。

inject -> generate -> fetch -> parse -> updatedb

第一个流程为把链接地址注入数据库

   其对应的java 类为 org.apache.nutch.crawl.Injector

实践

./bin/nutch inject data3/crawldb urls/

第二  生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过URL来定位的。 这一步骤主要是对上一步提交的URL集合进行分析,确定抓取任务的详细信息。

org.apache.nutch.crawl.Generator

./bin/nutch generate data3/crawldb/ data3/segments

第三 分析提交的URL集合之后,将页面内容抓取下来,存于segment目录下。

org.apache.nutch.fetcher.Fetcher

./bin/nutch fetch data3/segments/20130529160808/

第四 内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。

org.apache.nutch.parse.ParseSegment

./bin/nutch parse data3/segments/20130529160808/

第五 更新数据库

org.apache.nutch.crawl.CrawlDb

./bin/nutch updatedb data3/crawldb/ -dir data3/segments/

图片来自于 杨尙川的 视频截图

其抓取过程的一些解释 参考于 

本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1212737

转载地址:http://dybsx.baihongyu.com/

你可能感兴趣的文章
王潮歌跨界指导HUAWEI P20系列发布会 颠覆传统 眼界大开!
查看>>
王高飞:微博已收购一直播 明年一季度重点是功能与流量打通
查看>>
趣头条发行区间7至9美元 预计9月14日美国上市
查看>>
新北市长侯友宜:两岸交流应从隔壁最亲近的人开始
查看>>
全面屏的Nokia X即将上线,不到2000元的信仰你要充值吗?
查看>>
HTML5音频audio属性
查看>>
ES6学习
查看>>
Centos7搭建Django环境
查看>>
序列化一个Intent
查看>>
JavaScript数据类型及语言基础--ife
查看>>
进阶 Nginx 高手必须跨越的 5 座大山
查看>>
部署P2P升级的脚本
查看>>
jenkins--ant持续集成测试build文件脚本 测试报告
查看>>
ubuntu下安装libxml2
查看>>
nginx_lua_waf安装测试
查看>>
easyui 只刷新当前页面的数据 datagrid reload 方法
查看>>
58到家完成3亿美金A轮融资 阿里平安等投资
查看>>
Mysql-mmm高可用方案安装及配置
查看>>
【狂人小白】MyBatis.001 学习巴提斯!
查看>>
全面解析C#中参数传递
查看>>