nutch的抓取流程以及手动实践-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

nutch的抓取流程以及手动实践

阅读量：5890 次

发布时间：2019-06-19

本文共 783 字，大约阅读时间需要 2 分钟。

inject -> generate -> fetch -> parse -> updatedb

第一个流程为把链接地址注入数据库

其对应的java 类为 org.apache.nutch.crawl.Injector

实践

./bin/nutch inject data3/crawldb urls/

第二生成segment。Nutch抓取程序需要抓取到很多的页面，那么具体是哪些页面的？当然，在互联网上是通过URL来定位的。这一步骤主要是对上一步提交的URL集合进行分析，确定抓取任务的详细信息。

org.apache.nutch.crawl.Generator

./bin/nutch generate data3/crawldb/ data3/segments

第三分析提交的URL集合之后，将页面内容抓取下来，存于segment目录下。

org.apache.nutch.fetcher.Fetcher

./bin/nutch fetch data3/segments/20130529160808/

第四内容解析器。抓取到的页面文件被提交到这里，实现对页面文件的处理，包括页面文件的分析和处理。

org.apache.nutch.parse.ParseSegment

./bin/nutch parse data3/segments/20130529160808/

第五更新数据库

org.apache.nutch.crawl.CrawlDb

./bin/nutch updatedb data3/crawldb/ -dir data3/segments/

图片来自于杨尙川的视频截图

其抓取过程的一些解释参考于

本文转自拖鞋崽 51CTO博客，原文链接:http://blog.51cto.com/1992mrwang/1212737

转载地址：http://dybsx.baihongyu.com/

你可能感兴趣的文章

王潮歌跨界指导HUAWEI P20系列发布会颠覆传统眼界大开！

王高飞：微博已收购一直播明年一季度重点是功能与流量打通

趣头条发行区间7至9美元预计9月14日美国上市

新北市长侯友宜：两岸交流应从隔壁最亲近的人开始

全面屏的Nokia X即将上线，不到2000元的信仰你要充值吗？

HTML5音频audio属性

Centos7搭建Django环境

序列化一个Intent

JavaScript数据类型及语言基础--ife

进阶 Nginx 高手必须跨越的 5 座大山

部署P2P升级的脚本

jenkins--ant持续集成测试build文件脚本测试报告

ubuntu下安装libxml2

nginx_lua_waf安装测试

easyui 只刷新当前页面的数据 datagrid reload 方法

58到家完成3亿美金A轮融资阿里平安等投资

Mysql-mmm高可用方案安装及配置

【狂人小白】MyBatis.001 学习巴提斯！

全面解析C#中参数传递

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-26 12:25:47 当前IP: 18.119.135.67 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我