WebMagic(爬虫)

2016-12-09

爬虫文档

负责待爬页面的link管理

新抓取的link

link去重复

负责从网页上下载页面

使用Apache HttpClient 作为下载工具

由于是访问网页，可能会出现超时返回错误等异常，需要异常处理

负责解析页面，抽取需要的数据信息，发现新link

使用jsoup作为解析html的工具

每个PageProcessor都需要开发者自己定制

Pipeline负责抽取结果的处理

可以把结果做包括计算、持久化到文件、数据库等处理

由于绝大部分真正需要的数据都是不同的页面组合，所以我加了一个处理结果的步骤HandleResult，该步骤在所有爬虫任务结束后执行，需要开发者自己定制