爬虫文档
爬虫核心
1. url管理器(Scheduler)
- 负责待爬页面的link管理
- 新抓取的link
- link去重复
2. 下载器(Downloader)
- 负责从网页上下载页面
- 使用Apache HttpClient 作为下载工具
- 由于是访问网页,可能会出现超时返回错误等异常,需要异常处理
3. 解析器(PageProcessor)
- 负责解析页面,抽取需要的数据信息,发现新link
- 使用jsoup作为解析html的工具
- 每个PageProcessor都需要开发者自己定制
4. 结果处理器(Pipeline和HandleResult)
- Pipeline负责抽取结果的处理
- 可以把结果做包括计算、持久化到文件、数据库等处理
- 由于绝大部分真正需要的数据都是不同的页面组合,所以我加了一个处理结果的步骤HandleResult,该步骤在所有爬虫任务结束后执行,需要开发者自己定制