Scrapy 中文文档¶
Scrapy是一个快速、高效率的网络爬虫框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy被广泛用于数据挖掘、监测和自动化测试。
获得帮助¶
遇到困难了?我们乐意帮你解决!
- 试试 FAQ – 这里有一些常见问题的解答。
- 寻找具体信息? 试试 索引 or 模块索引。
- 在 StackOverflow using the scrapy tag 里提问或搜索问题。
- 在 Scrapy subreddit 里提问或搜索问题。
- 在 scrapy-users mailing list 文档里搜索问题。
- 在 #scrapy IRC channel 上提问。
- 提交Scrapy错误报告请点击 issue tracker。
第一步¶
基本概念¶
内置服务¶
- 日志
- 了解如何在Scrapy上使用Python的内置日志。
- 统计数据集合
- 收集有关你的抓取爬虫的统计数据。
- 发送邮件
- 当某些事件发生时发送电子邮件通知。
- 远程控制台
- 使用内置的Python控制台检查正在运行的爬虫器。
- Web Service
- 使用web服务监视和控制爬虫程序。
解决具体问题¶
- 常见问答
- 获取最常见问题的答案。
- Debug 爬虫器
- 了解如何Debug调试你的Scrapy爬虫常见问题。
- 爬虫器约束
- 了解如何使用约束条件来测试你的爬虫爬虫器。
- 常见实践
- 熟悉一些Scrapy常见的实践案例。
- 并发爬虫
- 优化Scrapy去并行爬取大量的域名。
- 使用浏览器的开发工具进行抓取
- 学习如何使用浏览器的开发工具抓取。
- 内存泄漏调试
- 学习查找和删除爬虫器中的内存泄漏。
- 下载并处理文件和图片
- 从抓取到数据中下载你在item中定义过的文件和图片。
- 部署爬虫器
- 部署你的Scrapy爬虫器并在远程服务器上运行它们。
- 爬虫器节流
- 根据负载动态调整爬虫速度。
- 爬虫器硬件性能
- 检查一下Scrapy在硬件上的性能。
- 作业:暂停并恢复爬行
- 学习如何暂停并继续大型的爬虫器。
Scrapy 扩展¶
其他¶
- Scrapy更新
- 看看在最近的Scrapy版本中发生了什么变化。
- 贡献Scrapy代码
- 了解如何为Scrapy仓库贡献代码。
- 版本控制和API稳定性
- 了解Scrapy的版本控制和API的稳定性。