Scrapy 中文文档

Scrapy是一个快速、高效率的网络爬虫框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy被广泛用于数据挖掘、监测和自动化测试。

获得帮助

遇到困难了?我们乐意帮你解决!

第一步

预览Scrapy
了解什么是Scrapy,它是如何帮助你的。
安装指南
在你的电脑上安装Scrapy。
Scrapy 教程
编写你的第一个Scrapy项目。
例子
通过运行一个内置的Scrapy例程进一步学习。

基本概念

命令行工具
了解如何通过命令行管理Scrapy项目。
爬虫器
定义网站爬虫规则。
选择器
使用Xpath从网页中提取数据。
Scrapy shell
在交互式环境中测试解析程序。
Items
定义你想要获取的数据。
Item 加载器
将提取的数据填充到项目中。
Item 管道
处理和保存抓取到的数据。
Feed 导出
将你抓取到的数据以不同的方式输出储存。
请求和响应
使用不同的类来实现HTTP的请求和响应。
链接提取
便捷的类,用于提取页面中的超链接并继续跟进。
设置
了解如何配置Scrapy和查看所有的 可用配置.
异常
查看所有可用的异常及其含义。

内置服务

日志
了解如何在Scrapy上使用Python的内置日志。
统计数据集合
收集有关你的抓取爬虫的统计数据。
发送邮件
当某些事件发生时发送电子邮件通知。
远程控制台
使用内置的Python控制台检查正在运行的爬虫器。
Web Service
使用web服务监视和控制爬虫程序。

解决具体问题

常见问答
获取最常见问题的答案。
Debug 爬虫器
了解如何Debug调试你的Scrapy爬虫常见问题。
爬虫器约束
了解如何使用约束条件来测试你的爬虫爬虫器。
常见实践
熟悉一些Scrapy常见的实践案例。
并发爬虫
优化Scrapy去并行爬取大量的域名。
使用浏览器的开发工具进行抓取
学习如何使用浏览器的开发工具抓取。
内存泄漏调试
学习查找和删除爬虫器中的内存泄漏。
下载并处理文件和图片
从抓取到数据中下载你在item中定义过的文件和图片。
部署爬虫器
部署你的Scrapy爬虫器并在远程服务器上运行它们。
爬虫器节流
根据负载动态调整爬虫速度。
爬虫器硬件性能
检查一下Scrapy在硬件上的性能。
作业:暂停并恢复爬行
学习如何暂停并继续大型的爬虫器。

Scrapy 扩展

框架体系
理解Scrapy的架构。
下载器中间件
定制爬虫页面如何请求和下载。
爬虫器中间件
自定义你的爬虫器的输入和输出。
扩展
使用你自定义的函数扩展Scrapy。
核心API
在扩展和中间件上使用它来扩展Scrapy功能。
信号
查看所有可用的信号以及如何使用它们。
Item 导出文件
快速导出你的抓取项目到一个文件(XML, CSV等)。

其他

Scrapy更新
看看在最近的Scrapy版本中发生了什么变化。
贡献Scrapy代码
了解如何为Scrapy仓库贡献代码。
版本控制和API稳定性
了解Scrapy的版本控制和API的稳定性。