7380 - Python库【pyspider】模块详细介绍

admin · 发表于 2021-7-3 19:08:31

马上注册，结交更多好友，享用更多功能，让你轻松玩转新大榭论坛！

您需要登录才可以下载或查看，没有账号？注册

x

前言
pyspider是支持WebUI的，支持任务监控，项目管理，以及多种数据库的一个强大的爬虫框架，这个真的很好用！！！这主要不是教大家怎么使用，怎么怎么样，主要是让大家懂运行的原理，以及框架的整体结构！
今天主要是分为这几部分：

1.为什么要使用pyspider？
# A) c, v4 i, d; v2.pyspider的安装& B3 l- [, O6 j" b ~+ t5 k
3.pyspider简单使用5 s) ?2 i- m$ a' s& w+ y
4.pyspider框架的架构和执行流程

一、为什么要使用pyspider？
我们很好奇，我们明明有了Scrapy框架，为什么还要使用pyspider框架呢？我们说两点

pyspider的优点，它有这么几个优点
6 o8 }2 H) D" e8 A3 `0 g9 i' a1.提供WebUI界面，调试爬虫很方便
9 O, E9 Q2 U6 c; `% V2.可以很方便的进行爬取的流程监控和爬虫项目管理
# E7 w+ |* I/ {1 f% g) t* o2 m+ V3.支持常见的数据库
% h5 Y8 \9 b# A4.支持使用PhantomJS，可以抓取JavaScript页面
! q4 \+ h6 O X! l# u3 F: n5.支持优先级定制和定时爬取等功能

和Scrapy的比较
9 g/ S. f* V9 c5 t1.pyspider 提供 WebUI,Scrapy它采用的是代码和命令行操作，但可以通过对接 Portia 现可视化配置
1 o/ V* h+ M/ _9 }2.pyspider 支持 PhantomJS来进行 JavaScript 谊染页面的采集 Scrapy 可以对接 Sc rapy-Splash组件，这需要额外配置) b0 G1 I& s; \3 W5 @" l" X
3.pyspider 中内置pyquery 作为选择器而Scrapy 接了XPath 对接css选择器和正则匹配! a- x( g' N3 `
4.pyspider的可扩展程度不高，Scrapy可以通过对接其他的模块实现强大的功能，模块之间的耦合度低

总结
所以如果要快速实现一个页面的抓取，推荐使用 pyspider,开发更加便捷,如果要应对反爬程度很强、超大规模的抓取，推荐使用 Scrapy ，

二、pyspider的安装
pyspider的安装相对简单，不需要安装一些列的依赖库直接使用

pip install pyspider

复制代码

然后等待安装成功就行，也可以使用源码安装 pyspider源码BlinkMacSystemFont, "]

三、pyspider的简单使用

1.安装之后先验证是否安装成功，在CMD下输入

pyspider、
两者是一样的，新的pyspider框架已经整合了，所以使用pyspider就好

出现这个则说明运行成功，运行在5000端口，当然这个可以改

2.打开浏览器，输入

http://localhost:5000/

复制代码

弹出两个东西，project name 是你项目的名称 start url 是你要爬取的链接，分别输入以后，再次点击右下角的create，完成创建

整个右边部分，分为这么几个东西
1.右上角的save 是保存按钮，更改代码之后几点保存
2.左上角的#后面的是你创建的一些参数，如创建时间，爬取域名，编码格式等
3.下面的代码部分是创建项目自动生成的，你可以添加一些你自己的东西，我们在这里完成整个项目的爬取、解析、以及保存等工作
crawl_config：项目的所有爬取配置统一定义到这里，如定义 Headers 、设置代理等，配置之后全局生效
@every：设置定时爬取的时间
on_start：爬取入口，初始的爬取请求会在这里产生
self.crawl：该方法是爬取的主方法，被on_start调用，即可新建一个爬取请求，这里面有这么几个参数第一个参数是爬取的 URL ，这里自动替换成我们所定义的 URL ，还有个参数 callback ，它指定了这个页面爬取成功后用哪个方法进行解析，代码中指定为 Idex_page()方法，即如果这个 URL 对应的页面爬取成功了，那 Response 将交给 index_page （）方法解析
index_page：方法接收这个 Response 参数，Response 对接了 pyquery 我们直接调用 doc()方法传入相应的css 选择器，就可以像 query 一样解析此页面，代码中默认是 a[href"="http ”］，也就是说该方法解析了页面的所有链接，然后将链接遍历，再次调用了 crawl （）方法生成了新的爬请求，同时再指定了 callback为detail_page ，意思是说这些页面爬取成功了就调用 detail_page方法解析这里，index_page （）实现了两个功能，一是将爬取的结果进行解析，二是生成新的爬取请求
detail age：接收 Response 作为参数该方法抓取的就是详情页的信息，不会生成新的请求，只对 Response 对象做解析，解析之后将结果以字典的形式返回，将结果保存到数据库

捕获.JPG
点击左上角的pyspider可以返回主控制界面
右上角的run可以让程序开始运行
底边一排功能从左到右依次是 enable css selector helper：快捷替换css选择器 web：产看该URL下的web界面，html：产看该url下的HTML格式，follows：查看一共发起了多少个请求
2.执行点击run可以看到暂时执行后的结果
3.如果不正确，或者爬取信息有误，对右边代码部分进行调试
4.最后返回到控制界面，把status改成running，并点击后面的run按钮开始执行
分别显示5m、1h、1d5分钟一小时以及一天的爬取结果，绿色表示成功，红色表示请求次数太多而放弃，蓝色表示等待执行

一般的使用过程就是确定爬取的网站，创建项目，在crawl_config里进行配置，在index_page里确定要爬取的url，在detail_page里确定要爬取的数据信息

四、pyspider框架的架构和执行流程1.pyspider框架的架构
pyspider的架构相对简单分为这么几个部分：scheduler（调度器）、fetcher（抓取器）、processor（脚本执行）任务由 scheduler发起调度，fetcher抓取网页内容， processor执行预先编写的py脚本，输出结果或产生新的提链任务（scheduler)、整个爬取的过程受，Monitor（监控器）的监控，结果保存在Result Worker（结果处理器）中。
2.每个 pyspider 的项目对应一个 Python 脚本，该脚本中定义了一个Handler 类，它有on_start (）方法爬取首先调用 on_start （）方法生成最初的抓取任务，然后发送给 Scheduler进行调度

3.执行流程

scheduler 将抓取任务分发给 Fetcher 进行抓取， Fetcher 执行并得到响应，随后将响应发送给Processer
Processer 处理响应并提取 url，新的 URL 生成新的抓取任务，然后通过消息队列的方式通知Schduler 当前抓取任务执行情况，并将新生成的抓取任务发送Scheduler 如果生成了提取结果，则将其发送到结果队列等待 Result Worker 处理
Scheduler 接收到新的抓取任务，然后查询数据库，判断其如果是新的抓取任务或者是需要重试的任务就继续进行调度，然后将其发送回Fetcher 进行抓取
不断重复以上流程实现抓取

五、出现错误
pyspider安装和使用出现的一些问题
初学pyspider跳过的坑
基本上常见的错误都在这了！

admin · 发表于 2022-10-18 09:34:53

Pyspider的简单介绍和初使用Pyspider
& W# C( y9 a4 T7 h, pPyspider是由国人(binux)编写的强大的网络爬虫系统/ s9 q+ g) _; G0 o* U' g4 c" \/ `* \. a
Ptspider带有强大的WebUi / 脚本编辑器 / 任务监控器 / 项目管理器以及结果处理器。他支持多种数据库后端 / 多种消息队列 / Javascript 渲染页面爬去。使用起来非常方便。

基本功能

提供了方便易用的 WebUi 系统，可视化的编写和调试爬虫
提供爬去进度监控 / 爬去结果查看 / 爬虫项目管理等功能
支持多种后端数据库，如：MySQL / MongoDB / Rides 等
支持多种消息队列，如：RabbimMQ / Beanstalk / Redis / Kombu
提供优先级控制 / 失败重试 / 定时抓取等
对接了PhantonJS。可以抓取Javascript 渲染的页面
支持单机和分布式部署，支持 Docker 部署' z$ q7 r4 O! \! j

* J0 E/ _' l% {" I  d1 ]8 Z
Pyspider 和 ScrapyPyspider  - 提供了 WebUi ，爬虫编写 / 调试都是在WebUi 中进行的。
Scrapy - 原生是不具备这个功能的，他采用的代码和命令行的操作，但是可以通过对接Portia 实现可视化配置
Pyspider  - 调试非常便捷，WebUi 操作便捷直观
Scrapy - 是使用parse 命令进行调试，方便程度不及Pyspider
Pyspider  - 支持PhantomJS 来进行Javascript 渲染页面的采集。
Scrapy - 可以对接Scrapy-Splash组件实现，不过需要额外的配置
Pyspider  - 中内置了pyquery 作为选择器
Scrapy - 对接了 Xpath / CSS 选择器和正则
Pyspider  - 的可扩展程度不足，可配置化程度不高。
Scrapy - 可以通过对接Middleware / Pipelinc / Extension 等组件来实现非常强大的功能。模块之间的耦合度低，可扩展性高，如果要快速实现一个页面的抓取，推荐使用 Pyspider ，开发更便捷，如：爬去某个新闻网站内容
如果要对应反爬程度很大，规模较大的爬去。推荐使用 Scrapy ，如：封IP / 封账号风险大，高频率验证的网站

Pyspider 架构

Pyspider 架构主要分为 Scheduler（调度器）/ Fetcher（抓取器）/ Processer（处理器）三个部分，整个爬去过程受到 Monitor（监控器）的监控，抓取的结果被 Result Worker（结果处理器）处理

		自动登录	找回密码
密码			注册

[模块] 7380 - Python库【pyspider】模块详细介绍

马上注册，结交更多好友，享用更多功能，让你轻松玩转新大榭论坛！