正文

python爬虫编程思想（145）：使用scrapyshell抓取web资源

蒙娜丽宁  蒙娜丽宁  2023-03-11  318

关键词：

Scrapy提供了一个Shell，相当于Python的REPL环境，我们可以用这个Scrapy Shell测试Scrapy代码。

现在打开终端，然后执行scrapy shell命令，就会进入Scrapy Shell。其实Scrapy Shell和Python的REPL环境差不多，也可以执行任何的Python代码，只是又多了对Scrapy的支持，例如，在Scrapy Shell中输入1+3，然后按回车，会输出4，如图1所示。

Scrapy主要是使用XPath过滤HTML页面的内容。那么什么是XPath呢？也就是类似于路径的过滤HTML代码的一种技术，关于XPath的内容后面再详细讨论。本节基本不需要了解XPath就可以使用，因为Chrome可以根据HTML代码的某个节点自动生成XPath。

现在先体验下什么叫XPath。启动Chrome浏览器࿰

python爬虫编程思想（145）：使用scrapyshell抓取web资源

Scrapy提供了一个Shell，相当于Python的REPL环境，我们可以用这个ScrapyShell测试Scrapy代码。现在打开终端，然后执行scrapyshell命令，就会进入ScrapyShell。其实ScrapyShell和Python的REPL环境差不多，也可以执行任何的Python代码，只是又多了对... 查看详情

python爬虫编程思想（148）：在pycharm中使用扩展工具运行scrapy程序

在上一篇文章中编写了一个execute.py文件用于运行Scrapy程序。其实本质上也是执行scrapy命令来运行Scrapy程序。不过每创建一个Scrapy工程，都要编写一个execute.py文件放到PyCharm工程中用于运行Scrapy... 查看详情

python爬虫编程思想（51）：使用beautifulsoup选择节点

目录1.选择节点（1）获取节点的名称（2）获取节点的属性查看详情

python爬虫编程思想（67）：使用pyquery修改节点

目录1. 添加和移除节点的样式（addClass和removeClass）2.修改节点属性和内容（attr、removeAttr、text和html）查看详情

python爬虫编程思想（12）：搭建代理与使用代理(代码片段)

Python爬虫编程思想（13）：读取和设置Cookie 最常见的反爬技术之一就是通过客户端的IP鉴别是否为爬虫。如果同一个IP在短时间内大量访问服务器的不同页面... 查看详情

python爬虫编程思想（67）：使用pyquery修改dom节点

目录1. 添加和移除节点的样式（addClass和removeClass）2.修改节点属性和内容（attr、removeAttr、text和html）查看详情

python爬虫编程思想（132）：使用appium抓取移动数据--appiumpythonclientapi

目录1.初始化（Remote类）2.查找元素3. 单击元素4.屏幕拖动5.屏幕滑动查看详情

python爬虫编程思想（135）：多线程和多进程爬虫--python与线程

目录1.使用单线程执行程序2.使用多线程执行程序3.为线程函数传递参数4.线程和锁查看详情

python爬虫编程思想（23）：使用requests验证ssl证书

目录1.生成私钥文件2.生成csr文件3.生成证书文件（crt文件）在用requests请求HTTPSURL时，如果证书验证错误，默认会抛出如图查看详情

python爬虫编程思想（65）：使用pyquery查找节点

目录1.查找子节点2.查找父节点3.查找兄弟节点本文会介绍一些常用的查询函数，这些函数与jQuery中的函数用法完全相同，用于查找用于查找HTML文档中的节点。本文的所有例... 查看详情

python爬虫编程思想（65）：使用pyquery查找节点

python爬虫编程思想（127）：使用appium抓取移动数据--安装和配置appium

目录1.安装Appium桌面端1.直接下载Appium桌面端安装程序2.使用npm命令安装2.配置Android开发环境查看详情

python爬虫编程思想（146）：创建和使用scrapy工程(代码片段)

Scrapy框架提供了一个scrapy命令用来建立Scrapy工程，可以使用下面的命令建立一个名为myscrapy是Scrapy工程。scrapystartprojectmyscrapy 执行上面的命令后，会在查看详情

python爬虫编程思想（146）：创建和使用scrapy工程(代码片段)

python爬虫编程思想（25）：使用requests实现身份验证和请求打包

目录1.身份验证2.将请求打包1.身份验证使用urllib库进行身份验证时，需要使用一大堆类，如HTTPPasswordMgrWithDefaultRealm、HTTPBasicAuthHandler等，非常麻烦。使用requests进行身份验证就简单得多，只需... 查看详情

python爬虫编程思想（14）：网络爬虫中的异常处理(代码片段)

目录1.URLError2.HTTPError 在前面的文章中详细讲解了发送请求的过程，但这是在正常情况下的使用。如果非正常使用，例如，提供的URL根本就是错的，那么在发... 查看详情

python爬虫编程思想（154）：使用scrapy处理登录页面

在抓取Web页面数据时，并不是每一个页面的数据在任何时候都可以抓取到。有一些页面，需要用户登录后才可以在浏览器中显示，如果想通过爬虫抓取这样的页面，同样也需要登录。也就是说，这... 查看详情