python爬虫编程思想(145):使用scrapyshell抓取web资源

蒙娜丽宁 蒙娜丽宁     2023-03-11     318

关键词:

Scrapy提供了一个Shell,相当于Python的REPL环境,我们可以用这个Scrapy Shell测试Scrapy代码。

现在打开终端,然后执行scrapy shell命令,就会进入Scrapy Shell。其实Scrapy Shell和Python的REPL环境差不多,也可以执行任何的Python代码,只是又多了对Scrapy的支持,例如,在Scrapy Shell中输入1+3,然后按回车,会输出4,如图1所示。

 

        Scrapy主要是使用XPath过滤HTML页面的内容。那么什么是XPath呢?也就是类似于路径的过滤HTML代码的一种技术,关于XPath的内容后面再详细讨论。本节基本不需要了解XPath就可以使用,因为Chrome可以根据HTML代码的某个节点自动生成XPath。

     现在先体验下什么叫XPath。启动Chrome浏览器࿰

python爬虫编程思想(145):使用scrapyshell抓取web资源

Scrapy提供了一个Shell,相当于Python的REPL环境,我们可以用这个ScrapyShell测试Scrapy代码。现在打开终端,然后执行scrapyshell命令,就会进入ScrapyShell。其实ScrapyShell和Python的REPL环境差不多,也可以执行任何的Python代码,只是又多了对... 查看详情

python爬虫编程思想(148):在pycharm中使用扩展工具运行scrapy程序

        在上一篇文章中编写了一个execute.py文件用于运行Scrapy程序。其实本质上也是执行scrapy命令来运行Scrapy程序。不过每创建一个Scrapy工程,都要编写一个execute.py文件放到PyCharm工程中用于运行Scrapy... 查看详情

python爬虫编程思想(51):使用beautifulsoup选择节点

目录1.选择节点(1)获取节点的名称(2)获取节点的属性 查看详情

python爬虫编程思想(67):使用pyquery修改节点

目录1. 添加和移除节点的样式(addClass和removeClass)2.修改节点属性和内容(attr、removeAttr、text和html) 查看详情

python爬虫编程思想(12):搭建代理与使用代理(代码片段)

        Python爬虫编程思想(13):读取和设置Cookie        最常见的反爬技术之一就是通过客户端的IP鉴别是否为爬虫。如果同一个IP在短时间内大量访问服务器的不同页面... 查看详情

python爬虫编程思想(67):使用pyquery修改dom节点

目录1. 添加和移除节点的样式(addClass和removeClass)2.修改节点属性和内容(attr、removeAttr、text和html) 查看详情

python爬虫编程思想(132):使用appium抓取移动数据--appiumpythonclientapi

    目录1.初始化(Remote类)2.查找元素3. 单击元素4.屏幕拖动5.屏幕滑动 查看详情

python爬虫编程思想(135):多线程和多进程爬虫--python与线程

        目录1.使用单线程执行程序2.使用多线程执行程序3.为线程函数传递参数4.线程和锁 查看详情

python爬虫编程思想(23):使用requests验证ssl证书

       目录1.生成私钥文件2.生成csr文件3.生成证书文件(crt文件)    在用requests请求HTTPSURL时,如果证书验证错误,默认会抛出如图 查看详情

python爬虫编程思想(65):使用pyquery查找节点

    目录1.查找子节点2.查找父节点3.查找兄弟节点        本文会介绍一些常用的查询函数,这些函数与jQuery中的函数用法完全相同,用于查找用于查找HTML文档中的节点。本文的所有例... 查看详情

python爬虫编程思想(65):使用pyquery查找节点

    目录1.查找子节点2.查找父节点3.查找兄弟节点        本文会介绍一些常用的查询函数,这些函数与jQuery中的函数用法完全相同,用于查找用于查找HTML文档中的节点。本文的所有例... 查看详情

python爬虫编程思想(127):使用appium抓取移动数据--安装和配置appium

目录1.安装Appium桌面端1.直接下载Appium桌面端安装程序2.使用npm命令安装2.配置Android开发环境 查看详情

python爬虫编程思想(146):创建和使用scrapy工程(代码片段)

        Scrapy框架提供了一个scrapy命令用来建立Scrapy工程,可以使用下面的命令建立一个名为myscrapy是Scrapy工程。scrapystartprojectmyscrapy        执行上面的命令后,会在 查看详情

python爬虫编程思想(146):创建和使用scrapy工程(代码片段)

        Scrapy框架提供了一个scrapy命令用来建立Scrapy工程,可以使用下面的命令建立一个名为myscrapy是Scrapy工程。scrapystartprojectmyscrapy        执行上面的命令后,会在 查看详情

python爬虫编程思想(146):创建和使用scrapy工程(代码片段)

        Scrapy框架提供了一个scrapy命令用来建立Scrapy工程,可以使用下面的命令建立一个名为myscrapy是Scrapy工程。scrapystartprojectmyscrapy        执行上面的命令后,会在 查看详情

python爬虫编程思想(25):使用requests实现身份验证和请求打包

目录1.身份验证2.将请求打包1.身份验证        使用urllib库进行身份验证时,需要使用一大堆类,如HTTPPasswordMgrWithDefaultRealm、HTTPBasicAuthHandler等,非常麻烦。使用requests进行身份验证就简单得多,只需... 查看详情

python爬虫编程思想(14):网络爬虫中的异常处理(代码片段)

       目录1.URLError2.HTTPError         在前面的文章中详细讲解了发送请求的过程,但这是在正常情况下的使用。如果非正常使用,例如,提供的URL根本就是错的,那么在发... 查看详情

python爬虫编程思想(154):使用scrapy处理登录页面

       在抓取Web页面数据时,并不是每一个页面的数据在任何时候都可以抓取到。有一些页面,需要用户登录后才可以在浏览器中显示,如果想通过爬虫抓取这样的页面,同样也需要登录。也就是说,这... 查看详情