Python爬虫爬取数据

我是Python小白,我会用比较通俗易懂的方法告诉你如何去爬取数据。

一开始,我们需要pycharm(也就是我们编代码的工具),其次我们需要打开我们需要爬取数据的网页,我以鞋子为例。

那么,接下来就开始吧

首先,我们打开某东,搜索鞋子。

 随便点进去一个,找到他的评价

 右击空白处,点检查,

 

 出现以下界面时,我们点Network,

 然后刷新我们找到的京东鞋子界面,就可以看到他出来很多东西,如下图所示

 这时候,我们打开评论,随便找到一个评论,复制一下,然后找到有一个放大镜一样的东西那,点开,然后粘贴我们刚才复制的评论。

 就可以看到这些东西

 我们点开,发现右边Name里面有这些东西,我们直接复制这个URL。

 好了,我们找到了关键的东西。那么接下来我们来编写代码

首先,第一行 是import requests

第二行就是resp=requests.get(‘URL’)[此处URL就是你自己找的]

第三行就是print(resp.text)。

其实拥有这三行代码就可以了,但是呢,我们是在pycharm中爬取的数据,京东只有在浏览器访问时才会允许我们,我们用pycharm访问时,不会给我们,

如下如所示 

为了解决这个问题呢,我们可以让我们的python程序伪装成浏览器,我们需要添加一个东西,请求头,

首先,我们随便打开一个浏览器,右击空白部位,点击检查。

 点进去后我们点击网络,然后刷新一下这个网页。

 我们随便点开一项,看标头里面有一个User-Agent,我们直接复制。

 然后我们再来补充一行代码

headers={‘User-Agent’:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50’}//此处这个是我找的,你们找的是什么就粘贴什么。

get函数里面最后加一个headers=headers。

-------------------------------------------------------------------------------------------

下面是代码模板

import requests
headers={'user-agent': '你自己找的user-agent'}
resp=requests.get('你自己想要爬取数据的网页URL',headers=headers)
print(resp.text)

----------------------------------------------------------------------------------------

下面是我找的一个(可以直接复制粘贴)

import requests
headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30'}
resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871588&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1',headers=headers)
print(resp.text)

结果就是这个,我随便截了一小部分。

 总结起来,只有三点,第一点,写好代码模型,第二点,找到URL,第三点,找到User-agent。

最后,给初学者一个用python创建.txt文档的代码

fp=open('D:/yyds.txt','a+')
print('helloworld',file=fp)
fp.close()

C_Xurn
关注 关注
  • 28
    点赞
  • 102
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
Python:六步教会你使用python爬虫爬取数据
08-22
Python:六步教会你使用python爬虫爬取数据
Python爬虫入门教程!手把手教会你爬取网页数据
weixin_55154866的博客
10-14 4417
其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据。这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程:
python爬取网站数据四种姿势,你值得拥有,面试前必看的一本书书籍
最新发布
2401_83621708的博客
03-22 870
异步方法在爬虫中是有效的速度提升手段,使用aiohttp可以异步地处理HTTP请求,使用asyncio可以实现异步IO,需要注意的是,aiohttp只支持3.5.3以后的Python版本。并发方法使用多线程来加速一般方法,我们使用的并发模块为concurrent.futures模块,设置多线程的个数为20个(实际不一定能达到,视计算机而定)。显然,异步方法使用了异步和并发两种提速方法,自然在速度有明显提升,大约为一般方法的六分之一。print(‘使用异步,总共耗时:%s’ % (t2 - t1))
超级简单的Python爬虫入门教程(非常详细),通俗易懂,看一遍就会了
python03011的博客
05-15 8450
超级简单的Python爬虫入门教程(非常详细),通俗易懂,看一遍就会了
六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)
BlueSocks152的博客
06-19 9101
python爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西下来,一个小时都不到就解决了。
Python爬虫学习】总结了八种学习爬虫的常用技巧
m0_59162248的博客
02-11 3393
最后,通过我们的需求去解析整个网页,通过正则或其它方式获取需要的数据。4)如果上面条件1,2,3都不满足的话,可以通过智能探测,如cpdetector,有些特殊网页,它确实是不准确的,如网页的meta中charset和实际的浏览器识别的正常显示的charset不相同的情况,它的识别也是错误的。所以这种办法会有误判的的情况。另外,下面的这种图形验证码,我们可以登录后(cookie 有一定的时效,貌似有 10 天半个月左右),把上面代码中的链接换一下,再用上面的方法也可以实现绕过登录页的图形验证码。
如何用六步教会你使用python爬虫爬取数据
热门推荐
m0_59162248的博客
02-22 2万+
python爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西下来,一个小时都不到就解决了。到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!如果对Python感兴趣的话,可以试试我的学习方法以及相关的学习资料需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。
Python 爬虫:教你四种姿势解析提取数据
weixin_68789096的博客
05-12 7806
爬取网页数据用正则表达式的话,可以直接从网页源代码文本中匹配,但出错率较高,且熟悉正则表达式的使用也比较难,需要经常翻阅文档。实际爬取数据大多基于 HTML 结构的 Web 页面,网页节点较多,各种层级关系。可以考虑使用 Xpath 解析器、BeautifulSoup解析器、PyQuery CSS解析器抽取结构化数据,使用正则表达式抽取非结构化数据。Xpath:可在 XML 中查找信息;支持 HTML 的查找;通过元素和属性进行导航,查找效率很高。
Python 学习 02 —— Python如何爬取数据
zcy的博客
07-08 1万+
文章目录系列文章二、Python爬虫1、任务介绍2、爬虫简介3、基本流程3.1、准备工作3.1.1、分析页面3.1.2、编码规范3.1.3、导入模块3.1.4、程序流程3.2、获取数据3.3、解析数据3.4、保存数据3.4.1、Excel表存储3.4.1、SQLite数据库保存 系列文章 Python 学习 01 —— Python基础 Python 库学习 —— urllib 学习 Python 库学习 —— BeautifulSoup4学习 Python 库学习 —— Re 正则表达式 Python
入门爬虫爬取数据这一篇就够了
CSDN_430422的博客
03-15 978
有小伙伴问,新手该怎么开始学习爬虫。其实说实在的入门爬虫真的非常容易。于是我就针对如何入门爬虫进行了总结如果你,但是你又经常需要把某些网站上的数据导入到Excel等软件,那么请阅读本文,拉到最底!前段时间想换个手机,突发奇想写个爬虫一下京东商城所售卖手机的信息,看看什么品牌的手机卖得最好。我分析了一下京东商城的手机页面,发现并没有手机的品牌信息,手机的品牌信息是嵌入到手机名称中的,所以。
Python爬虫:高效采集数据的几种方法
oGuJing123的博客
06-25 3981
作为互联网时代的新生力量,爬虫技术已经成为了各行各业不可或缺的一环。那么,如何高效地获取网络数据呢?本文将从以下十个方面逐步分析讨论。一、基于HTTP协议的爬虫HTTP协议是目前互联网上使用最广泛的协议,基于此协议的爬虫也是最常用的一种。
python爬虫爬取网页表格数据
12-25
python爬取网页表格数据,供大家参考,具体内容如下 from bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): try: r = requests.get(url) r.raise_for_...
Python爬虫爬取智联招聘
05-29
Python爬虫爬取智联招聘(进阶版),Python爬虫爬取智联招聘
python爬虫爬取网页数据并解析数据
09-24
主要介绍了python爬虫如何爬取网页数据并解析数据,帮助大家更好的利用爬虫分析网页,感兴趣的朋友可以了解下
手把手教你学爬虫
m0_53272995的博客
09-08 3164
1.request爬取静态加载数据第一步,导入相关库第二步,写入url和请求头第三步,确定方法第四步,获得数据第五步,保存数据2.Ajax爬取动态加载数据第一步,找到数据所在url和相关参数第二步,请求到数据,清洗,保存3.selenium爬取音乐评论第一步,安装对应浏览器版本的驱动第二步,爬取数据第三步,数据清洗,并保存 爬虫是一个很方便的技术,掌握了爬虫,你就可以白嫖很多东西 。 废话不多说。 1.request爬取静态加载数据 就拿爬取网易云来举例吧,本人比较喜欢杨宗纬,就先爬取一下他的歌单吧。 首.
Python数据爬虫教程(非常详细)从零基础入门到精通,看完这一篇就够了
xx16755498986的博客
08-10 9278
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。: 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯,信号、数据传递等。: 它负责接受引擎发送过来的Request请求,并按照一定的 方式进行整理排 列,入队,当引擎需要时,交还给引擎。
走好这六步,python爬虫爬取网页数据手到擒来~
BlueSocks152的博客
06-13 1万+
python爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西下来,一个小时都不到就解决了。
想要高效爬取数据?五种Python爬虫方式全解析!
xiaoganbuaiuk的博客
11-01 4100
本文将介绍五种常见的爬虫方式,分别是:基于 Python 的 Requests 库、基于 Python 的 Scrapy 框架、基于 Node.js 的 Express 框架、基于 Node.js 的 Cheerio 库和基于 Java 的 WebMagic 框架。当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。此外,Scrapy 的文档和社区支持相对较弱,这也是需要考虑的一个因素。
python爬虫爬取数据
08-17
Python爬虫是一种用于自动化从网页中提取数据的程序。在Python爬虫中,有多种方法可以用来爬取数据。其中四种常用的方法包括使用正则表达式、使用BeautifulSoup库、使用lxml库的xpath语法以及使用Scrapy等分布式爬虫框架。正则表达式是一种强大的文本匹配工具,可以用来从HTML代码中提取所需数据。BeautifulSoup库是一种HTML和XML的解析库,可以根据标签、属性等定位和提取数据。lxml库是一个高性能的XML和HTML解析库,可以使用xpath语法来定位和提取数据。Scrapy是Python中最流行的开源分布式爬虫框架,可以用于构建高性能的爬虫程序,支持异步IO和分布式爬取。通过这些方法,我们可以灵活地选择适合自己需求的方式来爬取数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Python爬虫入门之爬虫解析提取数据的四种方法](https://blog.csdn.net/xuezhangmen/article/details/130573647)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [Python爬虫:高效采集数据的几种方法](https://blog.csdn.net/oGuJing123/article/details/131377643)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 关于未知的USB设备(设备描述符请求失败)的解决方法。 46796
  • Python爬虫爬取数据 13415
  • 电脑内存介绍(精心整理) 6515
  • STM32串口通信实例 5573
  • PCB板子焊接注意事项及小技巧 5200

分类专栏

  • 征战FPGA---挑战自己,追求极致 3篇
  • PCB设计 3篇
  • 蓝桥杯备赛 8篇
  • 笔记 8篇

最新评论

  • 蓝桥杯NE555定时器与频率测量

    func—: 请问你这个频率误差有多少哇。我用类似的方式测出来误差还蛮大的表情包

  • 关于未知的USB设备(设备描述符请求失败)的解决方法。

    夜孤断魂: 我在使用国产安路fpga时确定软件开发板选对引脚绑定正确,电脑无法识别usb设备。 试过①重启电脑 ②重新安装驱动/下载新驱动 ③重装td软件再重复②操作 ④采用禁用数字签名的一堆网络操作后 ⑤ 以上操作做完后多次插拔usb设备和更换usb口(该fpga是支持热插拔的) 以上方法都不行后;采用作者的第一个方法后,电脑能正常识别该fpga

  • 关于未知的USB设备(设备描述符请求失败)的解决方法。

    was_its: 我下载时板子没选对,之后查看设备管理器提示请求 USB 设备描述符失败。我将boot按下后上电就可以识别了(esp32-c3 合宙版)

  • 如何PCB出自己的ESP32开发板

    jamo_O: 太感谢了,网上都没有教程自己画pcb的方法,比如烧录引脚之类的,爱了!

  • Python爬虫爬取数据

    攻克oo0: 试试攻克Data不用任何代码,任何网页数据都能转化成标准的二维表格[酷]

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • FPGA多路选择器--分析
  • 野火FPGA系列教学视频---多路选择器
  • 野火FPGA系列教学视频---入门点灯
2022年14篇
2021年39篇

目录

目录

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司百色百度关键词包年推广价格广州百度竞价公司南联企业网站建设多少钱石岩网站改版多少钱长治模板制作哪家好酒泉品牌网站设计公司伊犁阿里店铺托管哪家好防城港企业网站建设多少钱黑河外贸网站制作多少钱乐山营销网站推荐临夏SEO按天计费公司黄冈网站制作设计推荐河源seo网站推广多少钱宿州网站优化按天计费哪家好南京网站搜索优化多少钱洛阳网站优化推广价格鹰潭百度竞价包年推广哪家好怒江关键词按天收费价格朔州网页制作价格南联网站seo优化推荐三明建设网站价格酒泉英文网站建设公司潜江模板网站建设吉林优化多少钱和县英文网站建设推荐垦利关键词按天扣费推荐伊春网站建设设计报价海北百度竞价包年推广报价滁州营销型网站建设文山网站推广工具推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化