Python 爬取网页数据的两种方法

172 篇文章 6 订阅
订阅专栏

Python 爬取网页数据的两种方法

网络抓取是从任何网站或任何其他信息源中提取数据的过程,以你想要查看的格式保存在你的系统中;
包含格式很多,例如CSV、Excel等;文件、XML、JSON等等。Python是最常见的网页抓取语言之一;对于任何网络抓取活动,Python被认为是确保此过程无任何错误进行的最佳方法;

2. 使用pandas 爬取网页数据

2.1 打开网页

打开一个网页,将网址复制下来;

2.2 打开 PyCharm 编译器

    先下载pandas库,【文件】=>【设置】=>【项目:xxx】=>【项目解释器】(【File】=>【Settings…】=>【project:xxx】=>【Python Interpreter】),点击+号,在搜索框中输入“pandas”,在下方列表中选中“pandas”,点击安装,等待提示安装完成即可;

2.回到Pycharm输入以下代码

`import pandas as pd #导入pandas库

html = "mobile.anjuke.com/xf/fj-nn/20…" #将要爬取数据的网站网址复制到此 date = pd.read_html(html) #运用pd.read_html读取网站数据 print(date) #输出爬取到的数据 `

3.运行结果如下所示:

3.使用urllib爬取网页数据并写入Excel表


3.1 下载 urllib 库

与上述方法一致,这里就不赘述了

3.2 代码如下

`import urllib.request       #导入urllib库

url = urllib.request.urlopen("fangjia.gotohui.com/show-39181"…
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置,会自动生成xls表
dt1.write(data)   #将数据写入D:/Code/data/2.xls表中
dt1.close()
print(data)`

3.3 运行结果如下

打开目录下的2.xls表,即可看到爬取的数据;

   知道你对python感兴趣,所以给你准备了下面的资料~

 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以点击链接免费领取或者滑到最后扫描二v码保证100%免费

python学习资源免费分享,保证100%免费!!!

需要的话可以点击这里👉Python学习路线(2023修正版)附涉及资料 (安全链接,放心点击)

文末有福利领取哦~ 

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。在这里插入图片描述​​​

二、Python必备开发工具

在这里插入图片描述​​​

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述​​​
在这里插入图片描述​​​

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述​​​

六、Python练习题

检查学习结果。
在这里插入图片描述​​​

七、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述​​​
在这里插入图片描述​​​

 👉这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费
Python学习路线(2023修正版)附涉及资料《Python学习资料》,已经打包好了,自取【ps:需要领取的资料(请备注清楚,查找与发送给你)】。因链接常https://mp.weixin.qq.com/s/UVxw0daFCgAMFhz9cfrjAQ

如何用Python网页数据Python网页详细教程
python03013的博客
05-29 1万+
如何用Python网页数据Python网页详细教程
python处理两种分隔符的数据方法
12-24
在做机器学习的时候,遇到这样一个数据集… 一共399行10列, 1-9列是用不定长度的...以上这篇python处理两种分隔符的数据方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持软件开发网。
Python如何实时变化的WebSocket数据方法
01-20
一、前言 作为一名虫工程师,在工作中常常会遇到实时数据的需求,比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图: Web 领域中,用于实现数据’实时’更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔(如 1 秒)访问服务端接口,从而达到 ‘实时’ 的效果,虽然看起来数据像是实时更新的,但实际上它有一定的时间间隔,并不是真正的实时更新。轮询通常采用 拉 模式,由客户端主动从服务端拉数据。 WebSocket 采用的是 推 模式,由服务端主动将数据推送给客户端,这种方式是真正的实时更新。 二、什么是 WebSocket WebSocke
基于Python的Post请求数据方法详解
12-25
为什么做这个 和同学聊天,他想一个网站的post请求 观察 该网站的post请求参数有两种类型:(1)参数体放在了query中,即url拼接参数(2)body中要加入一个空的json对象,关于为什么要加入空的json对象,猜测原因为反虫。既有query参数又有空对象体的body参数是一件脑洞很大的事情。 一开始先在 apizza网站 上了做了相关实验才发现上面这个规律的,并发现该网站的请求参数要为raw形式,要是直接写代码找规律不是一件容易的事情。 源码 import requests import json headers = { 'Accept':'application/
python虫 -html格式数据(微博热搜)
最新发布
BullKing8185的博客
04-12 2283
1. 第一步:安装requests库和BeautifulSoup库 2. 第二步:获虫所需的header和cookie 3. 第三步:获网页 4. 第四步:解析网页 5. 第五步:分析得到的信息,简化地址 6. 第六步:内容,清洗数据 7. 微博热搜的代码实例以及结果展示
Python全国区划信息包括excel数据.rar
02-10
包括完整的python代码用于国家统计局区划数据(到村级),支持全部和按条件,同时支持mongodb和sqlserver两种存储方式,附带成功的2020版区划数据
Python搜索引擎结果
My Blogssssssssss~~~
02-11 2544
想快速获各个高校的博士招生网站,于是通过python先获出有可能包含高校博士招生网站的URL,然后通过人为筛选得到了想要的招生网站(注意,并非直接,是间接获的)。
Python3 注释
xiqng17111342931的博客
11-11 1566
Python3 注释
如何用六步教会你使用python数据
热门推荐
m0_59162248的博客
02-22 2万+
python数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为虫很难,结果一上手,从初学到把东西下来,一个小时都不到就解决了。到此这篇关于如何用六步教会你使用python数据的文章就介绍到这了,更多相关python数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!如果对Python感兴趣的话,可以试试我的学习方法以及相关的学习资料需要可以微信扫描下方CSDN官方认证二维码免费领【保证100%免费】。
走好这六步,python网页数据手到擒来~
BlueSocks152的博客
06-13 1万+
python数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为虫很难,结果一上手,从初学到把东西下来,一个小时都不到就解决了。
Python虫教学——简单网页数据
xiaoganbuaiuk的博客
06-12 1万+
本文是一篇介绍如何用Python实现简单网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。
4个详细步骤讲解Python网页数据操作过程!(含实例代码)
WANGJUNAIJIAO的博客
09-19 1万+
今天为大家带来的内容是4个详细步骤讲解Python网页数据操作过程!(含实例代码)本文具有不错的参考意义,希望在此能够帮助到大家!**提示:**由于涉及代码较多,大部分代码用图片的方式呈现出来!
基于python实现携程景点数据与评论数据源码+项目说明.zip
08-10
评论内容的有两种方法: 将`config.ini`中的`isCrawlComment`置为1,运行`poi_crawl.py`文件,在 景点数据 的过程中 评论数据 将`config.ini`中的`isCrawlComment`置为0,运行`poi_crawl.py`文件,...
Python虫进阶之某视频并下载的实现
01-21
目前我知道的动态网页方法只有这两种:1、从网页响应中找到JS脚本返回的JSON数据;2、使用Selenium对网页进行模拟访问。源代码问题好解决,重要的是我获的源代码中有没有我需要的东西。我再一次进入网站进行...
Python某视频并下载
01-08
目前我知道的动态网页方法只有这两种:1、从网页响应中找到JS脚本返回的JSON数据;2、使用Selenium对网页进行模拟访问。源代码问题好解决,重要的是我获的源代码中有没有我需要的东西。我再一次进入网站进行...
详解python 破解网站反虫的两种简单方法
12-20
最近在学虫时发现许多网站都有自己的反虫机制,这让我们没法直接对想要的数据进行,于是了解这种反虫机制就会帮助我们找到解决方法。 常见的反虫机制有判别身份和IP限制两种,下面我们将一一来进行介绍...
Python如何获网页指定数据信息
拼命小李博客
06-07 4543
网络虫案例
虫实战(三)
m0_64357419的博客
03-17 9335
需要注意的是,多个页面时,我们需要使用循环来遍历每个页面,并将每个页面的内容合并到同一个列表中。通常,我们可以通过对页面的HTML代码进行解析,提出我们需要的信息,并保存到本地文件或数据库中。随着互联网的发展,数据量的爆炸式增长,单机虫已经无法满足大规模数据的需求,分布式虫成为了一种常见的解决方案。百度搜索是一个非常常见的搜索引擎,我们可以使用Python的requests库和BeautifulSoup库来百度搜索结果页面,并提搜索结果的标题、链接和描述信息。
python请求网页、获网页信息_python中运用urllib.request简单抓网页数据
weixin_39963080的博客
11-28 153
fromurllib import request, parsefromurllib.error import HTTPError, URLErrorfromhttp import cookiejarimport jsonclass session(object):def __init__(self):#1、实例化cookie对象cookie_obj=cookiejar.CookieJar()#2...
python网页可视化
06-28
总体而言,Python网页数据,并将数据通过可视化工具呈现出来,使分析数据变得更加容易和直观。这使得Python数据分析领域中非常流行,并且Python网页和可视化功能都得到了良好的社区支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 从零开始学习黑客技术,看这一篇就够了 79863
  • 从零开始学习黑客技术,看这一篇就够了 57748
  • 黑客零基础入门教程,从零开始学习黑客技术,看这一篇就够了 19693
  • python入门教程(非常详细),从零基础入门到精通,看完这一篇就够了 12652
  • Python零基础入门基础教程(非常详细) 10898

分类专栏

  • python安装 76篇
  • python零基础 84篇
  • python入门 172篇
  • python实战 3篇
  • 软件安装 1篇
  • 网络安全 4篇
  • python数据分析 19篇
  • python兼职 22篇
  • python资料 1篇
  • 转行 1篇

最新评论

  • Xcode安装与配置(非常详细)从零基础入门到精通,看完这一篇就够了

    RainyLave: 项庄舞剑,意在沛公

  • Xcode安装与配置(非常详细)从零基础入门到精通,看完这一篇就够了

    Fantasy.l: 你题外话比正文还多表情包

  • 网络安全CTF夺旗赛入门到入狱-入门介绍篇

    Zn SKark: 卖课的真服了

  • Vectorworks2023安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

    ZHU18030891840: 很详细,要是有汉化的更好!

  • Axure RP Pro9.0安装教程(非常详细)从零基础入门到精通,看完这一篇就够了【附安装包】​​

    LiuJian0257: 安装包在哪呢?

最新文章

  • windows上的docker登录docker私有仓库_docker accepts at most 1 arg(s), received 2
  • ADB安装及使用详解(非常详细)从零基础入门到精通,看完这一篇就够了
  • nmap工具介绍及常用命令(非常详细)从零基础入门到精通,看完这一篇就够了。
2024
05月 28篇
04月 39篇
03月 13篇
02月 22篇
01月 49篇
2023年465篇
2022年70篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司永湖网站定制公司眉山网站推广工具报价普洱至尊标王报价潜江百度竞价包年推广推荐延安网站排名优化多少钱铁岭英文网站建设推荐大庆网络广告推广哪家好南昌网站开发铜仁建网站报价河池网络营销价格毕节外贸网站建设报价三亚建设网站报价泰州营销型网站建设公司辽阳模板推广多少钱韶关企业网站制作哪家好鹤岗推广网站哪家好罗湖网站搜索优化价格曲靖建设网站哪家好巴中网站优化价格荆门网站seo优化价格白银网站seo优化报价罗湖设计公司网站哪家好许昌模板网站建设价格南通品牌网站设计多少钱曲靖网页制作推荐木棉湾网站优化软件公司泰安关键词排名推荐菏泽SEO按天收费乐山模板制作哪家好黄南关键词按天计费价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化