Python 爬取网页数据的两种方法

目录

Python 爬取网页数据的两种方法

  • 1. 概述
  • 2. 使用pandas 爬取网页数据
    • 2.1 打开网页
    • 2.2 打开 PyCharm 编译器
  • 3.使用urllib爬取网页数据并写入Excel表
    • 3.1 下载 urllib 库
    • 3.2 代码如下
    • 3.3 运行结果如下
  • 结束语

1. 概述

网络抓取是从任何网站或任何其他信息源中提取数据的过程,以你想要查看的格式保存在你的系统中;
包含格式很多,例如CSV、Excel等;文件、XML、JSON等等。Python是最常见的网页抓取语言之一;对于任何网络抓取活动,Python被认为是确保此过程无任何错误进行的最佳方法;

2. 使用pandas 爬取网页数据

2.1 打开网页

打开一个网页,将网址复制下来;
20221029

2.2 打开 PyCharm 编译器

  1. 先下载pandas库,【文件】=>【设置】=>【项目:xxx】=>【项目解释器】(【File】=>【Settings…】=>【project:xxx】=>【Python Interpreter】),点击号,在搜索框中输入“pandas”,在下方列表中选中“pandas”,点击安装,等待提示安装完成即可;20221101
    20221101

  2. 回到Pycharm输入以下代码

import pandas as pd     #导入pandas库

html = "https://mobile.anjuke.com/xf/fj-nn/2020/"  #将要爬取数据的网站网址复制到此
date = pd.read_html(html)       #运用pd.read_html读取网站数据
print(date)     #输出爬取到的数据
  1. 运行结果如下所示:20221101

3.使用urllib爬取网页数据并写入Excel表

3.1 下载 urllib 库

与上述方法一致,这里就不赘述了

3.2 代码如下

import urllib.request       #导入urllib库

url = urllib.request.urlopen("https://fangjia.gotohui.com/show-39181")        #需要抓取数据的网站
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置,会自动生成xls表
dt1.write(data)   #将数据写入D:/Code/data/2.xls表中
dt1.close()
print(data)

3.3 运行结果如下

20221101
打开目录下的2.xls表,即可看到爬取的数据;

202211101

结束语

若这篇文章有帮到你,给个赞,收个藏,欢迎大家评论;
若文章有什么错误,欢迎大家指教。

深圳SEO优化公司醴陵网页制作推荐阜新百姓网标王推广推荐益阳网站开发价格铜仁百度标王价格清徐关键词按天收费公司宜昌网站优化按天收费哪家好扬州模板制作推荐临夏外贸网站制作哪家好济宁外贸网站制作哪家好玉树网站设计多少钱太原网站改版拉萨百度竞价推荐九江SEO按天计费报价菏泽关键词按天计费哪家好来宾网页制作枣庄关键词按天扣费萍乡阿里店铺运营报价怀化seo报价衢州网站优化哪家好滁州营销型网站建设价格桂林优化公司广元网站改版枣庄百姓网标王推广濮阳外贸网站设计哪家好盘锦网站关键词优化公司广东百度关键词包年推广公司玉树seo网站优化价格重庆百度竞价价格巢湖关键词按天扣费报价通辽网站seo优化哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化