python爬取网络文本,图片,音乐

一,如何爬取网站中的文本

1.如下载某网站中的三国演义:“

https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md

(1)第一种爬取方式,直接输出在控制台上

# 引用requests库
import requests

# 下载《三国演义》第一回,我们得到一个对象,它被命名为res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
# 把Response对象的内容以字符串的形式返回
novel=res.text
# 现在,可以打印小说了,但考虑到整章太长,只输出800字看看就好。
print(novel[:800])

(2)第二种爬取方式,以文本的方式保存下来。“如果没有指定保存路径则会保存在项目文件的根目录下”

# 引入requests库
import requests
#下载《三国演义》第一回,我们得到一个对象,它被命名为res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
# 把Response对象的内容以字符串的形式返回
novel = res.text
# 创建一个名为《三国演义》的txt文档,指针放在文件末尾,追加内容
k = open('《三国演义》.txt','a+')
# 写进文件中 
k.write(novel)
# 关闭文档    
k.close()

二,爬取网站中的图片。

以某网站中的图片为例:“https://res.pandateacher.com/2019-01-12-15-29-33.png”

爬取方法如下:

#导入 requests 模块
import requests
#发送请求,并将结果赋值给res
res=requests.get("https://res.pandateacher.com/2019-01-12-15-29-33.png")
#把response对象的内容以二进制数据的形式返回
pic=res.content
#新建一个文件风景.jpg,这里的文件没加路径,他会被保存在程序运行的当前目录下
#图片内容需要以二进制的wb读写“具体什么文件需要什么方式读写还请大家参考open()函数”
photo=open("风景.jpg","wb")
#获取pic的二进制内容
photo.write(pic)
#关闭文件
photo.close()

三,爬取网站中的音频

以某音乐网站为例:"

https://static.pandateacher.com/Over%20The%20Rainbow.mp3

"

#代码如下

import requests
res=requests.get("https://static.pandateacher.com/Over%20The%20Rainbow.mp3")
pic=res.content
photo=open("音乐.MP3","wb")
photo.write(pic)
photo.close()

四,乱码问题

以上述小说为例

# 引用requests库
import requests

# 下载《三国演义》第一回,我们得到一个对象,它被命名为res
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
# 定义Response对象的编码为gbk
res.encoding='gbk'
# 把Response对象的内容以字符串的形式返回
novel=res.text
# 打印小说的前800个字
print(novel[:800])

为什么会乱码呢? 

事情是这样的:首先,目标数据本身有它的数据类型,这个小说中的URL中的数据是“'utf-8”

“因为这个网页是某人写的所以某人知道”。获取目标数据后要知道相应的编码类型才能正确解码。

如果我们把第七行的代码gbk换成utf-8则运行正常了

 这只是个示范,是为了让大家理解res.encoding的意义,也就是它能定义Response对象的编码类型。肯定有人会疑问为什么最上面的爬取方式中没有定义对象的编码类型也能正常爬取呢,这是因为目标数据本身的编码方式是未知的。用requests.get()发送请求后,我们会取得一个Response对象,其中,requests库会对数据的编码类型做出自己的判断。但是!这个判断有可能准确,也可能不准确。比如你发给我一张“法语”字条,我看不出来是什么语言,猜测可能是“俄语”,“德语”等。

如果它判断准确的话,我们打印出来的response.text的内容就是正常的、没有乱码的,那就用不到res.encoding;如果判断不准确,就会出现一堆乱码,那我们就可以去查看目标数据的编码,然后再用res.encoding把编码定义成和目标数据一致的类型即可。

总的来说,就是遇上文本的乱码问题,才考虑用res.encoding

如果用一张图来总结,那就是这样的:

 接下来为大家准备一些小干货:

1.不同模式打开文件的完全列表:

 2.response对象的常用属性

 3.

常见响应状态码解释

 3.检查请求是否响应

4.目前常用的编码方式:gbk,gb2312,utf-8 “在乱码时可以逐个尝试下”

阳光少年.
关注 关注
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
使用Python爬取网页的相关内容(图片,文字,链接等等)
南 墙
01-21 1万+
代码解释的很详细了,有不明白的欢迎评论 ~~~滑稽 import requests from bs4 import BeautifulSoup # #获取图片 输入网址 req=requests.get("https://blog.csdn.net/a1439775520/article/details/95373610") #获取网址的html html=req.text #print...
Python实现简单爬虫,可抓取文本图片
12-02
Python实现简单爬虫,可抓取文本图片 简单,有部分注释,有兴趣的可以与我交流,共同进步~ 目前只是抓取ousha网站上的,这个对于东西不同的网站还是差异性比较大的。
Python网络爬虫实现HTTP请求、解析网页和数据存储(简单静态网页爬取)_python爬虫如何解析网页
最新发布
m0_61549781的博客
04-12 1021
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
python爬取网页文本图片
weixin_30293079的博客
07-07 364
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址一定要从第二页开始,因为有的首页和其他页的网址有些区别 代码 import pymysql import requests #需要导入模块 db = pymysql.connect...
python爬取网页文字和图片_简单的爬虫:爬取网站内容正文与图片
weixin_39889544的博客
12-06 1007
我们来写个简单的爬虫####需要用到的模块需要用到python的urllib和lxml模块,urllib为python的自带模块,lxml需要自行安装:pipinstalllxml简单介绍urllib和lxml的使用我们使用urllib来爬去一个网页比如:In[1]:importurllibIn[2]:#爬起豆瓣首页In[3]:html=urllib.urlopen("ht...
python爬取网页图片文字_简单的爬虫:爬取网站内容正文与图片
weixin_39995774的博客
11-27 271
我们来写个简单的爬虫####需要用到的模块需要用到python的urllib和lxml模块,urllib为python的自带模块,lxml需要自行安装:pip install lxml简单介绍urllib和lxml的使用我们使用urllib来爬去一个网页比如:In [1]: import urllibIn [2]: # 爬起豆瓣首页In [3]: html = urllib.urlopen("ht...
Python爬取网络资源代码.rar
06-19
我们再来看下爬虫应该遵循的规则:robots协议是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被...
Python爬取网易云音乐热门评论
12-24
最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本吧。获取文本的方式有很多,比如从网上下载现成的文本文档,或者通过第三...因为python不仅有着内置的功能强大的网络库,还有诸
python爬取百度文库实例,代码可见
11-02
python爬取百度文库实例,代码可见,仅用于学习研究,不可用于各种商业私有用途,
python爬取招聘网信息并保存为csv文件
04-02
爬取招聘数据保存到数据库
使用Python爬取巨潮资讯网中上市公司的年报,并进行文本分析代码
04-08
该代码用于使用python软件爬取巨潮资讯网中上市公司全部年报的(1)代码使用前 准备:存放上市公司股票代码xlsx文件以及存储爬虫信息xlsx文件;(2)爬取上 市公司年报PDF版本;(3)将PDF转换成本txt格式;(4)...
Python爬取个人微信朋友信息操作示例
01-20
本文实例讲述了Python爬取个人微信朋友信息操作。分享给大家供大家参考,具体如下: 利用Python的itchat包爬取个人微信号的朋友信息,并将信息保存在本地文本中 思路要点: 1.利用itchat.login(),实现微信号的扫码...
python爬取网页并导出为word文档.docx
05-06
mongodb的应用之用python爬取网页内容并用mongodb保存. 由于mongodb是文档型数据库,区别于传统的数据库,它是用来管理文档的。在传统的数据库中,信息被分割成离散的数据段,而在文档数据库中,文档是处理信息的...
利用python爬取豆瓣音乐TOP250的数据----爬取的247首歌曲的网址
08-23
需要说明的是,豆瓣页面上第4、5、6页只有24首(不是25首),所以总数量是247,不是250。不是爬虫代码有问题,是... 通过函数get_music_info()可以获取所有的网页,通过写入TXT文本文档中,可以直观看到有多少内容。
python-beautifulsoup4-图片爬取-图片下载
12-20
编程语言:python ...适合人群:本文适合于初学者,因为是综合了python、pyqt5、beautifulsoup4、requests、urllib等这些模块,所以可以在本例的基础进行扩展,比如由图片下载扩展为文本下载或者音频下载等
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容?
weixin_39917437的博客
12-14 2188
想必新老python学习者,对爬虫这一概念并不陌生,在如今大数据时代,很多场景都需要利用爬虫去爬取数据,而这刚好时python领域,如何实现?怎么做?一起来看下吧~获取图片:1、当我们浏览这个网站时,会发现,每一个页面的URL都是以网站的域名+page+页数组成,这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中,把鼠标放到图片,右击检查,我们发现,图片的内容由ul包裹的li组成,箭...
python入门之爬虫篇 爬取图片,文章,网页
weixin_42636275的博客
03-12 1946
一,首先看看Python是如何简单的爬取网页的 1,准备工作 项目用的BeautifulSoup4和chardet模块属于三方扩展包,如果没有请自行pip安装,我是用pycharm来做的安装,下面简单讲下用pycharm安装chardet和BeautifulSoup4 在pycharm的设置里按照下图的步骤操作 如下图搜索你要的扩展类库,如我们这里需要安装chardet直接搜索就行,然后点击in...
Python爬取网页源码,图片和文字到本地
苦涩精灵的博客
07-20 1027
import re import os import os.path from time import sleep from urllib.parse import urljoin from urllib.request import urlopen from multiprocessing import Pool def crawlUrl(item): perUrl,name=item perUrl=urljoin(url,perUrl) #资源网页绝对路径 name=
python爬取网页文本
10-27
另外,在爬虫的过程中,有时候可以在开发者模式返回的网页里找到完整的json格式的数据,这时候我们就可以运用requests包里的json函数将爬取到的原文本转化格式,从而方便我们提取内容。下面是一个简单的示例代码: ...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 相对路径和绝对路径(简单易懂) 38385
  • 如何查找qq邮箱的服务器地址 9719
  • HTML的表格标记 5671
  • HTML的文本格式标记 4741
  • 栈和队列的操作和应用 4110

最新评论

  • 基于计算机视觉的学生上课姿态识别

    qq_51347217: 求源码和数据集

  • 基于计算机视觉的学生上课姿态识别

    CSDN-Ada助手: 推荐 Python入门 技能树:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • 相对路径和绝对路径(简单易懂)

    LRJ-jonas: GPT偶尔会告诉我,上一级目录使用…/而不是../ ,我真的服了表情包

  • 相对路径和绝对路径(简单易懂)

    m0_70134453: ../../这个才是回退两层吧

  • 树和二叉树

    xixi786: 这个是慕课上速成课的教案耶⊙ω⊙

大家在看

  • ipad协议8050唤醒登录讲解-1 139
  • 考研数二《常微分方程》基础概念和定理梳理
  • 前端学习笔记——JavaScript基础语言的学习(一) 223
  • c++指针悬空用nullptr还是NULL
  • 【愚公系列】软考高级-架构设计师 071-软件过程模型

最新文章

  • 基于计算机视觉的学生上课姿态识别
  • HTML的表单标记
  • HTML的表格标记
2024年1篇
2022年33篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阳光少年.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司洛阳网页制作德阳外贸网站设计价格四平seo排名报价塘坑优化推荐佛山百度标王推荐临沂关键词按天收费推荐湘西SEO按效果付费价格济南关键词排名包年推广报价甘孜网站推广工具价格武威网站推广工具来宾模板推广公司定西seo网站推广辽源网站改版鸡西网站推广玉林seo优化报价长治百度关键词包年推广公司南平营销型网站建设哪家好观澜网站设计哪家好新乡关键词排名包年推广报价伊犁网站设计模板多少钱福田企业网站改版哪家好西宁推广网站推荐阳江百度爱采购推荐沙井百度seo铜陵关键词按天收费公司宜春阿里店铺托管台州品牌网站设计报价柳州企业网站设计金昌网站制作设计价格柳州网站优化软件推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化