小白初入爬虫的实例,爬取小说的某一章
爬取纵横中文网的某篇小说的第一章内容
本来本人在努力做课设,突然打开某一python教程,发现挺有意思的,就跟着试了一试,对代码进行了修改,自己尝试爬取了一章小说!
本人也算是小白,刚入门,!对于代码理解不深入,可以保证的是代码尽量详细和正确!写下自己的心路历程,希望给大家带来帮助。
(个人浅显理解爬虫就是利用程序爬取网络页面的信息,它是根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。比如:https://www.baidu.com/,它就是一个URL。)
工具:
1.python编译器(本人用的visual studio),直接官网安装就行了,很简单
2.需要导入第三方包:numpy,requests,beautifulsoup4, 直接pip Install +安装包名字 就行了
实现:
本文爬取的是国医无双这篇小说的第一章:不做舔狗(hhhh随便找的一章,没想到题目饱含哲理),首先找到它对应的URL,也就是网址链接,http://book.zongheng.com/chapter/963767/60436403.html
如下图标注。 打开网址先放在那里,一会还有用!
代码实现
爬虫大致可以分为两步,首先是获取网页的信息;然后再解析网页信息,选择我们需要的内容。
我们要利用requests这个包去获取网页信息。
#导入requests包
import requests
#下边是我们要爬取的网页url ,就是不做舔狗这章的网址
target= 'http://book.zongheng.com/chapter/963767/60436403.html'
req = requests.get(url=target) # 请求网页响应
htlm = req.text # 获得网页的文本信息
print(htlm)
#可以打印出来看看是什么,当然,哈哈哈 我也看不懂,但是可以知道,文字就隐藏在这个页面文本信息(htlm)中 !
#狼大大: 还有这个方法!多谢
JoyceAnyon: 为啥不直接用*? A * np.expand_dims(a, 1)
#狼大大: 感谢指正! 是少了
就叫小潘: 第二段代码第二行,是否缺少一右括号
water___Wang: 不错,加油~