小白初入爬虫的实例,爬取小说的某一章

爬取纵横中文网的某篇小说的第一章内容

本来本人在努力做课设,突然打开某一python教程,发现挺有意思的,就跟着试了一试,对代码进行了修改,自己尝试爬取了一章小说!
本人也算是小白,刚入门,!对于代码理解不深入,可以保证的是代码尽量详细和正确!写下自己的心路历程,希望给大家带来帮助。

(个人浅显理解爬虫就是利用程序爬取网络页面的信息,它是根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。比如:https://www.baidu.com/,它就是一个URL。)

工具:
1.python编译器(本人用的visual studio),直接官网安装就行了,很简单
2.需要导入第三方包:numpy,requests,beautifulsoup4, 直接pip Install +安装包名字 就行了

实现:
本文爬取的是国医无双这篇小说的第一章:不做舔狗(hhhh随便找的一章,没想到题目饱含哲理),首先找到它对应的URL,也就是网址链接,http://book.zongheng.com/chapter/963767/60436403.html
如下图标注。 打开网址先放在那里,一会还有用!

代码实现
爬虫大致可以分为两步,首先是获取网页的信息;然后再解析网页信息,选择我们需要的内容。
我们要利用requests这个包去获取网页信息。

#导入requests包
import requests
#下边是我们要爬取的网页url ,就是不做舔狗这章的网址
target= 'http://book.zongheng.com/chapter/963767/60436403.html'
req = requests.get(url=target)   # 请求网页响应
htlm = req.text         #  获得网页的文本信息
print(htlm)

#可以打印出来看看是什么,当然,哈哈哈 我也看不懂,但是可以知道,文字就隐藏在这个页面文本信息(htlm)中 !

最低0.47元/天 解锁文章
爬虫爬取简书某ID所有文章并保存为pdf
01-07
编辑 / 昱良 1 目 标 场 景 现如今,我们处于一个信息碎片化的信息时代,遇到好的文章都有随手收藏的习惯。但过一段时间,当你想要重新查看这篇文章的时候,发现文章已经被移除或莫名其妙地消失了。 如果当时能将这些文章以 pdf 格式保存到本地,待空闲的时候慢慢地看,就不用担心这个问题了。 本文的目标是利用 Google 推出的「puppeteer」,配合无头浏览器爬取某位大佬在简书上发布的所有文章,并对页内元素进行优化样式后,以「pdf」格式保存下载到本地。 2 准 备 工 作 和前面爬虫方式不一样,这次的爬虫是在「Node.js」环境下执行的,所以需要提前安装好 node
python学习笔记(1)-爬取小说
w.royee的博客
07-31 789
文章爬取
如何用Python网络爬虫爬取一本小说
最新发布
Pythonxiaoxin6的博客
04-18 766
本文详细介绍了如何使用Python网络爬虫下载一本小说,从准备工作到案例实现,再到注意事项与优化,旨在帮助新手朋友理解和掌握网络爬虫的基本技术和应用。通过本文的学习和实践,相信读者已经对网络爬虫有了更深入的了解,并能够根据自己的需求进行扩展和优化。​如果你对Python感兴趣,想要学习python,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓。
Python爬虫学习——爬取小说章节
一大块肥皂的博客
12-01 3911
之前学了Python好久都没有用,感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习,巩固python的知识。 爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习: Python3 网络爬虫(二):下载小说的正确姿势(2020年最新版)_Jack-Cui-CSDN博客 练习 - 爬取章节 前面的爬虫基础部分就看大佬的上一篇博文,讲的非常棒: Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)_Jack-Cui-.
Python——爬取单章小说内容
tingyu_的博客
02-07 1507
小说的单章爬取: 编译环境:pycharm 需要安装第三方库:requests lxml bs4 beautifulsoup4 安装上面的第三方库的时候首先需要在cmd中下载下来,使用命令:pip install 库名(下载国外的资源) 或者使用国内的镜像源,这里推荐一个:pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/si...
Pyhton爬小说实例解析笔记——爬虫基础
weixin_50759039的博客
06-21 478
Pyhton爬小说实例解析笔记——爬虫基础前言准备爬虫代码的开始 前言 刚学完pyhon的爬虫,总结一下我的学习成果。以及解析一下我写的爬取小说的案例。 准备 要求: 1.安装requests库 2.有python环境 验证: 如果你运行import requests出现报错的话,应该就是没有安装requests库。 安装: pip install requests 打开cmd窗口,输入代码,即可安装requests库。PS:如果你想要安装别的库,代码基本就是这个格式,pip install xxx。 如
利用爬虫找网络小说
看流云落成雨滴
04-07 282
网络爬虫
Python爬虫实例爬取网站搞笑段子
09-21
主要介绍了Python爬虫实例爬取网站搞笑段子,具有一定参考价值,看完了代码不妨看看段子,希望大家每天开心。
爬虫爬取小说网站十宗罪前61章
01-19
爬虫小说,十宗罪
爬虫爬取小说内容
但行好事,莫问前程
02-27 2378
PS:我使用的环境是Spyder(python3.6) 大概思路:小说,章节,逐层爬取信息,在以小说名建立文件夹,以章节名为名建立.tex文件,将小说内容保存到文件中。 import requests from lxml import etree import os #设计模式---面向对象,继承,封装 class Spider(object): #函数功能:请求小说网站,拿到...
如何使用Python爬虫获取指定小说的章节内容
weixin_43263566的博客
05-24 1435
如何使用Python爬虫获取指定小说的章节内容
python 读取text指定章节_【python爬取小说
weixin_39951773的博客
11-27 451
很多同学在网站上看小说都遇到过广告过多,字体不好看,页面宽度不够,突然断网等问题。看小说一气看完才叫爽。用python能够快速的把全站所有小说爬取下来。下面就交给大家这个酷炫的技能。首先需要安装python。最简单的python运行环境就是anaconda下面是下载地址:https://repo.anaconda.com/archive/Anaconda3-2020.02-Windows...
Python-爬取小说文字内容(使用beautiful soup实现)
qq_36864672的博客
10-10 3458
  Python-爬取小说文字内容(beautiful soup) 本次爬取的网站为[http://www.136book.com/][6],你可以在页面选择你想要爬取小说。 文中代码使用Anaconda的Jupyter书写。 Beautiful Soup简介 官方解释: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具...
python爬虫实战-爬取小说
快乐是一切的博客
12-19 4110
今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了。 我们先把整个网页爬下来吧! import requests url = r'https://www.booktxt.net/6_6453/' # 网站路径 # 伪装请求头 headers = { 'User-Ag...
python爬虫——爬起点中文网小说
热门推荐
weixin_41796207的博客
06-29 2万+
(一)项目目标本次要练习的目标时起点中文网里面的免费小说。1. 如下图,找到免费小说的目录:2. 点击更多后,随便找一本免费小说打开:3. 点击中间的目录按钮,进入小说目录:可以看到,该小说一共有83章,这就是本次目标。(二)网页分析1. 在目录页中点击一章,进入阅读页面,并同时检查网络,查看内容来源。请注意下图中标注的三个部分:2. 这样,我们找到了获取内容的请求。下面仔细分析该请求:从上面截图...
Python网络爬虫实战之爬取小说
weixin_43509263的博客
07-12 2814
一、目标 1- 爬取一个章节的小说 2- 爬取整一本小说 二、爬取单章节的小说 2.1 数据准备 这里在网上随意搜了一个网站,其链接如下: https://www.biqukan.com/1_1408/16046054.html 2.2 网页分析 可以看到,正文的内容都包含在div标签里头,整个html页面包含多个div标签头,我们可以通过其属性找到我们需要的那个;最后再通过text方法获得标...
python 爬虫动态爬取实例
09-14
### 回答1: 您好!以下是一个使用 Python 爬虫动态爬取数据的简单实例: ```python import requests from bs4 import BeautifulSoup # 用 requests 库发送请求 url = "https://example.com/dynamic_page" response = requests.get(url) # 使用 BeautifulSoup 解析响应内容 soup = BeautifulSoup(response.text, 'html.parser') # 提取需要的数据 data = soup.find_all("div", class_="dynamic-data") # 打印提取的数据 print(data) ``` 这个实例使用 requests 库向网站发送请求,并使用 BeautifulSoup 解析响应内容。然后,通过调用 BeautifulSoup 对象的 `find_all` 方法提取需要的数据,最后通过 `print` 函数打印提取的数据。 请注意,上面的代码仅作为示例,因为动态爬取的网站的结构可能因网站而异,因此您需要根据网站的具体情况自行调整代码。 ### 回答2: Python爬虫是一种用来自动获取网页信息的程序,可以用于爬取静态或动态网页。下面是一个使用Python爬虫动态爬取实例: 首先,我们需要安装相关的库,如requests和BeautifulSoup。然后,我们可以使用requests库来获取网页的内容,并使用BeautifulSoup库来解析网页。 假设我们需要爬取一个动态生成的新闻网页,该网页会根据不同的页面滚动加载更多的新闻。我们可以通过模拟滚动加载的过程来动态地获取所有的新闻。 首先,我们发送一个初始的请求来获取第一页的新闻内容。然后,我们可以通过查看网页的源代码或使用浏览器的开发者工具来找到滚动加载时发送的请求。 接下来,我们可以分析这个请求的URL和参数,然后使用requests库来发送这个请求,并获取到响应的内容。通常,这个响应的内容是一个JSON格式的数据,其中包含了新闻的信息。 我们可以使用Python的json库来解析JSON数据,并提取我们需要的信息。然后,我们可以将这些信息保存到一个文件或数据库中,或者进行其他的处理。 接着,我们可以继续发送滚动加载的请求,直到获取到了所有的新闻。这可以通过循环发送请求的方式来实现,每次发送请求之后,我们需要解析响应的内容,并判断是否还有更多的新闻。 最后,我们可以将所有的新闻保存到一个统一的文件中,或者根据需要进行其他的处理。 这只是一个使用Python爬虫动态爬取的简单实例,实际的应用中可能还涉及到一些其他的技术和处理方式。希望以上内容对你有所帮助! ### 回答3: Python爬虫是一种用于自动获取网页数据的程序。通常情况下,我们使用爬虫来从静态网页中获取数据。但是有些网站使用了JavaScript等动态技术来加载网页内容,这给爬虫带来了一定的挑战。 对于动态网页,我们可以通过模拟浏览器行为来获取数据。这可以通过使用Python的Selenium库来实现。Selenium可以模拟用户在浏览器中的操作,包括点击按钮、输入文本等动作。它还可以等待页面加载完成后再进行下一步操作,以确保获取到完整的页面数据。 下面以一个例子来说明如何使用Python爬虫动态爬取数据。假设我们要从一个使用了AJAX技术的网站上获取电影相关信息。 首先,我们需要安装Selenium库。可以使用以下命令来安装: pip install selenium 然后,我们需要安装适合的浏览器驱动程序。Selenium支持多种浏览器,如Chrome、Firefox等。这里以Chrome浏览器为例。可以通过以下链接下载对应版本的Chrome驱动程序:https://sites.google.com/a/chromium.org/chromedriver/downloads 接下来,我们需要导入Selenium库,并配置浏览器驱动路径: from selenium import webdriver driver_path = "/path/to/chromedriver" # Chrome驱动程序路径 driver = webdriver.Chrome(driver_path) 然后,我们可以使用Selenium模拟浏览器操作,访问网页并获取数据: url = "http://example.com" # 网页地址 driver.get(url) # 访问网页 # 等待数据加载完成 driver.implicitly_wait(10) # 等待10秒 # 获取页面数据 data = driver.page_source 最后,我们可以对获取到的数据进行解析和提取,获取我们需要的信息。 以上是一个简单的Python爬虫动态爬取实例。通过使用Selenium库,我们可以模拟浏览器行为,实现对动态网页的爬取。当然,具体的实现还需要根据具体的需求和网页情况进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • python矩阵运算,对矩阵每一行乘以不同的系数 6961
  • 小白自学python的编程之路——实现进制数转换(十进制和二进制和八进制的转换) 1821
  • Java中set,map集合如何判断加入对象是否是重复对象 1251
  • 小白初入爬虫的实例,爬取小说的某一章 1251
  • time计时 227

分类专栏

  • Java 2篇
  • python自学之路 3篇

最新评论

  • python矩阵运算,对矩阵每一行乘以不同的系数

    #狼大大: 还有这个方法!多谢

  • python矩阵运算,对矩阵每一行乘以不同的系数

    JoyceAnyon: 为啥不直接用*? A * np.expand_dims(a, 1)

  • python矩阵运算,对矩阵每一行乘以不同的系数

    #狼大大: 感谢指正! 是少了

  • python矩阵运算,对矩阵每一行乘以不同的系数

    就叫小潘: 第二段代码第二行,是否缺少一右括号

  • python矩阵运算,对矩阵每一行乘以不同的系数

    water___Wang: 不错,加油~

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • while小知识
  • Java中set,map集合如何判断加入对象是否是重复对象
  • time计时
2021年4篇
2020年2篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司布吉关键词按天收费多少钱海北百度网站优化排名价格衡阳网站排名优化哪家好晋中关键词按天扣费哪家好辽源网站优化推荐曲靖百度关键词包年推广常州seo优化多少钱淄博关键词按天计费公司大庆网络推广推荐龙岗seo排名多少钱天津网站排名优化报价盐城阿里店铺托管推荐甘南英文网站建设多少钱运城网站建设价格扬州网页制作推荐徐州百度竞价价格长沙百度竞价包年推广价格榆林网站优化按天计费价格拉萨网站定制公司菏泽网站优化软件通辽百搜标王报价南山百度爱采购价格宜昌网站推广多少钱金昌网站开发白山百度网站优化推荐南联网站优化公司庆阳网站优化推广公司襄阳网站优化按天计费红河关键词按天扣费郑州建设网站哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化