一次下载的小说txt章节优化记录

21 篇文章 0 订阅
订阅专栏

缘由:

在线阅读小说有时候因为网络等因素,造成章节不能及时刷新出来,因此经过一番百度,把小说章节下载了下来,但是 章节是错乱的,且参杂很多网站水印,阅读起来挺难受的,因此 优化一下吧。

首先放图:

调整前:

调整后:

嗯~ 看起来顺眼多了 

首先打开原始小说,查找要调整的地方,依据小说文本的规则进行调整 即可

首先看原始txt

1. 每个章节 都是阿拉伯数字 + 顿号 + 章节标题 组成
2. 每个章节 结尾都包含两行网站水印

3. 经过全局搜索 部分内容 参杂 xxx.com 内容

经过判断解决以上问题 即可

操作步骤:

1. 读取 按行读取原始内容
2. 替换
       2.1 替换章节

       2.1.1 判断以阿拉伯数字开头 且 包含 顿号 且 包含 (xxx.com) 的行内容

       2.1.2 替换 (xxx.com) 为空

       2.1.3 写一个阿拉伯数字 转 一二三的函数

       2.1.4 组合 第 + 一二三 + 章 + 章节标题 + 换行符

      2.2 替换章节结尾水印

        2.2.1  判断行内容 大致包含结尾水印内容 替换为空 

      2.3 替换部分html 内容

        2.3.1 判断行内容 大致包含xxx.html  替换为空

3. 写入

        3.1 创建新的txt, 按行写入即可,数据量大的可以使用 缓存或者分批操作

        

【java文本处理】实现一个简单的小说文本阅读器(分页、翻页、页码跳转)
杨丹的博客
12-05 6479
一、目的 读出文本(.txt)内容显示至dos命令窗; 按规定行数将文本进行分页; 在dos下实现文本翻页、页码跳转等功能,形成简单小说阅读器。 二、主要方法 1. RandomAccessFile类 详细用法参考上篇博文:RandomAccessFile简述 RandomAccessFile是Java输入/输出流体系中功能最丰富的文件内容访问类,既可以读取文件内容,也可以向文件输出数据...
动手学深度学习第一次打卡
l852131652的博客
02-14 894
今年才开始接触深度学习,基本上是小白的状态,希望能利用疫情放假的这些日子好好学习一下深度学习。第一次打卡分成Task01和Task02两天的内容,首先进行Task01的学习打卡。Task01的学习任务包括线性回归、Softmax与分类模型与多层感知机。 Task01 1.线性回归 主要内容包括:①线性回归的基本要素②线性回归模型从零开始的实现③线性回归模型使用pytorch的简洁实现 首先提出要解...
记录】Python3|用百度语音 API 朗读你的小说TXT
qq_46106285的博客
08-27 5376
自写自用,随需求完善。
python程序-小说下载
qq_43727668的博客
04-22 428
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录写在之前一、基础知识二、使用步骤1.引入库2.读入数据总结 写在之前 这个程序是去年8月份写的,之所以现在写这篇博客,是想记录下来我编写的过程,以及复习以下python的知识。 提示:以下是本篇文章正文内容,下面案例可供参考 一、基础知识 关于python的基础知识,例如:三大流程,四大容器,函数,方法等,可以看看我之前的博客。 所谓小说下载器,实际上就是将一些网站上的在线阅读的小说,使用爬虫获取该网页的html文件,之后使用正
多进程下载小说的爬虫
eye_water的博客
08-09 326
之前写过一篇文章来下载小说,不过速度堪忧,因为大量的时间都浪费在了文件的写入上,那么有没有办法优化呢? 文章目录优化面临的问题解决办法图示队列的建立为不同的进程分配不同的队列进程的任务爬虫的自我修养完整代码如何理解多进程 优化面临的问题 文章是有序的 文件的读写(一般来说当前文件正在读写时是不允许其它程序来访问该文件) 解决办法 文章是有序的 可以使用队列来进行FIFO操作,这样能确保有序...
Python爬虫爬取某盗版小说网站小说.
kilig_CSM的博客
03-19 2530
前言 我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节. 仅供学习. 获取小说详情页的html 通过函数gethtml()实现. def gethtml(url):#得到小说详细页的html headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.10.
python小说爬虫练习
Gg_ning的博客
09-14 463
本篇文章主要用于记录爬虫练习,所以具体网址将不显示(如果真的出现没有完全打码的情况请联系我,谢谢!),希望大家支持正版! 大纲需求描述最终效果展示步骤拆解1. 获取章节信息(URL及名称)1.1 采用requests模块获取html返回内容1.2 采用bs4中BeautifulSoup模块解析返回文本1.3. 对list进行解析,转化为目录的字典列表2. 获取每章节文本内容2.1 循环获取指定章节文本内容,加入整个list中2.2 利用time.sleep,增加请求失败重试功能3. 生成txt文本4.
云端狂飙:Django项目部署与性能优化的极速之旅
最新发布
码趣阿佑
06-05 2332
跟随阿佑的脚步,一探究竟如何将一个项目从本地环境部署到云端,并进行性能优化。从选择AWS作为部署平台,到利用Git、Gunicorn和Nginx搭建坚实基础,再到Sentry和New Relic的监控神助攻,本书带你领略项目部署的每一个激动人心的瞬间。不仅如此,你还将学习到如何通过Docker化部署,让你的项目像鱼儿一样在云海中畅游。《云端狂飙》——一本让你的Django项目飞起来的宝典!
python学习(二)爬虫——爬取网站小说并保存为txt文件(二)
渔父歌的博客
03-21 5479
前面我们已经完成了单章小说的爬取,现在我们来爬取整本小说 一:获取小说章节列表 在小说网站里没不 小说都有自己的章节目录,里面记录了所有的小说章节地址。 我们要想获取整本小说就要先得到小说章节列表 m.50zw.la的章节列表格式为http://m.50zw.la/chapters_加上小说id,即http://m.50zw.la/chapters_1/这个链接指向的是id为1...
记录一次SQL优化
12-14
一大早到公司,加班一宿的同事跟我抱怨,说,一个表只有8w条数据,需要更新一列,根据目前进度估算,大概需要3个小时,即使不需要更新,查询每条数据也需要400ms左右;  或许确实配置太低,或许确实表的字段太多,...
一次Mysql使用IN大数据量的优化记录
01-19
mysql版本号是5.7.28,表A有390W条记录,使用InnoDB引擎,其中varchar类型字段mac已建立索引,索引方法为B-tree。B表仅有5000+条记录。 有一条SQL指令是这样写的: SELECT * FROM A WHERE mac IN(aa:aa:aa:aa:aa:aa...
狂雨小说_两套优化模板_一套采集规则
06-16
狂雨小说_两套优化模板_一套采集规则
《基于Oracle的SQL优化》PDF版本下载.txt
07-17
《基于Oracle的SQL优化》PDF版本下载
Mysql查询最近一条记录的sql语句(优化篇)
09-09
主要介绍了Mysql查询最近一条记录的sql语句,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧
rpc 调用测试
q320036715的博客
03-14 781
服务器安装es过程 ubuntu 系统 条件:联网条件下 安装git(远程控制) 创建新的文件夹 安装java 环境 避免下载之后无法解压 wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" https://download.oracle.c...
文件hash值处理
q320036715的博客
03-25 402
es 插件安装 ====================================== Ubuntu ik中文分词安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.1/elasticsear...
PDF添加文字及水印
q320036715的博客
10-26 335
1. docker file FROM nginx:stable COPY deploy/default.conf /etc/nginx/conf.d/ COPY dist /usr/share/nginx/html VOLUME /usr/share/nginx/html VOLUME /etc/nginx docker file 中的default.conf server { listen 80; # gzip config gzip...
解析cookie/session 路由中间件基础
q320036715的博客
05-14 315
package main import ( "bytes" "github.com/gorilla/mux" "github.com/tealeg/xlsx" "log" "net/http" "os" "reflect" ) type ExcelClient struct { File *xlsx.File `json:"file"` Title string `json:"title"` Sheet *xlsx.Sheet `json:"sheet"` Row .
光伏电站一次调频优化调度
07-11
光伏电站一次调频优化调度是指针对光伏电站的发电功率波动进行调节和优化的过程。光伏电站的发电功率会受到天气、光照强度等因素的影响而产生波动,这会对电网的稳定性和可靠性造成一定的挑战。 在一次调频中,通过实时监测和预测光照情况以及电网需求,结合光伏电站的运行特性和控制策略,对光伏电站的发电功率进行调节,使其能够更好地响应电网的需求,并尽量减少功率波动对电网造成的影响。 优化调度的目标是在保证电网稳定运行的前提下,最大限度地提高光伏电站的发电效率和经济性。通过合理安排光伏电站的发电功率,可以提高光伏电站的利用率,减少能源浪费,并对整个电网系统的可持续运行做出贡献。 优化调度方法可以包括预测模型、智能控制算法、实时数据监测等技术手段,通过对光伏电站的发电功率进行精确控制和调整,实现电网与光伏电站的协同运行,提高整个系统的稳定性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • image_gif灰度处理 6758
  • 发送短信 1732
  • Golang oss基础操作 1295
  • 配置前端域名及nginx反向代理 1211
  • office online 查看及编辑 1155

分类专栏

  • 个人随笔 21篇
  • 简易工具 3篇

最新评论

  • Golang oss基础操作

    @myz: https://help.aliyun.com/document_detail/88645.html 参考官网吧,demo 很全

  • Golang oss基础操作

    小久学习敲代码: copy的。。。。代码有错误逻辑

大家在看

  • 计算机科学:AMD的统一计算架构解决方案及其发展探讨
  • 多目标跟踪中用到的求解线性分配问题(Linear Assignment Problem,LAP)
  • Diffusion 扩散模型(DDPM)
  • python高校教材销售系统的设计与实现
  • AI产品经理还不会数据挖掘❓看完这篇就够了 1938

最新文章

  • 相同结构体不同类型转换
  • 贴吧自动签到
  • 删除部分历史文件记录
2023年4篇
2021年6篇
2020年16篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司坪山营销网站推荐佛山至尊标王南阳企业网站建设价格唐山至尊标王哪家好日照关键词按天计费多少钱郑州seo价格临夏网站优化软件多少钱布吉SEO按天扣费苏州推广网站赤峰建网站报价吉安网站优化按天计费永州高端网站设计恩施网站优化推广公司滨州推广网站公司柳州网站优化按天扣费推荐诸城营销网站价格吴忠网站推广方案报价益阳至尊标王沧州网站优化软件光明营销网站推荐赣州建站哪家好坪地SEO按天扣费推荐蚌埠网站优化推广哪家好赣州网站推广工具公司承德网站优化按天计费价格定西百姓网标王推广哪家好襄阳关键词按天扣费推荐佛山网站优化按天计费哪家好张北网站推广方案报价苏州网站优化软件公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化