温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
  • 忘记密码?
登录注册×
获取短信验证码
其他方式登录
点击 登录注册 即表示同意 《亿速云用户服务条款》
  • 服务器
  • 数据库
  • 开发技术
  • 网络安全
  • 互联网科技
登 录 注册有礼
最新更新 网站标签 地图导航
产品
  • 首页 > 
  • 教程 > 
  • 开发技术 > 
  • python实现从pdf文件中提取文本,并自动翻译的方法

python实现从pdf文件中提取文本,并自动翻译的方法

发布时间:2020-08-24 17:13:05 来源:脚本之家 阅读:426 作者:PlPyRbC 栏目: 开发技术

针对Python 3.5.2 测试

首先安装两个包:

$ pip install googletrans

$ pip install pdfminer3k

googletrans会提供一个命令translate,这个命令会调用google translate api执行自动翻译:

python实现从pdf文件中提取文本,并自动翻译的方法

python实现从pdf文件中提取文本,并自动翻译的方法

python实现从pdf文件中提取文本,并自动翻译的方法

pdfminer3k会提供一个工具脚本pdf2txt.py:

$ pdf2txt.py xxx.pdf

从stackoverflow搜索到可以去除页眉和页脚的命令(强烈推荐):

使用Ubuntu提供的pdftotext工具:

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻译并不能识别段落或者整句,如果一个整句中出现换行符,会发现翻译就不完整了,以网页版谷歌翻译测试:

python实现从pdf文件中提取文本,并自动翻译的方法

因此需要将pdf转换好的文本文件进行拼接,借用linux args 命令,实现此功能,将整个文件的换行符全部去掉。

但是问题又出现了,整个文件变成一行,我们的段落结构都消失了,那么我们需要手动添加delimiter,设置为一个特殊字符@。

python实现从pdf文件中提取文本,并自动翻译的方法

执行如下命令:

cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txt

cat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'\n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt

将翻译后的文本重定向到一个文件,然后对文件进行简单的后处理,就可以了。

python实现从pdf文件中提取文本,并自动翻译的方法

以上这篇python实现从pdf文件中提取文本,并自动翻译的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持亿速云。

向AI问一下细节
推荐阅读:
  1. 从MySQL DB转储文件中提取表备份的方法
  2. 怎么在Python中利用get_text()方法从html中提取文本

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python pdf 翻译
  • 上一篇新闻:
    为什么Python没有return返回值
  • 下一篇新闻:
    怎么在python中输入引号

猜你喜欢

  • win10系统杀毒软件如何关闭
  • c语言怎么求最小公倍数
  • win10怎么关闭系统自动更新
  • win10不激活有什么影响
  • java和javaee有什么区别
  • java vector和list的区别
  • python中pandas库怎么安装
  • python中set函数的用法详解
  • mysql查询数据库所有表的数据量
  • python中__init__()函数的用法
最新资讯
  • 在Tableau中如何创建自定义的字段计算器来执行复杂的计算和分析
  • 如何使用Tableau的数据合并功能来组合多个数据源中的数据
  • 如何通过Tableau的数据质量工具来检测和修复数据中的错误和异常
  • 如何利用Tableau的分组功能来简化复杂的数据集和仪表板
  • 如何使用Tableau的动态筛选器功能来根据用户选择的数据进行实时更新
  • 如何通过Tableau的仪表板操作创建交互式的数据筛选和查询
  • 如何将Tableau与其他可视化工具进行集成
  • 如何使用Tableau的自定义颜色方案来匹配公司品牌或报告主题
  • 如何通过Tableau的仪表板注释来添加说明、解释或突出显示特定数据
  • 在Tableau中如何设置数据的排序和优先级
相关推荐
  • webpack 从指定入口文件中提取公共文件的方法
  • Python解析并读取PDF文件内容的方法
  • Python如何从PDF中提取元数据
  • python实现从PDF中提取数据
  • 在python中提取pdf图片的方法有哪些
  • 怎么在python中提取文本信息
  • 如何在Linux上使用gImageReader从图像和PDF中提取文本
  • 如何在Linux上从图像和PDF中提取文本
  • C++如何从文件中提取英文单词
  • C#/ VB.NET中怎么从PDF文档中提取所有表格

相关标签

python集合 python解释器 python课程 python进阶 python推导式 python3.x python类 python爬 python简介 python运算符 python -v 配置python python分页 python培训 python pycharm python进程 python线程池threadpool boost.python python编程语言 python3爬虫
AI

深圳SEO优化公司平顶山建站报价宁波网站建设设计公司邯郸网页制作价格布吉企业网站制作丹东网站建设设计推荐东莞网站改版淮北如何制作网站多少钱珠海网站改版报价郑州网站优化按天扣费多少钱本溪SEO按天扣费吴忠网站改版哪家好阳泉关键词排名哪家好普洱高端网站设计公司清徐网站推广工具公司兰州如何制作网站价格金昌营销型网站建设价格沈阳企业网站设计北海阿里店铺运营报价丹竹头网站推广方案天水网站搜索优化阿坝百度爱采购报价德宏优化公司达州百度爱采购哪家好遂宁建网站报价昭通建站推荐和县建网站报价泸州SEO按天计费推荐贺州百度爱采购报价鹰潭网站开发报价泸州网站制作歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化