本发明涉及领域,尤其涉及一种在音视频中基于关键词的时间戳定位搜索方法。
背景技术:
现阶段视频有自动生成字幕功能,音频有自动生成歌词类文件的功能,但是,暂时还没有针对音视频中关键词出现位置的时间戳定位的功能,也没有像百度搜索关键词一样,对海量音视频文件进行内容搜索与定位的应用或工具。
使用者在观看视频或音频时无法根据关键词而调整观看进度。
技术实现要素:
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种在音视频中基于关键词的时间戳定位搜索方法。
(二)技术方案
为解决上述问题,本发明提供了一种在音视频中基于关键词的时间戳定位搜索方法,包括以下步骤:
s1:准备音频和视频;
s2:将音频和视频中的音频部分通过第三方的语音识别技术进行文字识别,生成lrc文件,文件中包含文字时间戳;
s3:对lrc文件内容的文字进行分词处理并存入elasticsearch搜索引擎;
s4:对用户输入的关键字进行搜索并返回出现该关键字的时的时间戳。
优选的,在s2中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕。
优选的,在s3中,搜索引擎分别对中文和英文进行分词处理,并形成关键字。
优选的,在s3中,通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳。
优选的,在s2中,第三方的语音识别技术,包括但不限于讯飞、百度、阿里或者腾讯的语音识别技术。
优选的,在s2中,在第三方语音识别对非中文或个别方言的识别准确率低的情况下,采用人工审核的方式进行修正。
本发明的上述技术方案具有如下有益的技术效果:
本发明中,实现对音频以及视频文件中,文字部分的关键字标记,并通过标记时间戳的方式,使得用户能够根据该时间戳快速找到该关键字在音频以及视频中出现的位置,使用便捷且高效。
本发明中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕,时间戳标记方便,标记效率高;将上述内容全部放入搜索引擎中,搜索引擎可根据中文和英文分别对语句进行分词处理,方便形成关键字,实现搜索;系统通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳,系统整体工作效率高,准确率高。
附图说明
图1为本发明提出的在音视频中基于关键词的时间戳定位搜索方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种在音视频中基于关键词的时间戳定位搜索方法,其特征在于,包括以下步骤:
s1:准备音频和视频;
s2:将音频和视频中的音频部分通过第三方的语音识别技术进行文字识别,生成lrc文件,文件中包含文字时间戳;
s3:对lrc文件内容的文字进行分词处理并存入elasticsearch搜索引擎;
s4:对用户输入的关键字进行搜索并返回出现该关键字的时的时间戳。
在一个可选的实施例中,在s2中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕。
在一个可选的实施例中,在s3中,搜索引擎分别对中文和英文进行分词处理,并形成关键字。
在一个可选的实施例中,在s3中,通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳。
本发明中,实现对音频以及视频文件中,文字部分的关键字标记,并通过标记时间戳的方式,使得用户能够根据该时间戳快速找到该关键字在音频以及视频中出现的位置,使用便捷且高效。
本发明中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕,时间戳标记方便,标记效率高;将上述内容全部放入搜索引擎中,搜索引擎可根据中文和英文分别对语句进行分词处理,方便形成关键字,实现搜索;系统通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳,系统整体工作效率高,准确率高。
在一个可选的实施例中,在s2中,第三方的语音识别技术,包括但不限于讯飞、百度、阿里或者腾讯的语音识别技术。
在一个可选的实施例中,在s2中,在第三方语音识别对非中文或个别方言的识别准确率低的情况下,采用人工审核的方式进行修正,人工修正准确率高,缺点是识别速度慢,成本高。
应用举例:
1、搜索关键字“三角函数”,返回各个名校名师讲解视频的连接并定位到该知识点的时间戳位置。
2、在一部具体的教学视频中,确定讲解某个概念的具体位置信息列表。
3、通过对一部视频中关键字排序,发现讲解人的口水话,以便自我发现与修正。
4、为一组视频添加自动归类:针对国家安全部门的语音材料关键词定位(电话语音相关);法庭语音相关关键取证信息定位(案件语音证据);售后关键词录音定位(售后录音文件);个人家庭视频(家庭音视频资源);教学视频(教学相关音视频)。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
1.一种在音视频中基于关键词的时间戳定位搜索方法,其特征在于,包括以下步骤:
s1:准备音频和视频;
s2:将音频和视频中的音频部分通过第三方的语音识别技术进行文字识别,生成lrc文件,文件中包含文字时间戳;
s3:对lrc文件内容的文字进行分词处理并存入elasticsearch搜索引擎;
s4:对用户输入的关键字进行搜索并返回出现该关键字的时的时间戳。
2.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s2中,lrc文件中包含时间起点、时间终点、中文翻译以及英文字幕。
3.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s3中,搜索引擎分别对中文和英文进行分词处理,并形成关键字。
4.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s3中,通过elasticsearch的搜索api进行关键词查找,并返回汇总时间戳。
5.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s2中,第三方的语音识别技术,包括但不限于讯飞、百度、阿里或者腾讯的语音识别技术。
6.根据权利要求1所述的在音视频中基于关键词的时间戳定位搜索方法,其特征在于,在s2中,在第三方语音识别对非中文或个别方言的识别准确率低的情况下,采用人工审核的方式进行修正。
深圳SEO优化公司安阳网络营销多少钱赣州模板网站建设价格江门百度网站优化多少钱长葛网站搜索优化多少钱江门网站推广方案公司大丰seo排名多少钱石家庄seo排名报价湘西建网站哪家好张家界网站推广报价龙华网站优化报价思茅网站优化多少钱渭南seo排名报价广州英文网站建设公司爱联设计公司网站黄南SEO按效果付费报价广安网站改版多少钱武汉营销型网站建设昭通建设网站哪家好周口网站制作设计推荐观澜企业网站改版价格布吉网站制作报价达州企业网站建设推荐遂宁建设网站报价荆门营销网站推荐济宁网站排名优化多少钱烟台网站改版价格郑州SEO按天扣费多少钱飞来峡网页制作哪家好通化阿里店铺托管昌都至尊标王哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运