基于协同矩阵分解的在线哈希跨模态信息检索方法与流程

文档序号:17696746发布日期:2019-05-17 21:36阅读:427来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
基于协同矩阵分解的在线哈希跨模态信息检索方法与流程

本发明涉及计算机技术领域,更进一步涉及信息检索技术领域的一种基于协同矩阵分解的在线哈希跨模态信息检索方法。本发明可用于现有信息检索应用,包括文字,图片等多种模态的数据,实现在线数据模态内部及模态间的快速检索。



背景技术:

随着互联网的不断发展,数据量飞速增长,同时用以承载信息的数据形式也呈现出了多样化,这些数据通常都具有数据量大,维数较高等特点,为了能够实现对于多样化的数据进行快速准确的检索,需要采用哈希方法对数据进行降维、编码。传统的哈希检索方法需要存储大量历史数据,通过对历史数据的训练学习,建立模型,但是传统哈希检索方法并不能解决对在线数据进行模型建立的问题。如何针对上述问题实现对在线增长数据的模型建立以及不同模态间数据的快速检索,是当前信息检索技术领域需要亟需解决的问题。

guiguangding,yuchenguo,jilezhou在其发表的论文“collectivematrixfactorizationhashingformultimodaldata”(ieee国际计算机视觉与模式识别会议论文集2014年)中提出了一种基于矩阵分解的跨模态信息检索方法。该方法是一个无监督的学习方法,在训练阶段,通过矩阵分解的思想,迭代优化得到投影矩阵,不同的模态生成不同的投影矩阵,将不同模态的数据统一投影到汉明空间,得到训练样本的哈希编码。在测试阶段,通过训练阶段得到的投影矩阵将测试样本进行投影,得到测试样本的哈希编码。但是,该方法仍然存在的不足是,该方法需要对历史数据进行存储,在数据量很大的情况下,会产生很大的数据存储压力,同时面对数据的快速增长,该方法不能够解决动态增长数据的模型在线建立问题。

long-kaihuang,qiangyang,wei-shizheng在其发表的论文“onlinehashing”(国际人工智能联合会议论文集2013年)中提出了一种在线哈希信息检索方法。该方法是一个有监督在线哈希学习方法。该方法对于每次的输入数据通过类标信息判断相似性,计算损失函数,如果损失函数的值超过设定的范围则更新投影矩阵,否则无须更新投影矩阵,根据学到的投影矩阵,可以得到数据的哈希编码。但是,该方法仍然存在的不足是,该方法每次输入一对数据,数据量太小,无法很好的满足目前应用中的实际需求,并且该算法在判断数据的相似性信息时,需要数据的类标信息,但在实际的应用中,对于新数据工程实践中常常不能获知其类标信息。

综上所述,对于信息检索领域的应用,目前已有的方法仍然存在由于只对历史数据进行训练而导致模型不能实时学习新数据的特征,由于需要存储大量历史数据用于模型训练而导致存储空间不足,由于数据的类标信息难以获得而导致算法适用度较低等问题。



技术实现要素:

本发明的目的在于针对上述现有技术的不足,提出一种基于协同矩阵分解的在线哈希跨模态信息检索方法。本发明充分考虑了现实应用中数据的状态,利用协同矩阵分解的方法,对于动态增长的无类标数据建立模型,每一轮更新中记录下计算结果,用于下一轮更新,有效提升了计算速度,降低了系统的存储压力。

实现本发明的技术思路是,在训练模式下,系统实时获取数据,利用矩阵分解方法构建信息损失函数,通过对损失函数进行迭代优化,得到当前的潜在语义矩阵,投影矩阵和哈希编码矩阵,将哈希编码矩阵进行符号函数运算,获得训练数据对应的哈希编码;在测试模式下,利用训练模式下获得的投影矩阵进行矩阵投影,得到测试数据的哈希编码矩阵,进行符号函数运算,获得测试数据的哈希编码;在对于该方法进行评估时,采用信息检索领域常用的评估标准:平均精度均值(map),该标准可以用来衡量信息检索的准确性。

本发明的具体步骤包括如下:

(1)生成初始训练集;

(1a)采集不少于100个图像样本和英文单词样本;

(1b)利用信息矩阵转化方法,将采集到的样本信息转化为信息矩阵,将转化后的信息矩阵存入到信息检索系统中;

(1c)将图像和英文单词一一对应生成不少于100个样本对,得到初始训练集;

(2)在线训练哈希跨模态信息检索模型;

(2a)信息检索系统实时获取不少于100个样本信息,组成当前数据信息矩阵x∈rd×n,其中,x表示数据信息矩阵,∈表示属于符号,r表示实数集,d表示样本信息的维数,若样本信息为图像信息,则d表示每一张图像像素点的总数,若样本信息为英文单词,则d表示单词向量化后的向量维数,n表示实时获取到的样本总数;

(2b)随机生成初始化潜在语义矩阵u∈rd×k、投影矩阵p∈rk×d、哈希编码矩阵v∈rk×n共三个矩阵,其中,k表示哈希编码长度,其数值由用户从8bit,16bit,24bit,32bit,64bit,128bit的编码长度中选取一个长度;

(2c)构造一个信息损失函数,该函数中包含投影矩阵、潜在语义矩阵、哈希编码矩阵的信息;

(2d)分别对信息损失函数中的投影矩阵、潜在语义矩阵和哈希编码矩阵求一阶导数,并将求导得到的矩阵带入到信息损失函数中,得到更新后的信息损失函数值;

(2e)判断更新后的信息损失函数值是否小于更新前的信息损失函数值,若是,则执行步骤(2f),否则,执行步骤(2d);

(2f)判断更新后的信息损失函数值减去更新前的信息损失函数值的差值是否大于0.001,若是,则执行步骤(2d),否则,执行步骤(2g);

(2g)将更新好的哈希编码矩阵中数值大于零的,记为1,其余记为0,得到样本的哈希编码,将其存入信息检索系统中:

(3)判断信息检索系统实时获取的新样本个数是否大于等于100,若是,则执行步骤(2),否则,执行步骤(4);

(4)计算待检索样本的哈希编码;

(4a)利用信息矩阵转化方法,将待检索的文本样本或者图像样本转化为信息矩阵;

(4b)将更新好的投影矩阵与待检索样本的信息矩阵相乘,计算出待检索样本的哈希编码;

(5)得到检索结果;

(5a)对待检索样本的哈希编码与信息检索系统中已有哈希编码进行异或操作,得到汉明距离;

(5b)将信息检索系统中存储的样本按照汉明距离的大小从小到大进行排序,将排序后的前50个样本作为检索结果。

本发明与现有技术相比有以下优点:

第一,由于本发明在线训练哈希跨模态信息检索模型,根据信息检索系统实时获取的新数据更新模型,克服了现有技术存储大量历史数据并离线进行模型训练,造成的模型对实时数据特征的拟合效果差的缺点,使得本发明具有更高的实用性,提高了信息检索系统的检索效率。

第二,本发明通过矩阵分解方法构建信息损失函数,在迭代优化的过程中无须存储大量历史数据,克服了现有技术消耗过多存储资源的问题,使得本发明具有速度快,占用存储资源更少的优点。

附图说明

图1为本发明的流程图。

图2为本发明方法与非在线哈希跨模态检索方法cmfh平均精度均值曲线对比实验图。

具体实施方式

下面结合附图1对本发明做进一步描述。

步骤1,生成初始训练集。

采集不少于100个图像样本和英文单词样本。

利用信息矩阵转化方法,将采集到的样本信息转化为信息矩阵,并将转化后的信息矩阵存入信息检索系统中。

所述的信息矩阵转化方法如下:

若样本为图像样本,则将每张图像的每行像素灰度值首尾相接依次排列,组成图像信息矩阵。

若样本为英文单词样本,则将每一个英文单词向量化,将每一个向量化后的数据按行排列,组成文本信息矩阵。

将图像和英文单词一一对应生成不少于100个样本对,得到初始训练集。

步骤2,在线训练哈希跨模态信息检索模型。

(2.1)信息检索系统实时获取不少于100个样本信息,组成当前数据信息矩阵x∈rd×n,其中,x表示数据信息矩阵,∈表示属于符号,r表示实数集,d表示样本信息的维数,若样本信息为图像信息,则d表示每一张图像像素点的总数,若样本信息为英文单词,则d表示单词向量化后的向量维数,n表示实时获取到的样本总数。

(2.2)随机生成初始化潜在语义矩阵u∈rd×k、投影矩阵p∈rk×d、哈希编码矩阵v∈rk×n共三个矩阵,其中,k表示哈希编码长度,其数值由用户从8bit,16bit,24bit,32bit,64bit,128bit的编码长度中选取一个长度。

(2.3)构造一个信息损失函数,该函数中包含投影矩阵、潜在语义矩阵、哈希编码矩阵的信息。

所述的信息损失函数如下:

其中,f表示信息损失函数,||||f表示做f范数操作,x'表示初始训练集中的图像信息矩阵或文本信息矩阵,u表示潜在语义矩阵,v'表示哈希编码矩阵,μ表示用于平衡矩阵分解与矩阵映射之间权重关系的参数,该参数是由用户在(0,1]范围内设定,p表示投影矩阵,x表示当前数据信息矩阵,v表示当前数据信息矩阵的哈希编码矩阵。

(2.4)分别对信息损失函数中的投影矩阵、潜在语义矩阵和哈希编码矩阵求一阶导数,并将求导得到的矩阵带入到信息损失函数中,得到更新后的信息损失函数值。

(2.5)判断更新后的信息损失函数值是否小于更新前的信息损失函数值,若是,则执行本步骤的(2.6),否则,执行本步骤的(2.4)。

(2.6)判断更新后的信息损失函数值减去更新前的信息损失函数值的差值是否大于0.001,若是,则执行本步骤的(2.4),否则,执行本步骤的(2.7)。

(2.7)将更新好的哈希编码矩阵中数值大于零的,记为1,其余记为0,得到样本的哈希编码,并将其存入信息检索系统中。

步骤3,判断信息检索系统实时获取的新样本个数是否大于等于100,若是,则执行步骤2,否则,执行步骤4。

步骤4,运用信息检索系统进行信息检索。

利用信息矩阵转化方法,将待检索的文本样本或者图像样本转化为信息矩阵。

将更新好的投影矩阵与待检索样本的信息矩阵相乘,计算出待检索样本的哈希编码。

所述的信息矩阵转化方法如下:

若样本为图像样本,则将每张图像的每行像素灰度值首尾相接依次排列,组成图像信息矩阵。

若样本为英文单词样本,则将每一个英文单词向量化,将每一个向量化后的数据按行排列,组成文本信息矩阵。

将更新好的投影矩阵与待检索样本的信息矩阵相乘,计算出待检索样本的哈希编码。

步骤5,得到检索结果。

对待检索样本的哈希编码与信息检索系统中已有哈希编码进行异或操作,得到汉明距离。

将信息检索系统中存储的样本按照汉明距离的大小从小到大进行排序,将排序后的前50个样本作为检索结果。

本发明的效果可以通过以下仿真实验进一步说明:

1,仿真条件:

本发明仿真实验使用matlab2016b仿真软件,将用于平衡矩阵分解与矩阵映射之间权重关系的参数μ设为0.02,数据信息矩阵的样本个数n设为10000,表示信息检索系统每次获取10000个样本信息,哈希编码长度k分别设置为16bit,32bit,64bit,128bit分别进行实验。

2,仿真内容与结果分析:

本发明的仿真实验是,首先将mirflickr数据库中的图像数据和文本数据划分为训练数据和测试数据,然后分别采用本发明方法和现有技术中非在线哈希跨模态检索方法cmfh训练哈希跨模态检索模型,再将测试数据作为待检索样本测试模型性能。

为了验证本发明的仿真实验的效果,分别计算了当哈希编码长度为16bit、32bit、64bit、128bit时,采用本发明方法和现有技术中非在线哈希跨模态检索方法cmfh建立的信息检索模型进行检索的平均精度均值,将计算出的平均精度均值用折线连接,得到平均精度均值曲线,如图2所示。其中,图2中的横坐标表示哈希编码长度,纵坐标表示检索的平均精度均值。

图2(a)为由文本信息检索图像信息所得到结果的平均精度均值结果。图2(a)中以实心方块标示的曲线表示采用本发明方法建立的信息检索模型计算得到的平均精度均值曲线,以实心圆点标示的曲线是采用传统非在线哈希跨模态检索方法cmfh进行检索得到的平均精度均值曲线。

图2(b)为由图像信息检索文本信息所得到结果的平均精度均值结果。图2(b)中以实心方块标示的曲线表示采用本发明方法建立的信息检索模型计算得到的平均精度均值曲线,以实心圆点标示的曲线是采用传统非在线哈希跨模态检索方法cmfh进行检索得到的平均精度均值曲线。

由图2的仿真结果可见,采用本发明方法建立的信息检索模型进行检索得到的平均精度均值曲线,高于采用传统非在线哈希跨模态检索方法cmfh进行检索得到的平均精度均值曲线。由此可见,采用本发明方法进行信息检索准确性显著优于传统非在线哈希跨模态检索方法cmfh。所以,与现有技术相比,本发明能有效对在线实时数据进行模型的建立和更新,显著提高了信息检索系统的检索准确性。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种数据查询方法和设备与流程
  • 数据处理方法、装置、电子设备...
  • 语义增强的大规模多元图简化可...
  • 一种获取正向目标用户的方法与...
  • 视频内容情感分析方法、装置、...
  • 一种垃圾文本的识别方法及装置...
  • 审讯信息审核方法、装置、计算...
  • 信息交互方法、装置、电子设备...
  • 信息审核方法、装置、电子设备...
  • 皮肤病图像检索方法及系统、存...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
模态矩阵相关技术
  • 基于约束边应变极值坐标的载荷辨识系统及方法
  • 一种采用机构位移模态子矩阵法检测铰接杆系机构奇异和运动分岔的方法
  • 一种基于模态质量分布矩阵的数控机床敏感环节辨识方法
  • 飞行器受热结构热模态试验激振系统及其激振方法

深圳SEO优化公司鹤壁百姓网标王推广推荐苏州SEO按效果付费蚌埠seo优化推荐潜江外贸网站制作报价陇南百姓网标王大运网站制作报价北海设计网站公司迪庆SEO按天收费民治建站黄山seo网站推广价格昌吉网络广告推广报价本溪网站优化软件哪家好昭通优化价格淮南网站定制哪家好天津网站设计模板哪家好伊春网站开发报价合肥网站建设设计报价汉中百姓网标王哪家好菏泽关键词按天收费价格景德镇建网站价格南充建设网站哪家好黔南设计公司网站哪家好十堰企业网站建设报价大运seo公司泉州至尊标王哪家好巴中推广网站报价百色网站改版多少钱济源关键词按天计费多少钱包头建设网站哪家好河源阿里店铺托管推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化