一种智能投顾的实现方法及系统与流程

文档序号：21319066发布日期：2020-06-30 20:49阅读：1627来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本申请涉及但不限于通信领域，尤指一种智能投顾的实现方法及系统。

背景技术：

智能投顾是指网络虚拟人工智能产品基于客户自身的理财需求、资产状况、风险承受能力、风险偏好等因素，运用现代投资组合理论，通过算法搭建数据模型，利用人工智能技术和网络平台提供理财顾问服务，取代传统的人工投资顾问。简单地说，智能投顾就是通过人工智能，使用投资组合理论(如capm(capitalassetpricingmodel，资本资产定价模型))，来为用户制定投资组合。在互联网金融日益深入的今天，智能投顾有可能成为影响“资金-资产”配给的关键环节。

从原理上看，传统智能投顾是根据现代资产组合理论构建数据模型，其资产配置的过程完全依靠互联网来完成。但是，传统智能投顾分析准确性不高，也很难提供方便快捷的人性化服务。

技术实现要素：

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种智能投顾的实现方法及系统，为用户提供精准的金融服务。

本发明实施例提供了一种智能投顾的实现方法，包括：

基于自然语言处理nlp对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及

根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。

本发明实施例还提供一种智能投顾系统，包括：数据处理模块、深层语意理解模块、结果反馈模块和金融数据库，其中

所述数据处理模块，用于基于自然语言处理nlp对来自多元异构数据源的数据进行处理，将得到的数据信息加入所述金融数据库；以及，获取用户输入的信息进行处理，将处理后的信息发送至所述深层语意理解模块；

所述深层语意理解模块，用于根据所述处理后的信息，确定所述用户的意图；

所述结果反馈模块，用于基于所述金融数据库，按照所述用户的意图为所述用户提供相应的金融服务。

本发明实施例还提供一种智能投顾系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述智能投顾的实现方法。

本发明实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行所述智能投顾的实现方法。

本发明实施例包括：基于nlp对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。本发明实施例中，通过基于nlp对来自多元异构数据源的数据进行处理，可以获取实时完善的金融数据信息，结合意图识别，可以为用户提供准确的金融市场分析及数据分析服务，从而给用户更精准且方便快捷的金融服务。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1为本发明实施例的智能投顾系统架构图；

图2为本发明实施例的数据处理模块的组成示意图；

图3为本发明实施例的文本结构化处理的示意图；

图4为本发明实施例的深层语意理解模块的组成示意图；

图5为本发明实施例的阅读理解模型框架；

图6为本发明实施例的结果反馈模块的组成示意图；

图7为本发明实施例的用户画像的示意图；

图8为本发明实施例的产品画像的示意图；

图9为本发明实施例的多模态联合学习框架；

图10为attention(注意力)模型示意图；

图11为meta-critic(元-评判)网络结构示意图；

图12为本发明实施例的数据模型管理模块组成示意图；

图13为本发明实施例的智能投顾的实现方法流程图；

图14为本发明实施例的对来自多元异构数据源的数据进行处理的流程图；

图15为本发明实施例的联合学习的流程图；

图16为本发明实施例的确定所述用户的意图的流程图；

图17为本发明实施例的采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐的流程图；

图18为本发明实施例的深层语义理解及结果反馈流程图；

图19为本发明应用实例1的流程图；

图20为本发明应用实例2的流程图；

图21为本发明应用实例3的流程图；

图22为本发明应用实例4的流程图；

图23为本发明应用实例5的流程图；

图24为本发明应用实例6的流程图；

图25为本发明应用实例7的流程图；

图26为本发明应用实例8的流程图；

图27为本发明另一实施例的智能投顾系统的组成示意图。

具体实施方式

下文中将结合附图对本发明的实施例进行详细说明。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

由于金融市场与各类新闻，研报具备强关联性，故而本发明实施例采用nlp(naturallanguageprocessing，自然语言处理)技术对其进行事件抽取及分析。本发明实施例提供一种可交互式的智能投顾系统，可以完成用户属性刻画，并能通过nlp技术对海量金融文本及数据进行分析，根据用户的要求给出合适的回复。此外，本发明实施例可基于元学习不断进行自我提升和改进。

如图1所示，本发明实施例的智能投顾系统包括：数据处理模块11、深层语意理解模块12、结果反馈模块13和金融数据库14，其中

所述数据处理模块11，用于基于nlp对来自多元异构数据源的数据进行处理，将得到的数据信息加入所述金融数据库14；以及，获取用户输入的信息进行处理，将处理后的信息发送至所述深层语意理解模块12。

其中，所述数据处理模块11可以从多元异构数据源获取数据，例如从稳定的金融服务api(applicationprogramminginterface，应用程序编程接口)获取数据，网上爬取的各类新闻、评论等。然后通过文本结构化处理流程，将有用的信息存入金融数据库14中。文本主要基于行业及类型进行分类，其中，类型包括新闻、评论、研报等。

所述金融数据库14可以是分布式数据库，可以包括结构化数据库、知识库、图谱库、用户画像、产品画像等，其中，图谱库为图数据库，包括一个知识图谱和多个事理图谱。所述知识图谱与所述知识库相关联。

在一实施例中，参照图2和图3所示，所述数据处理模块11包括数据解析器111，文本分析器112和信息抽取器113，其中，

所述数据解析器111用于对来自多元异构数据源的数据进行数据解析，得到文本数据。

其中，数据解析可以包括：html(hypertextmarkuplanguage，超文本标记语言)解析、word解析、pdf解析等。

所述文本分析器112用于对所述文本数据进行文本分析，得到文本信息。

其中，文本分析可以包括：文本清洗、章节结构分析、句法分析、表情识别、图片提取等。

其中，章节结构分析可采用深度学习分类器、统计语言模型。句法分析可采用段落分析和句法树的形式，表情识别可分别进行表情识别和情绪分析、图片提取可进行图片识别和图片语意理解等。

对于章节结构分析，可以从多层次和多维度进行分类。层次主要分为三层，第一层指篇章内部的结构、意义和组织形式，如会话分析和语料库为基础的篇章分析；第二层指语言和其他语言体现的语篇的模态，如多模态话语分析；第三层指语言与社会、文化、语境的关系，如中介话语分析和体裁分析、批评话语分析和交际民族学等。

维度主要分五维，第一种是把中心放在语篇本体上，研究的是语篇本身的特征及语篇结构，如会话分析和体裁分析；第二种是把重点放在余篇所呈现的内容上，包括社会活动和社会事件以及对于社会的构建作用上，如批评话语分析、积极话语分析等；第三种是把中心放在个体的身份构建上，包括研究个体的方言、性别、阶层、种族用于上；第四种是把重点放在语篇与篇之间的关系上，即互文性研究。有的探讨语篇、语境的关系等，如系统功能语言学的语篇分析理论。第五种是探讨语篇作为社会实践中的过程和产品，如中介话语分析。

针对不同层次和维度，分别设计分类器，从而可以全面的对篇章结构进行分析。常用的文本分类器有fasttext、textcnn(文本cnn)、textrnn(文本rnn)、textrcnn(文本rcnn)、hierarchicalattentionnetwork(分层注意力网络)、seq2seqwithattention(带注意力机制的序列到序列模型)、transformer(变形网络)、dynamicmemorynetwork(动态记忆网络)、entitynetwork(实体网络)，考虑到模型性能和模型相关性(通常采用相关性低的模型集成可以得到更好的结果)，本发明实施例采用fasttext、textcnn、entitynet、dynamicmemory和transformer进行集成。当然，如果出现了更好的文本分类器，由于本发明实施例中模型进行了统一管理，故而可轻易替换。

所述信息抽取器113用于根据所述文本信息进行信息抽取，将得到结构化文本数据加入金融数据库14中的结构化数据库。

其中，所述根据所述文本信息进行信息抽取，可包括：命名实体识别、关系抽取、事件抽取、表格信息抽取等。

其中，对于命名实体识别，可包括实体消歧、lstm+crf(longshort-termmemory+conditionalrandomfield，长短期记忆网络+条件随机场)、基于实体库的规则抽取等，关系/事件抽取可包括动态卷积神经网络、带attention(注意力)的事件识别、强化学习、加入外部知识的远程监督等，表格信息抽取可包括表格结构分析、表格对齐、表格补全等。

对于关系抽取，传统事件抽取采用动态卷积网络+注意力机制的方法已经可以得到不错的效果，提升重点主要在数据集的搜集和标注层面，特别是在双语语料的合理利用，本发明实施例可以采用机器学习模型(如transformer、seq2seq+attention)对双语语料进行处理，从而变相扩充了语料。当句子中出现多个实体和多个关系的情况出现时，可以给句子里每个词打上语义标签，找三元组，于是问题转换为打标签任务。这种情况下，采用copy(复制)机制解决overlap(重叠)问题，所以主模型变为了加入copy机制的encoder-decoder(编码器-解码器)模型，该模型中，对于每个三元组，需要采用新的cell(元素)进行encoder，但decoder时只采用一个解码器解码所有三元组。

文本中提取的特征与处理后的文本都将存在结构化数据库中。数据库中保存的文本特征(如实体、关系、事件等)可用于辅助图谱的构建。

另外，针对用户输入的信息，所述文本分析器112用于对用户输入的信息进行文本分析，得到用户输入文本信息。

其中，用户输入的信息可以是语音、文字等内容，如果用户输入的信息是语音，则将该语音转换为文字。

所述信息抽取器113用于根据所述用户输入文本信息进行信息抽取，获取关键词和句式。

在一实施例中，所述数据处理模块11还包括文本摘要子模块114，

所述文本摘要子模块114用于将所述文本分析器112得到的文本信息进行摘要处理，再发送至所述信息抽取器进行信息抽取。

所述文本摘要子模块114将长文本变为短文本，从而便于进一步分析和事件抽取。其中，长文本和短文本可以根据预设的规则定义，例如，500字以上的文本定义为长文本，小于500字的文本定义为短文本。所述文本摘要子模块114可以在文本分析器112处理文本之后进行摘要处理，也可以在数据解析器111处理数据之后进行摘要处理，也可以在文本分析器112处理过程中进行摘要处理。

文本摘要子模块114可以通过textteaser、lexrank这类传统摘要方法及基于copy机制的seq2seq方法实现。调用文本摘要子模块有两种方式，其一是根据特定问题指定调用特定模块，textteaser、lexrank这类传统方法可通过修改超参数控制摘要的精简程度，而seq2seq(sequencetosequence，序列到序列)方法需要训练多个模型来解决这个问题；其二是根据文本字数选择特定模块进行摘要，如对于接口a，限定500字以上的文本统一调用lexrank模块。

所述深层语意理解模块12，用于根据所述处理后的信息，确定所述用户的意图。

如图4所示，在一实施例中，所述深层语意理解模块12包括意图识别子模块121，所述意图识别子模块121用于基于意图识别规则和分类算法，结合用户画像，按照所述关键词、句式，结合实体抽取及文本分类算法确定实体和意图。

另外，所述意图识别子模块121还用于按照所述关键词和句式确定实体和意图之前，基于所述关键词和句式确定用户不在执行与投资无关的输入(不在闲聊)，且确定所述用户不在业务办理流程中。

在一实施例中，所述深层语意理解模块还包括语句生成子模块122，所述语句生成子模块122用于所述意图识别子模块121基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，生成闲聊语句或复述语句，通过所述结果反馈模块13反馈至所述用户。

所述语句生成子模块122可采用主流seq2seq方法进行语句生成，这部分可用于闲聊或是语句复述，增加系统的智能性。

如果所述意图识别子模块121基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，若确定用户在询问日期、天气等通用问题，则可以采用通用模板，通过所述结果反馈模块13反馈至所述用户。

在一实施例中，所述深层语意理解模块还包括阅读理解子模块123，

所述阅读理解子模块123用于对于多次出现且无法回答的问题，采用阅读理解的方式从所述金融数据库14的数据信息中获取相应的回答。

所述阅读理解子模块123可以根据文本及问题，通过其实体和意图找出相关文档，并采用阅读理解的方式获取相应回答，经人工审核后可加入知识库中。知识库中的qa(问题-回答)对如果涉及金融领域常见实体或事件，可加入金融数据库14的图谱库中的知识图谱或事理图谱。

所述阅读理解子模块123可基于r-net、slqa(semanticlearningforquestionanswering，基于分层融合注意力机制)这类模型实现。

如图5所示，以阅读理解模型基于slqa架构为例，该架构在特定任务上已经超越了人类。由于金融领域的复杂性，本系统在使用该架构时需要注意相关特征的提取，理论上金融文本特征做得越细，结果会越好。对于多次出现的事件，可采用模板形式提取，从而增加准确性。

该模型主要分为以下几部分：

编码层：用于表示学习，可以理解为语言模型层，用以将篇章及问题从离散字符转变为蕴含语义的表征向量，采用了多类深度学习方法进行特征提取。

对于文本文件，首先需要训练词向量，优先采用词矩阵表征和预训练的语言模型(基于通用语料)解决一词多义的问题，然后分别采用词向量和字的one-hot(独热码)表征训练当前文本的语言模型，得到其相关特征。此外，由于基于词、字embedding(嵌入)学到的特征无法跨文本，故而还需要通过tf-idf和textrank提取关键词，并采用cnn对其进行处理。随后，将上述特征进行排列，并采用文本inception(组织)结构对其进行进一步处理。

对于问题文本，同样需要采用词(词向量得到的方法同上)、字嵌入训练语言模型，由于问题通常较短，故而不需要关键词(每个词都很关键)，但可采用tcn(temporalconvolutionalnetwork)结构对其进一步进行特征抽取(其特征与语言模型区别较大)。随后，同样将上述特征进行排列，并采用文本inception结构对其进行进一步处理。

注意力层：得到有效的问题及篇章表征后，为表达依据问题定位答案过程，缩小备选答案查找范围，将搜索空间通过注意力机制约束，主要进行多层融合注意力表示，对问题和篇章进行相关性对齐(align)，并不断补充全局信息(fusion)，每一次对齐都基于下层信息并在此基础上更加细化，采用的方式分别为co-attention(篇章到问题，问题到篇章)，self-attention(问题自身，篇章自身)。

实际实现时，对于文本特征，首先将之前传入的特征进行嵌入(可采用全连接结构)，然后将问题的嵌入特征一起进行排列，并对排列后的结果进行q2p(问题到段落)的注意力机制计算，并将其权重和嵌入结果进行融合(相加或者拼接)。对于融合后的结果，将其与嵌入结果相乘进行语义表示，然后将其与该文本的领域特征(向量表示)放在一起进行自排列(拼接)，然后对于该矩阵进行p2p(段落到段落)注意力机制计算。

对于问题特征，其处理方式与文本特征类似，区别是不需要引入额外的领域特征信息。

匹配层：用于做融合信息后的问题和篇章匹配，采用双线性矩阵来学习经过多层信息过滤后的篇章和问题匹配参数，由于在前一阶段无关信息已经被过滤，最后的匹配可完成答案的定位工作。需要注意的是，文本特征处理时，需将p2p注意力机制得到的结果与之前的语义表示一起进行权重融合，在处理问题特征时不需要这一步操作。

输出层：结合匹配信息对篇章中词汇进行标注，预测相应词汇是答案开始位置或结束位置的概率。之后，模型会抽取可能性最高的一段连续文本作为答案。

该结构中的每一部分都可替换为能实现类似特征处理的其它模块，如编码层可采用ngram(多元语法)特征训练语言模型，注意力层可以采用multi-headattention(多头注意力)结构。

所述结果反馈模块13，用于基于所述金融数据库14，按照所述用户的意图为所述用户提供相应的金融服务。

所述用户的意图可以包括需要提供金融问题服务、需要提供数据查询服务、需要业务办理服务、需要投资建议服务等。

如图6所示，所述结果反馈模块13包括回复生成子模块131，

所述回复生成子模块131用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要提供金融问题服务时，查询所述金融数据库14中的图谱库，确定存在相应的答案时，输出所述答案。

在明确用户意图后，所述回复生成子模块131通过数据检索、图谱推理或是各类模型的结果得到合理的回复。

在一实施例中，所述回复生成子模块131用于：查询所述图谱库中的知识图谱，确定有相匹配的实体和意图时，通过与所述金融数据库中的知识库中的映射关系确定相应的答案，输出所述答案；或者

查询所述图谱库中的知识图谱，确定没有相匹配的实体和意图时，查询所述图谱库中的事理图谱，确定有相应的事件，按照所述事理图谱进行推断分析，输出所述答案。

在一实施例中，所述结果反馈模块13，包括还相似度匹配子模块132，

所述相似度匹配子模块132用于基于所述金融数据库14中的知识库，将所述用户输入的信息与标准问题进行相似度匹配。

所述相似度匹配子模块132可以分别通过传统相似度特征的组合训练冷启动相似度算法，以及根据领域数据训练相应的深度学习模型进行相似度匹配算法，前者具备更强的领域迁移性和鲁棒稳定性，后者在特定领域内拥有更高的精度。相似度匹配算法可以进行知识库中qa对的检索，同时也可以作为特征辅助其它模块。

所述回复生成子模块131还用于：所述深层语意理解模块12按照所述用户的意图确定所述用户需要提供金融问题服务，基于所述金融数据库14中的图谱库确定没有相应的答案时，根据所述相似度匹配子模块132的匹配结果，在相似度大于或等于阈值时，输出所述标准问题对应的答案。

在一实施例中，所述结果反馈模块13还包括交互子模块133，

所述交互子模块133用于在所述相似度小于所述阈值时，确定所述用户输入的信息中包含所述图谱库中的实体或意图时，基于所述实体或意图进行反问；或者确定所述用户的问题中不包含所述图谱库中的实体或意图时，按照预设规则进行通用反问、回复或推荐信息。

交互子模块133用于当用户信息所在领域和意图不清楚时，主动引导交互确定用户意图。此外，该模块会记忆每轮对话的所有语句，起到上下文交互的作用。

在一实施例中，所述回复生成子模块131还用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要提供数据查询服务时，按照用户输入的信息中的关键词查询所述金融数据库14，输出查询结果。

在一实施例中，所述回复生成子模块131还用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要业务办理服务时，确定所述用户需要办理的业务类型，根据所述业务类型在确定支持办理所述业务时，执行业务办理服务。

在一实施例中，所述结果反馈模块包括还包括产品选择子模块134，

所述产品选择子模块134用于所述深层语意理解模块12按照所述用户的意图确定所述用户需要投资建议服务时，确定所述用户需要的投资类型，采用元学习的方式，基于所述金融数据库中的知识库、产品画像和用户画像，为所述用户进行产品推荐。

产品选择子模块134可以对各类产品进行分析并给出合理的资产组合，同时防止某个行业流入过多热钱。

在一实施例中，所述金融数据库14包括图谱库和知识库，所述图谱库包含一个知识图谱和多个事理图谱，所述知识图谱与所述知识库相关联。

在一实施例中，所述智能投顾系统还包括：

图谱模块15，用于将所述知识库中涉及金融领域的实体或事件加入所述金融数据库14中的图谱库中。

图谱主要分为金融知识图谱和事理图谱，知识图谱主要基于金融专业知识进行构建，前期人工构建，后期主要通过关系抽取、实体识别及意图识别，基于大量文本消息进行完善，每个行业、每类金融产品将会作为实体，分别带有各自的属性；事理图谱在知识图谱基础上对于重要事件流进行构建，形式为有向有环图，结点代表事件，有向边代表事件之间的顺承、因果关系。整个图谱库由一个知识图谱和多个事理图谱组成，最终可以得到不同事件对不同行业或是不同指数分别会产生怎样的影响，且会对即将发生的事件给出预期。

知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，选择图数据库作为存储介质，例如开源的neo4j、twitter的flockdb、sones的graphdb等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

需要注意的是，初期金融知识图谱采用自顶向下的构建方式，通过金融知识体系及专家的经验建立图谱框架，并在框架内填入普适性的实体、关系及属性。后期，随着知识不断更新，人的认知能力不断提升，图谱将采用自底向上的方式进行更新迭代。具体构建过程如下：

1、对结构化数据及第三方数据库进行数据整合，对半结构化数据及非结构化数据进行实体、关系及属性抽取；

2、通过知识推理对实体、关系及属性进行对齐；

3、采用实体、关系及属性进行本体构建；

4、对构建好的本体进行质量评估，如通过便存入知识图谱中；

5、当知识更新时，同样采取质量评估，如通过便进行图谱更新。

事理图谱构建流程与知识图谱类似，所不同的是事理图谱定义了两种事件间关系：一种顺承，一种因果，这两种关系都有时间顺序。此外，知识图谱研究对象为名词性实体及其关系，事理图谱研究对象是谓词性事件及其关系。知识图谱主要知识形式是实体属性和关系，事理图谱则是事理逻辑关系以及概率转移信息。事件间的演化关系多数是不确定的，而实体之间的关系基本是稳定的。

在一实施例中，所述智能投顾系统还包括：

用户画像模块16，用于根据所述用户的属性信息建立或完善用户画像。

用户画像的建立可有助于对用户语句进行意图理解，还可以根据用户的风险偏好给出更好的投资建议。

如图7所示，所述用户的属性信息包括如下至少之一：

年龄因素、家庭收入、可投资金额、家庭负担、投资经验、可接受亏损、心理因素、用户目标数据、用户交互数据、用户行为数据、兴趣爱好。

另外，类似用户画像，金融数据库中还包括产品画像，产品画像的建立可以在更方便对产品进行评估的同时给用户更精确的推荐，同时可以将多模态多任务模型的分析结果与产品关联，判断其在当前形势下受到的影响。

如图8所示，产品属性主要分为产品类型、收益率、最大回撤、关联产业、波动率、美国存托凭证(adr)、相对强弱指数(rsi)、资产配置、有效前沿、资产相关度、企业状况、其它量化因子等。

得到上述指标后，将其向量化，即每个用户及产品由向量进行表征，并存入金融数据库中。产品向量将随市场的变化而不断变化，而用户向量将根据用户行为不断更新。

在一实施例中，所述数据信息包括多模态数据，所述智能投顾系统还包括：

联合学习模块17，用于从所述金融数据库14中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，存入所述金融数据库14中的知识库中。

联合学习模块17基于多模态输入的joint-learning(联合学习)模型，可建立多模态数据与各个行业之间的联系，如供需变化、相关产品价格变化等等。如：美国大选结果公布后，对国内房地产行业的影响，具体标签可通过板块股价等量化数据变化率的形式体现。该部分结果若多次出现，经人工审核后可加入图谱。

如图9所示，本模型的主要输入为结构化的文本数据、宏观市场数据和图片数据，图片数据除了需进行目标识别(可采用rcnn系列或是yolo(youonlylookonce)方法)，还采用主流的inception结构(可采用多层)进行抽象特征提取，然后将这些特征线性拼接后导入全连接层，对于较容易进行语义理解的图片，可不作为网络输入，直接将文本语义表示作为结构化文本输入。结构化文本数据先采用三种方法进行处理，其一是提取传统特征，包括文本包含多少词这类简单特征以及主题模型这类较为复杂的特征，这部分提取的特征都是由数字或者向量进行表示，然后将这些特征进行归一化后拼接并导入全连接层(fc)；其二是采用tf-idf、textrank等方法进行文档关键词提取，并采用word2vec(wordtovector，词向量)方法进行表示，通常采用fasttext训练skipgram模型可以得到最好的表征效果，然后将拼接后的矩阵导入多层resnet模块进行特征抽取，这里采用resnet的原因是关键词拼接得到的矩阵不用考虑前后相关性，而实际实验中发现该类结构能比textcnn起到更好的特征提取效果；其三是对文本进行摘要，这部分采用传统方法和seq2seq方法结合的方式提取，这两类方法得到的结果具有较大差异性，故而组合两类方法的结果具有意义。随后，采用sentenceencoder的方法进行句编码，再分别采用残差模块和tcn进行特征抽取(具体层数视情况而定)。关键词部分不采用tcn的原因是这部分不考虑词序，但需要对每个关键词在文档中出现的位置进行编码，加入到词表征中，以提升效果。

宏观市场数据包括道琼斯指数、汇率、存款利率、贷款利率等。该类数据的不同组合代表着全球金融市场处于不同的形势下，故而加入这类数据有重要的意义。这类数据的特征处理较为简单，只需要将其归一化后导入全连接层即可。通过将这类数据和上述文本数据的嵌入(embedding)，可得到当前金融市场的抽象表征，embedding时可采用拼接嵌入、分层嵌入或者分块嵌入的方式，然后将其结果导入全连接层，当embedding结果不是向量而是矩阵时，也可采用cnn或者其它更强的特征提取层对其进一步处理。

由于金融市场具有完整性，故而本发明实施例中将不同行业的输出模块放在一起训练，这就是典型的jointlearning结构。只要不同任务中具有相关性，该结构已经证明了能取得比单模型更好的效果。在联合学习时，加入各个行业相关的强关联特征，从而可以更好的预测某天的文本数据在当前形势下会对某个行业带来何种影响。

在一实施例中，所述智能投顾系统还包括：

元学习模块18，用于基于元学习的方式建立注意力模型，根据所述注意力模型优化所述联合学习模型。

元学习模块18可以分两部分，第一部分基于元学习思想设计通用的attention模型，改进多模态输入的多任务jointlearning模型；第二部分采用meta-criticnetwork的思路学习更好的loss，该部分主要通过强化学习在不同场景下进行人的行为预测，从而辅助系统决策，提升系统的准确性和智能性。

其中，参照图10，第一部分的基本思路是：人的注意力是可以利用以往的经验来实现提升的，那么利用以往的任务来训练一个attention模型，从而面对新的任务，能够直接关注最重要的部分。本系统构造一个attention机制，最后的标签判断通过attention的叠加得到，而attention则通过历史样本及新样本函数变换后的组合训练得到。基本目的就是利用已有任务训练出一个好的attentionmodel。该模块可以单独训练一个分类模型，与jointlearning得到的结果进行ensemble(组合)，也可以嵌入到多模态jointlearning的模型中联合训练，从而提升最终结果。

该方法主要用于训练样本较少的类别，使用时，需要将该类别的历史样本进行序列化编码，然后对其编码信息进行特征提取，进入中间层。对于新样本，除了进行编码后导入中间层，还需与历史样本的编码结果进行attention计算(可采用multi-headattention这类新型attention方法)，计算得到的权重即为新样本与历史样本之间的关联度，从而可以从历史样本对各个行业的影响判断新样本对各个行业的影响。

第二部分较为独立，通过当前形势分析及事理图谱建立状态空间，再基于每个状态建立行为空间及反馈，最终得到人的最佳行为。这部分主要是与产品选择子模块134结合，对金融市场进行更好的预判，因为大多数人的行为将在未来体现在市场上。这里假设大部分资金的持有者是理智的，即有钱人足够聪明。从图11中可以看出本系统构造了一个meta-criticnetwork(包含metavaluenetwork和task-actorencoder)来学习预测actornetwork的loss(损失)。

使用时，分为元学习步骤及元测试步骤，元学习步骤如下：

输入：任务生成器t

输出：训练好的任务及价值网络

元测试步骤如下：

输入：没见过的任务，训练好的任务和价值网络

输出：训练好的策略网络

在一实施例中，所述智能投顾系统还包括：数据模型管理模块19。

如图12所示，所述数据模型管理模块19包括对话管理子模块191和模型管理子模块192。

所述对话管理子模块191用于存储对话数据，包括原始文本数据及处理后的特征数据，进行有效的会话管理。

所述模型管理子模块192用于维护数据处理模块、深层语义理解模块、联合学习模块及元学习模块需要的算法库、规则库以及金融数据库等。

综上所述，本发明实施例的智能投顾系统，具有金融市场分析及智能聊天机器人的功能，通过从多元异构数据源获取数据，进行文本结构化处理，将有用的信息存入分布式数据库中。基于大量文本及各类宏观市场数据，本发明实施例通过多模态jointlearning模型建立其与各行业的联系，从而可以通过近期新闻和数据分析整个金融市场的变化。该模型采用离线训练，考虑网络前馈较为耗时，系统每隔一段时间对当天文本及数据进行分析，保存重要结果便于调用。元学习模块18主要有两个作用，第一个是改进模型，解决小样本问题；第二个是通过之前模型的结果学习人的行为。

图谱与语义理解相辅相成，图谱的知识点和事件可用于更好的对文本进行理解，而从文本中抽取出的新常见实体和关系可用于知识图谱的扩充。

系统中智能聊天机器人部分通过数据处理和语义理解，结合用户画像更好的理解用户意图。此外，通过用户在系统上的行为，可对用户画像进行不断的完善及修正。

与业界已有方案相比，本系统更加智能化、人性化。

参照前述针对智能投顾的描述，如图13所示，本发明实施例还提供一种智能投顾的实现方法，包括：

步骤201，基于自然语言处理nlp对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库；以及

步骤202，根据用户输入的信息，确定所述用户的意图，基于所述金融数据库，按照所述用户的意图为所述用户提供金融服务。

其中，由于步骤201可以是定期或实时执行，所以步骤201和202的执行顺序不限。

本发明实施例中，通过基于nlp对来自多元异构数据源的数据进行处理，可以获取实时完善的金融数据信息，结合意图识别，可以为用户提供准确的金融市场分析及数据分析服务，从而给用户更精准且方便快捷的金融服务。

如图14所示，在一实施例中，所述基于nlp对来自多元异构数据源的数据进行处理，包括：

步骤301，对所述数据进行数据解析，得到文本数据；

步骤302，对所述文本数据进行文本分析，得到文本信息；

步骤303，根据所述文本信息进行信息抽取，得到结构化文本数据。

其中，来自多元异构数据源的数据可以是各类新闻、评论、研报、宏观市场数据等。

在一实施例中，所述数据解析，包括如下操作中的至少之一：html解析、word解析、pdf解析；

所述文本分析，包括如下操作中的至少之一：文本清洗、章节结构分析、句法分析、表情识别、图片提取。

在一实施例中，所述根据所述文本信息进行信息抽取，包括如下操作中的至少之一：

命名实体识别、关系抽取、事件抽取、表格信息抽取。

其中，对于命名实体识别，可包括实体消歧、lstm+cr、基于实体库的规则抽取等，关系/事件抽取可包括动态卷积神经网络、带attention的事件识别、强化学习、加入外部知识的远程监督等，表格信息抽取可包括表格结构分析、表格对齐、表格补全等。

在一实施例中，所述根据所述文本信息进行信息抽取之前，还包括：

对所述文本信息进行摘要处理。

所述摘要处理是指将长文本变为短文本，从而便于进一步分析和事件抽取。其中，长文本和短文本可以根据预设的规则定义，例如，500字以上的文本定义为长文本，小于500字的文本定义为短文本。在文本分析之后进行摘要处理，也可以在数据解析之后进行摘要处理，也可以在文本分析过程中进行摘要处理。

在一实施例中，所述数据信息包括多模态数据，所述方法还包括：

从所述金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，存入所述金融数据库中的知识库中。

基于多模态输入的joint-learning(联合学习)模型，可建立多模态数据与各个行业之间的联系，如供需变化、相关产品价格变化等等。如：美国大选结果公布后，对国内房地产行业的影响，具体标签可通过板块股价等量化数据变化率的形式体现。该部分结果若多次出现，经人工审核后可加入图谱。

如图15所示，在一实施例中，所述多模态数据包括结构化文本数据、宏观市场数据和图片数据，所述从所述金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，包括：

步骤401，从所述金融数据库中获取结构化文本数据、宏观市场数据及图片数据；

步骤402，进行多模态数据的特征提取；

步骤403，将多模态数据的特征嵌入，将嵌入后的特征进行全连接；

步骤404，将全连接的结果与每个行业对应的强关联特征嵌入，进行联合优化，建立所述多模态数据与行业之间的关联关系。

在一实施例中，所述方法还包括：

基于元学习的方式建立注意力模型，根据所述注意力模型优化所述联合学习模型。

参照图10，构造一个attention机制，最后的标签判断通过attention的叠加得到，而attention则通过历史样本及新样本函数变换后的组合训练得到。基本目的就是利用已有任务训练出一个好的attentionmodel。该模块可以单独训练一个分类模型，与jointlearning得到的结果进行ensemble，也可以嵌入到多模态jointlearning的模型中联合训练，从而提升最终结果。

在一实施例中，所述金融数据库包括图谱库和知识库，所述图谱库包含一个知识图谱和多个事理图谱，所述知识图谱与所述知识库相关联。

在一实施例中，所述方法还包括：

将所述知识库中涉及金融领域的实体或事件加入所述金融数据库中的图谱库中。

初期知识图谱采用自顶向下的构建方式，通过金融知识体系及专家的经验建立图谱框架，并在框架内填入普适性的实体、关系及属性。后期，随着知识不断更新，人的认知能力不断提升，图谱将采用自底向上的方式进行更新迭代。

在一实施例中，所述金融数据库包括用户画像，所述方法还包括：

根据所述用户的属性信息建立或完善用户画像；其中，所述用户的属性信息包括如下至少之一：

年龄因素、家庭收入、可投资金额、家庭负担、投资经验、可接受亏损、心理因素、用户目标数据、用户交互数据、用户行为数据、兴趣爱好。

用户画像的建立可有助于对用户语句进行意图理解，还可以根据用户的风险偏好给出更好的投资建议。

如图16所示，在一实施例中，所述根据用户输入的信息，确定所述用户的意图，包括：

步骤501，根据用户输入的信息，获取关键词和句式；

步骤502，基于意图识别规则和分类算法，结合用户画像，按照所述关键词和句式确定实体和意图。

在一实施例中，所述基于意图识别规则和分类算法，结合用户画像，按照所述关键词和句式确定实体和意图之前，还包括：

基于所述关键词和句式确定用户不在执行与投资无关的输入(不在闲聊)，且确定所述用户不在业务办理流程中。

其中，基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，生成闲聊语句或复述语句，将回复反馈至所述用户。

其中，如果基于所述关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，若确定用户在询问日期、天气等通用问题，则可以采用通用模板，将回复反馈至所述用户。

在一实施例中，所述用户输入的信息包括问题时，所述方法还包括：

对于多次出现且无法回答的问题，采用阅读理解的方式从所述金融数据库的数据信息中获取相应的回答。

其中，可基于r-net、slqa这类模型，通过其实体和意图找出相关文档，并采用阅读理解的方式获取相应回答。

在一实施例中，所述采用阅读理解的方式从所述金融数据库的数据信息中获取相应的回答之后，所述方法还包括：

将审核通过的问题和相应的回答加入所述金融数据库中的知识库中。

知识库中的qa(问题-回答)对如果涉及金融领域常见实体或事件，可加入金融数据库的图谱库中的知识图谱或事理图谱。