硕士学位论文虚假评论识别及评论有用性分析RESEARCHDECEPTIVEOPINIONSPAMRECOGNITIONREVIEWUSEFULNESSANALYSIS哈尔滨工业大学2018国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.9密级:公开工程硕士学位论文虚假评论识别及评论有用性分析刘远超副教授哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:004.9DissertationMasterDegreeEngineeringRESEARCHDECEPTIVEOPINIONSPAMRECOGNITIONREVIEWUSEFULNESSANALYSISCandidate:PangBoSupervisor:AssociateProf.LiuYuanchaoAcademicDegreeAppliedEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolComputerScienceTechnologyDateDefence:June,2018Degree-Conferring-Institution:HarbinInstituteTechnology哈尔滨工业大学工程硕士学位论文互联网技术的不断普及和发展,使得越来越多人通过网络进行和衣食住行相关的消费。为了帮助用户更好的进行消费抉择,大部分的电商平台都向用户提供了评论评星的途径,甚至有类似yelp的评论平台。消费用户或发表评论用户提供分享的信息会间接影响其他用户,因此商家越来越重视在线评论,甚至有些店铺或商家会请人刻意的发布大量赞美评论或进行高星级的评分以此来间接谋取利益,而这带来诸多问题,例如减低了评论平台的存在价值,使消费者受骗等。除此之外,评论量的巨幅增加,即使评论全部是真实的,用户也要耗费很多时间筛选对自己有用的评论。这些对于用户体验来讲都是负面的影响。本文针对评论的虚假性识别及有用性的分析进行了研究。对于评论的虚假性判别,本文从四方面进行了研究,(1)本文将用户、评论、店铺信息映射到图结构中,通过捕获三者之间的潜在关联,借助迭代算法来最终判别评论的真实性。结果表明先验概率的设定对图模型的效果影响较大,应用MRF能量函数可对模型效果有一定的提升。(2)提取了TF-IDF,unigram,LDA,POS四种特征,并使用机器学习模型分别在这些特征上进行实验,后续结合上述特征和图模型中提取的行为特征进行了进一步实验,证实了行为特征优于文本特征,两种特征结合的效果优于单特征。(3)从文本语义的角度,本文使用CNN、LSTM、GRU等经典模型、由经典模型构建的组合模型及较为新颖的VDCNN模型对虚假评论判别问题进行了实验。探究了多种半监督模型在虚假评论判别问题上的应用,实验表明Co-training模型结合文本特征和行为特征后得到最优准确率74.38%。在评论有用性分析的问题上,本文分别从分类问题的角度和回归问题的角度对其进行了研究。实验结果表明联合训练模型的效果要优于单模型,SVR模型下评论有用性预测的结果最好。关键词:虚假评论识别;半监督;图模型;评论有用性;哈尔滨工业大学工程硕士学位论文continuouspopularizationInternettechnologies,moremorepeoplefood,clothing,housing,helpusersbettermakeconsumerchoices,Moste-commerceplatformsprovideusersevenhavereviewplatformslikeyelp.Consumeruserscommentusersprovideinformationsharingindirectlyaffectsotherusers.Therefore,businessespaymoremoreattentiononlinereviews,evensomeshopsbusinessesinvitepeopledeliberatelyreleaselargenumberpraisecommentshigh-starratingsindirectlySeekbenefits,whichbringsmanyproblems,existencevaluecommentaryplatformhascausedconsumersreviewshasincreaseddramatically.Evenalltrue,userhastimescreeningallnegativeimpactsuserexperience.articlefocusesspuriousidentificationspuriousjudgmentpaperhasstudiedfromfouraspects.articlemapsusers,reviews,storeinformationgraphstructure.Throughpotentialrelationshipsbetweenthree,iterativealgorithmsultimatelydiscriminatecomments.Authenticity.resultsshowpriorprobabilityhasgreatinfluencegraphmodel.ApplyingMRFenergyfunctioncanimprovemodeleffect.FourcharacteristicsTF-IDF,unigram,LDA,POSwereextracted,experimentswereperformedfeaturesusingmachinelearningmodel.Furtherexperimentswereperformedbehaviorcharacteristicsextractedfromabovefeaturesgraphmodels,confirmingbehavioralcharacteristicsbetterthantextualfeatures.twofeaturesbetterthansinglefeature.textsemantics,paperusesclassicalmodelsCNN,LSTM,combinedmodelconstructedclassicalmodels,novelVDCNNmodelfalsecomments.semi-supervised哈尔滨工业大学工程硕士学位论文falsecomments.experimentsshow Co-trainingmodel has optimalaccuracy 74.38%after combining text features behavioralfeatures. paperstudies them from classificationproblems