网络舆情的关联度它是指舆情事件发生后,牵扯到的企业单位、媒体、个人、地区、历史事件等,与舆情事件之间的关联性。
面向网络舆情的关联度分析方法
在这里以某舆情系统产品为例:
步骤一:数据预处理
步骤二:建模和诊断
步骤三:模型优化
步骤 1:数据预处理
(1)缺失值处理
在用户信息表中,一些用户的身份证是错误的,无法修正,当成缺失值,因此该用户的身份证这一项不列入用户属性中。在提取 html 文件中,不一定能够把所需要的属性(如:性别,地址)提取出来,若不能根据网址和标题分词得到的地址对地址进行填补,计算时当缺失值处理。
(2)重复值处理
在原始数据中,同样的事件可能会出现很多次,而经过访问,这些事件大多是抓取时间不同,代表了网站有更新,即事件的更新度,该事件的频率可以作为一个热度进行考虑,但在本次挖掘中,我们是研究用户与用户之间的关系,一个事件可能关系着几个用户,那么如果本事件重复出现,就会使这 2 个用户的关联更大,影响着最后结果的正确性。因此把重复事件全都去掉,只保留第一次出现的事件,同时提取了重复事件频率,方便研究事件的热度以及用户和事件频率的关系。
(3)分词处理
运用中科院的分词软件,将每个 txt 文本中事件标题进行分词,词性标注,以方便提取各个属性的词语。
(4)异常值处理
在分词后,由于分词软件的词库是有限大的,因此有些词语是识别不了。例如:奥巴马,会被自动分成 3 个单独的名词:奥,巴,马。因此,对于这些分词异常的词语,要进行人工处理,修正。
(5)相关处理
步骤 2:建模与诊断
(1)用户与用户关联度
(2)用户与事件关联度
(3)模型诊断
步骤 3:模型分析和优化
(1)模型缺点
(2)模型优点
(3)模型改进
识达科技网络舆情的关联度分析服务免费体验入口>>>
相关推荐: 重大舆情统计工作总结汇报
【文章声明】识达科技网倡导尊重与保护知识产权。本网站文章发布目的在于分享舆情知识。部分内容仅是发稿人为完善客观信息整理参考,不代表发稿人的观点。未经许可,不得复制、转载、或以其他方式使用本网站的内容。如发现本网站文章、图片等存在版权问题,请及时联系客服,我们会在第一时间删除或处理相关内容。
深圳SEO优化公司济源seo网站优化价格揭阳网站优化按天计费推荐布吉营销网站价格松岗SEO按天计费多少钱连云港网站优化按天计费公司荷坳网站优化按天计费价格太原至尊标王报价赤峰关键词按天计费公司巢湖网站优化按天计费价格辽阳网站搜索优化海北SEO按天收费公司抚州网站推广工具霍邱关键词排名哪家好黑河推广网站伊春建站推荐黔西南关键词按天收费松原关键词按天计费推荐蚌埠网站推广系统多少钱张掖百度标王辽源优化赣州SEO按效果付费哪家好龙岗百度网站优化价格商洛营销型网站建设公司开封网站推广工具报价株洲网站排名优化价格咸阳网站优化推广公司新乡百度网站优化推荐资阳seo排名价格金昌推广网站推荐文山百度网站优化排名推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运