百分点科技
舆情分级,预警机制,舆情识别
北京百分点科技集团股份有限公司(简称:百分点科技)成立于2009年,是服务全球企业和政府的数据智能公司,总部位于北京,在上海、深圳、杭州、沈阳、武汉、广州等地设有十四家分子公司与成员企业。集团拥有全栈的大数据和人工智能技术产品,以“用数据智能推动社会进步”为使命,为企业和政府构建端到端的数智化解决方案。那么,接下来百分点科技跟大家介绍“大数据是怎样在网络舆情监测中实现关键应用”的相关内容。
自媒体的兴盛,使其成为热点舆情形成的重要推动者,而网络舆情也成为社会舆情的重要组成部分。自媒体几乎没有准入门槛,同时又具有匿名性,使用者的媒介素养良莠不齐,很容易产生各种失范现象;自媒体也不像传统媒体那样容易监督,对于失范现象难以追溯源头,同时给各方主体带来影响舆论、把控舆论走向的机会,使得网络舆情处于更加复杂的环境中。
早期的网络舆情监测,就是针对这样层次的交互而设计。流程大致是:
l 通过相关样本库,把需要监测的网页进行模板匹配,并设定为监测数据源;
l 应用爬虫程序抓取数据,存储到本地,再进行数据的净化和简略的分析;
l 利用简单的图表模板和文字描述,呈现监测和分析的结果。
一、早期网络舆情监测方式中存在的原生问题:
① 由于处理能力有限,只能抽取部分样本进行监测,无法避免偶然误差;
② 文本分析算法的准确度、监测对象和系统模板匹配的程度、对数据的净化,以及分析的算法等因素对于最后监测结果的准确度都有决定性的影响,无法避免系统误差;
③ 将监测的对象简化为独立的信息元,欠缺分析网络内容之间联系的能力和预测能力。
二、如何利用大数据实现舆情监测?
“预测”本身就是大数据的一个重要应用。针对同一主题的海量数据进行分析,经过数据挖掘和建模后,可以得到相应的预测模型,进而预测将来的发展趋势。譬如奥巴马竞选团队,就在2012年竞选的多个环节运用了大数据技术,特别是在实时监测选民意向、预测投票情况方面。
大数据有不同的来源,互联网中以自媒体为代表的各种原创内容持续爆炸式增长,各种移动通讯设备、可穿戴设备也在不停地产生和存储、传递各种数据,除此之外的数据来源还有麦克风、摄像头记录的音频、视频数据,运营数据,遥感数据等等。
按照来源不同,数据大致可以分为三类,即以自媒体内容为代表的用户原创数据、各种经营活动中产生的运营数据(如销售记录、医疗记录等)、感知数据(如各种可穿戴设备获取的数据)。
其中用户原创数据对舆情监测的重要性已经显现,而对其他数据来源的大数据分析、不同数据来源的融合分析,也蕴含着巨大的舆情预测潜力。与用户原创数据相比,感知数据和运营数据似乎与“舆情”没有直接联系。然而,舆情从来不是孤立存在的,舆情的发酵、转向源于现实社会的事件和环境,舆情的发展又会影响现实活动。
以上是百分点科技为各位带来的相关内容介绍。(部分内容来源于网络:如涉侵权,请及时联系我们以便处理)