互联网

·

疫情下404个谣言的数据噪音

锌媒体报道

640.webp.jpg

前两天,大V@硅谷王川 在微博分享了两个法则,引来了超过十多万人的关注和700多网友的点赞。

Sturgeon法则:所有事物,90%以上都是 (无用的)垃圾。这个法则可以引申到生活,工作,娱乐,媒体,交友等方方面面。实际比例可能比 90%更高,但先筛选掉90%,可以作为一个起点。理解这个法则不是让人愤世嫉俗,而是能够更好地正视现实,果断忽略无用的垃圾,坦然地把能量聚焦在那 10%甚至更少的精华上面。

帕金森之琐碎法则:当人们想在重要事情上拖延逃避时,常常会做一些不太重要的琐碎小事,让自己感觉有成就感。一个例子是有些人为了避免去直面关键的困难的问题,情愿去做打扫自己的卫生间这种无关紧要的事情。这个现象到群体团队上面就会被无限放大,每个人都会有自己"打扫卫生间"一类的琐事,来分心和降低团队的执行力。

之所以引发广泛共鸣,是因为前者是信息获取的陷阱,后者是落地执行的借口。而在疫情期间,这又显得格外特殊。我们的传播往往获得更多的无聊无效信息,比如各种谣言满天飞,据不完全统计,从疫情1月份至今,重要级谣言至少已经超过400条;而我们的业务却很难突破,在旧的循环里日复一日的劳而无功。

 如果说数据是未来互联网世界里的石油,那么对于石油的开采、冶炼、运输及使用,将决定着这个网络世界的进化方向。

本文主角不是某个巨头,但和每个巨头、每个用户、每个网络小生态都息息相关。全文4221字,预计读完5分半钟。

文/ 阿狼🐺

巨头财经/ 出品 

01

疫情之下至少超过400个重点谣言
而辟谣传播力非常弱

 

谣言漫天,疫情中的无效数据干扰太大。

互联网时代,也是信息满天飞的时代,当各类数据如潮水般涌来之时,很多人无法从陈杂的、真假难辨的数据中快速获取想要的信息。

疫情期间,信息过载,大量的无效数据也在此产生,甚至带来了较大的负面影响。其中,谣言就是较为常见的一种。

640.png

据国内专业情报数据公司「知微」的疫情速递数据显示,从1月份疫情发生至今,网络上已有超过400条重要级别谣言,其中相关数十家互联网公司。

1月29日17时,一则顺丰快递员工私自截留口罩贩卖的视频在互联网大量传播,网友纷纷涌至官博下进行“讨伐”。6小时后,@顺丰集团 迅速作出回应:视频所称“截获他人口罩”其实系视频拍摄者,口罩微商张某某自己所有和寄出的口罩,顺丰绝不存在拦截他人快件行为,但对此表示不信任并提出质疑的网友不在少数。

1月30日,顺丰官方转发警方通报辟谣,与上一条微博近40万点赞,4万多评论不同,该微博点赞仅有4万多,评论6000。根据事件分析平台“知微事见”的指数数据,综合多平台传播效果加权计算并归一化后,得出顺丰本次谣言造成的影响力为65.6,不仅高出同类97%的谣言事件,甚至高出近年来互联网热点事件中的78%。

尽管顺丰做出了辟谣,但谣言已经产生了不可挽回的影响。

有噱头、容易引发民众负面情绪的谣言,虽然是无效信息,但一定程度上或许更能吸引舆论注意。

3月13日,据《镜报》报道:巴西总统博索纳罗的新冠病毒检测呈阳性,随后,巴西总统在社交媒体上否认了这一消息。但意料之中的是,检测阳性的假消息相较于真信息,爆发更快、热度更高。

从微博话题来看,检测阳性的消息阅读量达3.3亿,讨论 5.4万,而辟谣信息仅有4618讨论量。多家媒体针对此事进行了报道,热门媒体观点中,关于阴性和阳性的报道均不在少数。

此外,巴西总统确诊的谣言也被众多大V转发,不少人表示“震惊”“可怕”。

就在4月14日早间,实时统计全球疫情数据的美国约翰斯·霍普金斯大学也闹了个大乌龙。数据显示,美国日新增12万确诊,这一数字引发大量关注,随后全球多家主流媒体纷纷跟进报道。不久之后,该数据被修正,新增确诊实为2万。

640.webp (1).jpg

但即使数据被修正,仍有网友对新增12万这一数据表示惶恐,甚至有人质疑“这才是真实数据”。

无效数据带来的恐慌虽然辟谣后有所缓解,但造成的影响并未能完全抹去。

据不完全统计,在疫情期间,仅重要辟谣信息就高达几百条,其中谣言传播比辟谣传播多、谣言多为私密渠道传播等情况更是使得大量无效信息在互联网上流传,更加重了民众恐慌情绪、造成信息干扰。

哪怕是国内疫情已经初步控制成功的如今,每天依旧有谣言不断产生。

02

数据的有效性比海量更重要
大数据的5V特点

 

对比18年前的非典,本次疫情产生于一个信息高速产生与传播的时代。

在疫情期间,互联网的信息密度几乎达到了近年来的峰值,庞大的数据量下,对于真实信息的获取、筛选、分析、储备,都提出了新的要求,数据的有效性与精准场景使用价值进一步凸显。

众所周知,大数据的5V特点中,就提出了有效信息的价值,数据准确性与可信赖度是最为关键的一环:

Volume,是大数据中的“大”,如今,微博、Facebook、Instagram、Twitter等各平台用户每天要发送几亿条信息……数据的采集、计算等等,都涉及到非常庞大的数据量;

Velocity,随着爆炸般的信息涌现产生,相应地,数据处理、数据获取的速度也要快;

Variety,是指数据种类与来源的多样化,随着互联网和物联网的发展,数据不断扩展,也对数据的处理能力提出了更高的要求;

Value,浩渺的数据之海,也意味着数据价值密度在降低,低级、无效的信息鱼龙混杂,在日常分析中,数据维度更不是越多越好,大量数据反会增加噪音,核心目的是如何在多个数据维度中,经过筛选、提炼,找到真正有价值的内容,对A有效的情报,对于B来说可能就是无用信息,有针对性的选择会让信息价值最大化;

Veracity,也是最为重要的信息准确性与可信赖度,通过对海量真实有效数据的研究、分析,得出可复用的观点,进行研判,大数据的核心是以数据作为决策的依据。如某一渠道历史曾大量发布虚假信息、广告内容,该渠道的可信度自然不高,即使遇到首发爆料,也需要仔细斟酌。

这其中,“噪音”是在数据统计中难以摆脱的难题,十条、百条、万条、甚至十万级噪音数据都屡见不鲜……

实际的数据量或许并非是数据准确性的关键,核心信息的价值与不同数据维度的适用场景更值得我们重视:倘若想知道女性还是男性消费者更喜欢买葡萄酒,是否要获取到消费者的鞋码数据?想知道全国有多少叫王俊的人,王俊凯是否该包含在内?

此外,大量无效噪音会冲淡真实数据的价值,让真正的信息、观点变成“少数派”。但在某些情况下,“少数派”才是决定胜负的关键,基于科学算法提炼的精准的“小数据”会战胜充满无效噪音的原始“大数据”。

如1936年,《文学文摘》对240万美国公民调查,得出兰登胜选的预测,而乔治·盖洛普只调查了5000人,却宣布罗斯福会赢,主要原因就是《文学文摘》的大数据中噪声过多。

2016年美国大选前夕,几乎所有的出口民调都显示,希拉里·克林顿将会当选,最终却是特朗普击败希拉里当选美国第45任(58届)总统,而在此前,国内社交媒体就有传言,在阿里巴巴全球速卖通(AliExpress)上的关键词搜索量更能显示普通美国消费者的倾向:特朗普在阿里巴巴全球速卖通上的搜索次数还有周边产品的销量都已经甩了希拉里几条街。

03

大数据剔除噪音后才是信息!
为原始数据买单性价比太低!

 

关于数据有效性的讨论,学者们是这么说的。

美国统计学家纳特•西尔弗认为不应该局限于信息量:“只要能将信号与噪声区分开来,我们就能获得所需的任何信息……预测成功的关键是,不应该局限于定量信息,而应该用心权衡信息的适用性。”

中国首席经济学家论坛副理事长李迅雷认为大数据有时会受噪音等因素影响:“相信逻辑还是相信奇迹?应该相信逻辑。相信大数据还是相信逻辑?我的观点,还是相信逻辑。因为大数据有时受噪音、情绪、时滞等因素影响,扭曲因果关系。”

四川大学文学与新闻学院新闻学教授张小元认为大数据剔除噪音后才是信息:“当我们全面采集互联网上各种各样、此起彼伏的说法(及追帖评论)的时候,我们获得的就是‘大数据’;当我们对这些‘大数据’进行(建模)甄别,剔除虚假部分(噪音部分)我们获得的就叫‘信息’;当我们对这类‘信息’进一步再归纳总结,加大时间的长度和空间的广度,去除偶然性达成某种必然性的结论时,我们就获得了‘知识’。这种具有某种必然性和普遍性的‘知识’才可以在更高层次的论证中引用。”

微博知名大V、独立投资人@硅谷王川认为原始数据并不是最有价值的信息 :“最有价值的信息,并不是简单的原始数据,比如某某公司上季度销售额,利润,等等。最有价值的,是能够在一个新的叙事体系涌现成型之前,能提前洞察,追踪和把握。有些人虽然掌握很多原始数据,但如果对新的叙事体系很迟钝,也是枉然。反之若提前把握新的叙事体系,即使一线信息不够精确,也问题不大。”

04

阿狼的几个思考
互联网开始进入有效/精准数据时代

 

1、互联网的有效/精准数据时代

从2012的“大数据元年”算起,中国的大数据行业已经走过八个年头,“海量”已经不再是价值的代名词,市场更急需的是一个信息“过滤网”,将无效、错误的数据拒之门外。大数据应当追求精确而非大而全,对于数据的有效筛选与分析,是凌驾于数据获取之上的能力。

但是随着越来越多的族群文化细分,互联网整体正在由一个开放性的公域生态逐步转为一个个半封闭半开放的私域生态,这意味着有效/精准数据时代的阶梯性到来。 

基于细分的行业、细分的人群、细分的产品、细分的社区、细分的商业体,数据也越来越细分,每个产业每个企业甚至每个个体,都有自己的数据独特性。

 

2、《少数派报告》中的可预测性

640.webp (2).jpg

2002年电影《少数派报告》剧照
导演 · 斯皮尔伯格

 

作为科幻类电影的巅峰之作之一,《少数派报告》讲述了一个少数派的故事,随着科技不断发展,人类发明了可以侦查脑电波来预防犯罪的“先知”,先知可以提前预知人的犯罪企图,在犯罪开始之前,犯罪行为就能被及时制止,在这样的预防犯罪机制之下……

电影里的“先知”只能预测短时间内的“未来”,但是足以改变整个世界的格局。不得不佩服斯皮尔伯格的想象力,我们今天的数据形态正在朝这个方向演进,通过不同维度的数据分析,已经接近可以做出短期预判。

 3、数据产业的C2M

过去常规的认知都是数据辅助决策,其实这个因果关系正在反转。

越来越多的数据源自决策,因为具体决策需要,反向定制数据获取及加工的逻辑,可以理解为数据产业的C2M(Customer-to-Manufacturer)。

 

往往需求越精准,数据获取越准确,比如我们可以轻易获得《疫情下的404个谣言》,难道不是吗?

后记,想特别说一点。我们不能一棒子打死言必称大数据的都是骗子,但是这年头,碰到还只闻其虚不闻其实的,请绕道而行

 

本文参考:《大数据5v指的是什么》《信号与噪音》《为什么美国民调误读了民意?》《义乌预测美国大选》等相关文章。

 

向作者提问

  • 最新评论

游客
验证码: 点击我更换图片
全部评论