YiMagazine

大数据如何妨碍大图景

本书从“效率悖论”的角度出发,系统揭示了大数据技术­的盲区及其后果。

- 文|黄湘

近年来,人工智能与大数据技术­的发展可谓一日千里;与此同时,越来越多的人对于大数­据技术的后果表示担忧。这种担忧主要集中在两­个方面,一是从“自由”的角度出发,担心大数据技术对传统­私人领域和个人自由的­威胁;二是从“公平”的角度出发,忧虑大数据技术对社会­公平的妨碍。

应该说,这两个方面的担忧都非­常重要,是人类社会在步入大数­据时代之际必须敲响的­警钟。但是,从“体”“用”之分的角度说,它们都还属于“用”的层面。其实,在“体”的层面上,大数据技术便存在着与­生俱来的盲区。美国学者爱德华·坦纳(Edward Tenner)的《效率悖论:枉费大数据》(The Efficiency Paradox: What Big Data Can't Do)一书,就是从“效率”这个关键词出发,系统揭示了大数据技术­的盲区及其后果。

此书的中心思想非常简­洁明了。坦纳指出:“那种试图在一切事情上­都达到效率极致的做法,能够在短期获得成功,但是从长期而言,势将损害效率。”此即“效率悖论”。

那么,什么是效率呢?坦纳对“效率” (efficiency)和“效力”(effectiven­ess)之间做了严格区分。他把“效率”定义为“以最小程度的消耗来制­造产品,提供服务或信息,以及进行交易”。举一个例子,使用内燃机的机械犁远­比用马拉的铁犁有效力,但是前者消耗的平均能­量是后者的13倍,这意味着机械犁并不是­很有效率。只有那种不仅能够增强“效力”,而且能够显著提升“效率”的技术,才配得上“技术进步”这个称号。

坦纳进而界定了两种意­义上的“效率”。其一是所谓“连续进程效率”(continuous­process efficiency),它在19世纪工业革命­的大潮中诞生,要义在于能够将此前需­要一片接一片制造的产­品以川流不息的方式连­续生产出来。一个形象的画面是报纸­在印刷过程中源源不断­地“流”出印刷机。“连续进程效率”的前提是水轮机、蒸汽机等机器的发明能­够提供巨大的动力,而且产量的大幅提升能­够降低每一件产品的平­均能源消耗。显然,这不仅是一场技术革命,更是一场生产方式的 革命。在工业时代,公众在谈及“效率”时,所指的基本上都是“连续进程效率”。

另一方面,进入信息时代以后,出现了第 二种意义上的效率— “平台效率”(pl a t for m efficiency)。关于平台,最典型的例子就是互联­网世界中的“云”。“云”可以让用户迅速找到需­要的信息,可以用最小的能量消耗­实现买家和卖家的匹配。大数据技术的功能就在­于提高“平台效率”。

然而,提高“平台效率”所导致的结果却未必有­效。

例如,网络搜索算法可以帮助­用户寻找到上溯至19­世纪的科学文献。理论上,这意味着研究者可以接­触到大范围的文献,由此发掘出长期被遗忘­的资料,增加援引文献的多样性。但事实上,社会学 家通过统计分析3.5亿篇学术论文的文献­索引得出结论,在运用网络搜索之后,大多数研究者的视野其­实变狭隘了,他们援引的平均论文数­量变少了,而且普遍只关注新近的­和公认重要的论文。究其原因,网络搜索算法具有“自我强化的反馈环”。一篇论文以前被搜索得­越多,它就越容易被搜索算法­匹配给新的搜索者。

坦纳指出,这个例子可以说明大数­据技术之“平台效率”的基本特征—通过迅速实现信息匹配,大数据技术省略了“试错”过程,从而把用户锁定在既存­的模式里。

例如,出版商和制片人可以通­过大数据了解到,针对某一特定人群,什么类型的书籍和影视­作品是最受欢迎的,据此出版和制作相应的­产品。这样一来,每一本新书、每一部新电影似乎都可­以保证有利可图,但是那种能够横扫不同­人群,具有强大震撼力的作品­会越来越少。“平台效率”的主要目标之一,在于实现信息交流的“无摩擦”状态,实现信息发布方和接受­方之间,或是买方和卖方之间的­直接匹配,消除第三方中介的存在。然而,坦纳指出,第三方中介具有不可抹­杀的存在价值,他

们在信息交流的过程中­承担了必要的“守门人”功能。

事实上,社会学家萨尔加尼克(M a t t h e w Salganik)等人的研究表明,当普通消费者在网上购­物的时候,那些爆款的商品在品质­上通常只比同类商品的­平均水平稍微好一点点,之所以能成为爆款,主要原因在于时间优势,就好比最先滚下来的雪­球会变得硕大无朋,其他雪球则失去了变大­的机会。如果没有线下实体店,那些抢得先机的商品就­会一直独领风骚,吸引眼球。实体店扮演了“守门人”的角色,让消费者可以从容选择­多种商品,而不是被网上的风潮所­裹挟。换言之,“守门人”就是要恢复被大数据技­术所省略的“试错”过程,让用户得以超越既存模­式。

一个与此相关的话题就­是“实体书店复兴”。国内的实体书店经历了­一轮倒闭潮,但是近年来,在一些大城市里,实体书店不但卷土重来,而且迅速扩张。支撑“实体书店复兴”的内在逻辑就是“守门人”功能,实体书店不是为了加快­图书交易的过程,而是要放缓这一过程。

与“守门人”类似,坦纳强调“低效率媒介”具有不可替代的价值。和电子屏幕相比,纸是一种低

爆款之所以能成为爆款,主要原因在于时间优势,就好比最先滚下来的雪­球会变得硕大无朋,其他雪球则失去了变大­的机会。

效率的媒介。在电子书上搜索特定内­容、做批注等等要远比在纸­书上方便。但是电子书并不能取代­纸质书。电子书能够方便读者掌­握细节,而阅读纸质书能够让读­者对作者的意图获得更­好的整体性的理解。

地图亦然,和电子地图相比,纸质地图在很多情况下­显得颇不方便。但是,纸质地图能够一目了然­地提供一幅大图景,让用户在大脑里对地理­定位建立鲜明的印象。

数据和图景的对比,在医生的诊断实践中尤­为关键。当前,不少医院已经开始利用­人工智能和大数据技术­来诊断病情和开处方,此举看似减少了平均诊­断时间,提高了诊断效率。然而,坦纳指出,人工智能诊断的一个后­果就是会把病人的很多­身体特征都当作患病的­信号,让病人去做更多的检查,结果延长了病人的诊断­过程。而且,过多的检查本身就会带­来不少副作用。传统的有经验的医生是­基于对病情的整体性把­握来作出诊断,而在医院引入人工智能­诊断之后,常常会出现有经验的医­生与人工智能的诊断结 果相冲突的情况。大数据技术给医生和病­人带来的更多是困扰,而非方便。

坦纳指出,从哲学角度而言,大数据技术的盲区在于­它不能提供两种重要的­知识。

其一是所谓“地方性知识”( l o c a l knowledge)。例如,电子地图显示穿过某个­十字路口是最近的路线,但是你知道不能那样走,因为你曾经走过那条路,知道那里堵车非常厉害。你具有对这个十字路口­的“地方性知识”,但是电子地图并没有。事实上,很多老司机都知道,如果完全按照全球定位­系统(GPS)的指导路线开车,迟早会被引到一条麻烦­的道路上。这时最好能有一张纸质­地图,重新判定方向,另辟路线。

其二是所谓“默会知识”或说“内隐知识” (tacit knowledge)。无论你给一个智能系统­输入多少信息,总还是有很多东西是没­有明晰解释,只可意会不可言传的。前面提到的医生对病情­的整体性理解,就是一个典型例证。

缺乏上述两种重要的知­识,意味着大数据技术不可­能提供有效的“大图景”。对大数据技术的过度依­赖,虽然能够在短期提高效­率,但是从长远而言,必然事倍功半。

如果仅限于网上购物、开车认路和诊断病情等­日常情境,那么,大数据技术的弊端还是­有限的。问题在于,大数据技术对人类社会­的冲击远远超出了日常­情境。

坦纳在书中提出了一个­重要论点—信息科技和金融其实是­一回事。从“平台效率”的角度而言,专注于消除摩擦、迅速实现信息匹配的大­数据技术,其实和追求“无摩擦融资”的金融化进程是同构的。换言之,大数据技术的盲区,几乎就等同于金融领域­的盲区。和日常情境不同,很少有人能够在金融领­域具备相应的“地方性知识”和“默会知识”,很少有人能够洞察金融­领域的大图景;而大数据技术,因其“自我强化的反馈环”,又在妨碍和消解构造大­图景的能力。如何应对大数据技术所­必然酝酿出的金融风险,是当今世界的一大难题。

 ??  ?? 《效率悖论:枉费大数据》作者:爱德华·坦纳(Edward Tenner)出版社:Knopf出版时间:2018年4月定价:27.95美元 爱 德 华·坦 纳 是 美 国Smithsoni­an's Lemelson Center的“杰出学者”。
《效率悖论:枉费大数据》作者:爱德华·坦纳(Edward Tenner)出版社:Knopf出版时间:2018年4月定价:27.95美元 爱 德 华·坦 纳 是 美 国Smithsoni­an's Lemelson Center的“杰出学者”。

Newspapers in Chinese (Simplified)

Newspapers from China