本文首发于《读书》2022年1期新刊,授权虎嗅转载,更多文章,可订阅购买《读书》杂志或关注微信公众号:读书杂志(ID:dushu_magazine),作者:余成峰,原文标题:《《读书》新刊 | 余成峰:从大数据神话拯救隐私》,头图俩字:视觉中国
大数据技术并不关心现代科学和法律赖以存在的因果机制,也不关心个体的动机和意识,而是主张“让数据自己说话”,通过挖掘海量的历史数据,不断提升数据的精确度,来发现事物的相关性和潜在秩序,以指导和控制未来。
这种大数据理性被认为和古代的占卜理性有着惊人的一致性,因此也可称是一种迷思。它本质上将人的主体性和不确定性抽离,用算法系统代替人的自主理性,可以预见的是,现代主体的心智隐私将一步步丧失,逐步被改造为算法依赖主体,进而影响人类社会的创新和未来。正是在这个意义上,作者反思大数据神话,提醒其可能带来的人类文明的深层危机。
一
博尔赫斯曾写过一则短故事,在这个故事里,他描述了一片遥远的陆地,那里的地图学达到了荒谬的极端:地图师们雄心勃勃地绘制了一张精确的地图,跟整个帝国的比例是一比一。博尔赫斯讽刺地写道:子孙后代根本找不到这张笨重地图的实际用处。于是,这张地图就这样烂在了沙漠中,并和它代表的地图学一起随风而逝。
博尔赫斯(Jorge Luis Borges)(图片来源:genius.com)
博尔赫斯的地图悖论是:如果地图和地理同样庞大,那么地图也就丧失了存在的意义。但当大数据技术兴起,这一悖论似乎有了新的解读可能。当数据存储、处理和展示的能力足够,一张与帝国比例相同的实时数字地图,理论上已不再是天方夜谭。
对于美国《连线》杂志前主编克里斯·安德森(Chris Anderson)来说,博尔赫斯的讽刺本身就是讽刺。在二〇〇八年著名的《理论的终结:数据洪流淘汰科学方法》一文中,安德森宣告,面对海量数据,“假设、模型、检验”的一系列科学方法正变得过时。我们可以停止寻找模型,在不经假设的前提下对数据进行分析,将数据投入尽可能大的计算集群,让统计算法找到科学未能寻找到的模式。
安德森介绍了科学狂人J.克雷格·文特尔(J.Craig Venter)“鸟枪法”基因测序的工作。通过高速测序仪和超级计算机对大数据进行统计分析,文特尔先是对单个有机体测序,接着对整个生态系统测序。二〇〇三年,跟随库克船长的航程,他对大量海域进行了测序。而在二〇〇五年,他开始对空气展开测序。在整个过程中,他发现了数千种以前未知的细菌与其他生命形式。
J. 克雷格·文特尔(左)进行海洋测序(图片来源:microbiologiaitalia.it)
与现代性主要基于个人意向思考和社会自由沟通的理性模式不同,大数据的技术原理主要依循后验性的推断。它并不预设任何前瞻性标准,而是通过历史数据的搜集、回看与整理,从混沌的数据海洋中回溯性地挖掘可供算法自主运作的模式。正如麦肯齐(D.A.MacKenzie)在《引擎,而非照相机:金融模型如何塑造市场》中所说,将过去作为线索,以推断不可知的未来。
大数据的运行基于自我指涉(self-reference)的技术系统闭合性。这要求摆脱人类意志的干预,排除外界意见交流的干扰,通过自身算法和代码的设置,完成数据挖掘与概率预测的全过程。例如,网络平台的个性产品推荐和广告分发,就不再需要专家系统或市场调查机构的帮助,也不再预备各类前期知识与相应的假设,只需要经由机器学习,通过特定的算法机制自动在全平台流通的信息中搜索、比对和分析,从而产生新的可用知识。这类知识主要基于历史与实时行为数据的存储记录,通过特定的算法技术赋予信息以结构,提炼其相关性模式,用以预测和指导后续的运作方向。借助互联网时代海量的数据规模,以及各种用以过滤、筛选与再合成历史信息的算法技术开发,从而将冗余的数据资源通过新的循环和再利用机制,转化为一种具有自我观察与自我指向功能的技术装置。
正因如此,基于“数据完备性假设”的大数据强调定量先于定性,在这种认知信念下,海量的数据和统计学工具为理解世界提供了一种全新的方式,“相关性取代了因果关系;即使没有自洽的模型、统一的理论或真正的机械论解释,科学也会进步”(安德森语)。因果是主观的,数据是客观的。大数据相信表象世界背后的概率相关性,从而拒绝任何带有主观色彩的因果设定。世界虽然高度复杂,但此种复杂性只是一种既定的、可被算法有效化约的可计算对象。于此,大数据为我们许诺了一个社会物理学的美丽新世界,在这个新世界中,最关键的是掌握所有颗粒(你和我)的隐私细节。一旦掌握了所有细节,便可以设计出更为公平、智能和高效的企业、组织与社会,这便是大数据所宣扬的“微粒社会”(The Granular Society)。
二
但是,博尔赫斯的讽刺是否具有更为深邃的内涵?大数据技术是否已完全破解全景帝国地图的悖论?大数据的可能性及其限度是什么?对此,意大利社会理论家埃斯波西托(Elena Esposito)提出的创见颇具启发性。她的惊人发现是,大数据理性不同于现代科学理性,而存在某种“返祖”现象,它与古代近东、希腊和中国的占卜术有异曲同工之妙:关注表象、相关性、展示先于提问、完美记忆。
事实上,在近代科学革命之前,占卜术长期是知识发现、行动决策和应对不确定未来的重要手段。古典学家韦尔南总结了占卜理性的认知结构:强调必然性,否定偶然性,摒弃对于事件线性因果关系的追索,核心是揭示万事万物的同源性、相关性以及宇宙的命定秩序。因为,在占卜世界中,所有现象都是其他现象的征兆,并不存在非对称的线性因果关系;无论是鸟的飞行轨迹、动物肝脏、星宿迁移、龟甲裂纹、水纹波动,都暗藏了宇宙秩序的玄机,可以用来解释所有其他未知事物。根据法国汉学家汪德迈的研究,占卜理性乃以形态学为基础,关注事件之间的关联,忽视因果链,重视图形组合变化,以此代表与每一个无穷尽的新变化相应的宇宙状态的整体变化。因此,占卜理性恰与神学理性相区别,后者将每一事件解释为神意,每一事件都是神意设计的结果。神意安排是手段,超验是目的,而此种神学目的论恰恰也正是因果思想的生发基础。
如汪德迈所说,占卜术把现象世界的无穷偶合转化为几种格式化的、付诸计算的知性。它的工作原理是高度技术化和程式化的,“卜”的类型化是对无数未设定的卜兆的抽象,从而成为可标准化操作的信息一般化媒介。与占卜理性指向宇宙世界的技术类似,大数据则以人的数字痕迹作为勘察资源。大数据预设的世界图景也同样屏蔽了偶然性的存在,一切事物无非是数字比特和信息熵潮起潮落的映射,不需要探究现象的深层目的与意义指向,而只需在数据的表面搜索其概率空间和模式变量。与占卜术的指导原理相同,大数据技术同样假设在事物之间存在同时性原理,万物在终极数学意义上可以相互操作,从而形成控制论意义上的数字相关性。它同样无需在过去和未来之间,在原因与结果之间,在问题和答案之间,建立直接的因果律关系,无需理解、诠释与沟通其深层意涵。相反,代码、算法和数据的同步化运行,借助人工神经网络与深度学习技术,就可以为我们呈现事物的潜在秩序。正如我们无法挑战神谕,我们也同样无法对大数据提供的答案置言。与占卜术一样,大数据的基本目标也是通过展示世界的隐匿秩序来指导未来,进而控制与塑造未来,或者说,它们都是一种去时间的时间性技术。
[法]汪德迈(Léon Vandermeersch)著 ,金丝燕译:《中国思想的两种理性:占卜与表意》,北京大学出版社,2016年(图片来源:douban.com)
在十七世纪之前的基督教世界,时间乃是上帝永恒注视下的概念,而在十七世纪之后,时间变成一个“反身性”(reflexive)的概念,人类主体作为“观察者”开始打破整体的永恒时间,通过当下的行动介入,干预从过去朝向不确定未来的进程。这种新的启蒙时间观,在一系列分类学(Taxonomy)、本体论(Ontology)和认识论(Epistemology)的支持下,成为现代国家与各大社会系统建制的基本动力。
首先产生于欧洲的现代科学与法律理性,同时预设了世界的可知性和偶然性,科学与法律的目的并非寻找世界的必然真理,而是在持续的命题假设和反复的辩驳验证中形成可供进一步讨论与廓清的结论。与现代科学传统一样,现代法律方法论主要通过各种法律理论、命题和学说,对不同法律事件、证据与法律规范的因果关系进行推论解释以及合法性证明,其应用场景通常围绕当事人的沟通行动以及抗辩活动展开,主要围绕法律人格、法律行为等主观意向性概念建构体系。在这种理性传统下,现代法律需要不断的质疑、提问以及意义的诠释,其关键是通过原则的意义解释,回应当事人在特定案件语境下深层正义需求的冲突,以此克服硬性法律规则的僵滞。意义诠释提供了面向不确定的未来实现价值持续更新的动力。这要求现代法律主体必须同时具备观察能力、行动能力与反思能力。而大数据神话的信条则预设过往历史业已囊括了未来的所有线索,无需意义的因果建构,无需深层的价值追问,最关键的只是数据、速度以及效率。如果说,现代理性需要不断突破事物表象,探寻事件背后的原因、机制和意义,而大数据理性则坚称只需返回表面的关联,而无需深入探究和反思社会深层结构的原理。
事实上,整个现代科学、道德与法律传统都建立在对于因果理性的思考之上。命题假设和实验证明、理性选择与道德责任、规范预期和法律后果,都有赖于因果推断及其意义解释作为基础。更关键的是,因果思维为人类文明演化提供了一种反事实推理(what-ifs)的能力,提供了某种基于模态逻辑(modal logic)进行社会想象与世界创造的可能。在韦伯新教伦理的论述中,反对现状的救赎期望也正是一切现代道德行动和科学思想的基石,回溯过往的行为以及设想其他可能情境的能力,成为一切自由意志与道德责任的基础。
汪德迈(Léon Vandermeersch)(图片来源:bnudfsl.cn)
近代以降,我们生活在一个以因果科学为基础的时代,占卜理性对宇宙命定秩序的探寻逐渐沦为前现代的迷信和僭妄。现代科学与法律理性都必须借助理论学说、命题假设和方法论操作,将理性结论通过可操作与可验证的机制反复辩驳。换言之,现代真理始终是有边界的、不完美的、有条件的,真理不是必然的而是偶联的,是据时间、空间和观察者视角的不同而随时发生变化的。正因如此,现代社会的运行同时预设了各种自由与民主论证的制度架构的存在。
现代性的核心特征在于由人类行动本身的不确定性所决定的未来的高度开放性,而占卜理性的式微在于其宣示宇宙秩序的必然性。正因如此,由于同样不能回应现代世界的偶联性和不可决定性特征,大数据技术与现代社会的理性文化构成了深刻冲突。
三
卢曼使用“双重偶联性”(Double Contingency)概念概括现代社会的核心特征,即社会是由互为黑箱的隐私个体在无法确知彼此意图的状态下互动演化的。世界的复杂性正来自此种隐私黑箱所带来的微妙状态。这种不确定性决定了人类必须在各种可能性中主动或被迫进行选择,从而存在各种期望落空、事与愿违和突发意外的可能。但在隐私保护下,这种不确定性不会构成对未来行动机会的毁灭性打击,从而提供了不断自由试错的空间。同时,隐私也让现代主体获得突破任何既定秩序的能力,为新的因果可能性探索提供了庇护所。而在这个意义上,大数据技术由于难以把握双重偶联性的深度,它只能依照历史数据的相关性映射出某种简单的概率模式,它无法真正理解社会沟通的不可预测性,而只是借助算法机制强行遮蔽与简化人类社会的复杂性,并以此限制新的社会想象和实践探索。而从根本上说,这一困境无法通过数据本身的规模与处理速度的提升解决,这是由大数据和占卜技术所共享的理性模式所决定的。
双重偶联性(Double Contingency)(图片来源:slideshare.net)
现代性的文化演化依托于个体隐私的丰富和深度,隐私保护个人心理的黑箱不被外部洞穿与支配,以此应对各种例外情况和不确定性,这成为一系列现代自由价值发育的基础。现代法律因此假定个体身份的独特性与不可决定性,隐私保护从而在现代法律中承担了至关重要的权利功能。在隐私权保护背后,实际上蕴含了整个现代法律人文主义的基础假设,即作为自由个体的心理情感深度、社会角色蕴含的行动和沟通潜力,及由因果归责所捍卫的自主道德尊严。换言之,现代主体的隐私深度从根本上排斥外在的监控与干预。
美国法学家莱斯格(Lawrence Lessig)在《代码2.0》中指出,现代宪法所保护的包括隐私在内的法律价值,事实上依赖于技术能力的局限所带来的制度性生态平衡。而当技术能力转变,大数据等数字技术迅猛发展,现代隐私权所扎根的生态系统开始面临深刻危机。
大数据的运作结构及其智能机制具有独特性,海量数据经由算法挖掘生成特定的知识,无需调用任何个人的动机或意向。因此,大数据技术对隐私的影响,也不同于传统隐私的侵权类型。核心表现在于,大数据技术并不指向因果性质的刺探与入侵,而是围绕对社会群体相关性行为模式的挖掘。它无需意图邪恶地深入掌握不可告知的个人秘密,而以日常的信息基础设施捕捉各类数字化的表面踪迹。通过无与伦比的存储能力和计算能力,主要基于对历史行为的估算学习来展开对未来的概率预测。
现代性的哲学、政治和法律概念立足于人的自由意识,包括精神、心灵、自主与隐私等概念。换言之,个体心理系统作为现代性最宝贵的主体资源,有赖于隐私保护来确立法律人格与社会的边界。此种主体心智隐私不仅是新教伦理与资产阶级理性的基础,同时也是现代科学发现和法律沟通的前提。而大数据的智能形态及其知识生产机制,则与此种以人类主体意志为中心且意在保护人格资源的现代法律逻辑产生冲突。在这种背景下,大数据技术正开始瓦解现代权利的隐私根基。因为,近代隐私权立足于个体意识与自主理性,由主体控制其信息边界从而捍卫基本权利的完整性。然而,大数据智能的运行模式,则在很大程度上取代了主体自主理性发挥的空间,使信息决策权从理性个人转向匿名的算法系统,这构成了对传统隐私哲学假设的严峻挑战。
传统隐私权围绕主体之间的信息沟通及其冲突模式展开,隐私侵权是特定主体对其他特定主体信息边界的侵入,在其背后可以寻找出明确的侵权因果关系。而大数据技术则无需因果关系的行动管道实施物理意义上的干预或伤害。相反,只需要信息常规的搜集、组织、处理与挖掘,通过相关性模式的提取、预测和应用,就足以影响、引导乃至支配主体的行动选择。
在美国法学家朱丽·科恩(Julie Cohen)看来,大数据绝不只是对数据的简单挖掘,在相关性模式识别的背后,实际预设了相应模式选择的价值理由。在每个数据源采集伊始,就已隐含了有关数据内容与类型化的选择偏见。机器学习之父汤姆·米切尔(Tom Mitchell)同样指出大数据的一系列设计问题:特定算法与特定问题及其表征的对应关系是如何建立的?需要何种规模的训练数据?学习假设和假设空间应该基于何种经验进行定位?选择后续训练经验的最佳策略是什么?此种选择策略又会如何改变学习问题的复杂性?
毋庸讳言,数据本身并不具备因果关系表述的能力,它充其量只能对静态世界的概率分布进行编码。而从根本上说,任何大数据在理论上也只能是无限数据总体中抽取的有限样本。图灵奖获得者珀尔(Judea Pearl)因此认为,深度学习不过只是对柏拉图洞穴比喻中墙壁投影活动的预测,大数据无法观察到这些阴影其实只是三维物体的空间运动在二维平面上的投射。
柏拉图洞穴比喻,洞穴中的囚徒认为墙上的影子才是真实的世界(图片来源:thephilosophyman.com)
科恩进而指出,大数据作为当代调制社会(The Modulated Society)的知识引擎,已不再是技术中立的,作为配置与攫取消费者剩余,以及风险管理、分配与定价的工具,其正当性亟须接受拷问。易言之,大数据作为一种社会技术和制度技术,业已与经济系统、政治系统以及法律系统形成紧密的耦合关系,它以其自命精准的算法判断主体的偏好,同时又以自己推断的模式反向塑造和调节此种偏好。正因如此,大数据已不只是对数据的简单挖掘,不只是对数据隐藏知识的提炼,它同时也是影响深远的行为主义社会实验,是当代最为激进的社会物理学工程。信息资本主义的大数据战略,有可能将现代主体改造为算法预测指导的路径依赖主体,从而迥异于近代印刷术时代锻造的启蒙隐私主体。
与此同时,大数据的广泛商业化应用,意味着人类主体研究的私人化趋势,对此也尤其缺乏制度、程序以及伦理层面的防护措施。正如帕斯奎尔在《黑箱社会》中所说,大数据所承诺的“计算社会科学”可能演变为系统压迫的工具。它们将主观偏见伪造成看似中立的分数,从而成为分配机遇和施加惩罚的仲裁者。由于算法系统将人看作数据点的集合,受此影响的人将不再被当作独立个体来对待和理解。在此意义上,隐私保护所捍卫的人格独立与离经叛道,恰与大数据对于可预测性和行为模式趋同化的追求形成对立。
在一个运行良好的社会,其理性形式和知识类型应当是多元而制衡的。换言之,占卜理性、科学理性与大数据理性作为人类社会的不同认知模式,理应占据各自的生态位,从而形成丰富的心智形态。而大数据神话的盛行,则可能经由资本和权力之手的联盟,悄然取代其他各种知识类型、智慧观念与理性动机,蜕变为某种霸权意识形态,进而威胁现代文明的深层基因。与流行的观点不同,科恩认为大数据而非隐私保护才构成创新的阻碍,因为大数据理性对于既往行为模式的全然顺应,对于个体偏好的标准化塑造,可能扼杀创新所倚赖的各种机缘巧合与零敲碎打。如果说数据即事实,那么创新所需要的恰恰是一种反事实、反数据的虚构想象力(would haves),它所提供的不仅是灵活性和适应性,更重要的还包括持续的反思能力以及反其道而行之的打破现状、勇于承担道德责任的能力。人类的因果观察、行动干预以及反事实的建构能力,是一种独特的心智天赋,由此进一步孕育出共情、信任、远期预测和自制能力。在原因与结果的繁复网络中,这种天赋能够帮助人类跨越漫长的历史时间线,超越当下的利益结构和视野偏见,而这尤其依赖于隐私保护所提供的心智容器。
大数据强化了个人认知的牢笼(图片来源:uxrun.com)
大数据技术的兴起有其社会根源:可选择性的不断增加造成了决断的困难,必要时,放弃选择的权利,将选择交由机器完成,以此降低自主决定的成本与风险,将风险预测和成本管理交由大数据之手,可大大减轻沉重的决策负担。但是,在理性意识、心理意向、主体智能、自主权利与隐私保护之间,实际存在着深奥而隐秘的关联。换言之,保护隐私也即保护人类特有的心智类型和人性尊严。
正因如此,只有在隐私的边界之内,才能为浮面的数据和信息提供具身性的意义框架,为主体的道德判断与商谈沟通提供可能,为创造各种不同的“假如世界”提供灵感的避风港。而当大数据理性成为社会的凌驾性标准,就可能排斥人类心智的参与和干预,逐渐将现代启蒙主义的因果理性传统边缘化,从而成为人类隐私被机器监控全面吞没的前奏。当理性的定义逐步改变,人类的心智隐私可能也将随之消亡。
本文来自微信公众号:读书杂志(ID:dushu_magazine),作者:余成峰