大数据视觉化
Kerry Doran撰文回应Shirley Wu的《香港艺术家,女性》
数据视觉化早已有之,古老如远古洞穴壁画,或记录星象位置的星图;[1] 不过我们最熟悉的,是其当代形式「Data viz」。 [2] 「Data viz」是用电脑绘制的视觉化资料,更准确而言,是以科学或数学图表及阵列美学呈现的数据,旨在向读者快捷地阐明不同数据点之间的关系。这样看来,数据视觉化理所当然地最常见于商企惯用的业务简报、提案简报、年报,科学界及政府机构的走势预测,还有新闻报导——现在若报导文章中没有「Data viz」,仿佛就是有所欠缺。
「Data viz」在约莫十年间几乎变得无处不在,就如在机场安检处出境时所使用的人体扫描器一样,成为生活的一部分。不过这个现象最初如何及为何出现,则难以追溯,部分是因为数据视觉化的当代史并无记载。[3] 不是说此题目缺乏研究资源,而是这些资源偏重技术层面(即是「这是一个好的设计,依照以下方法就能做到」),或仅忠实于它们的当下,并且要留意的是,它们均对该形式赞不绝口。当中最具影响力的要数 David McCandless 的著作《Information Is Beautiful》(2009),其中提倡新的视觉形式是需要的,以帮助大众理解每天「轰炸」我们的大量资讯的切身关系。此书在「Data viz」相关的艺术家、初创企业、同业大会中催生出一场运动,旨在创造由数据主导、能「揭示世界真正的运作方式」 的视觉化内容。 [4]
不出意料的是,「Data viz」与「大数据」(来自数码传输、键入、点击和电脑处理的资讯收集、储存与分析)并行发展,而且呼应大数据所主张的愈多数据代表愈多知识,或愈多数据愈好的逻辑。两者看来彼此不可或缺(像是「大数据视觉化」),却又互相矛盾:每日收集的数据愈来愈多,借电脑运算处理,我们能以人类所不能及的准确度去分析事物,我们理应正从中获得宝贵洞见;与此同时,未经处理的大量数据却令人摸不着头脑。 「Data viz」遂助人把资讯浓缩提炼,并使之易于阅读。一如那些收集数据的人以为自己正在集结更多关于世界的资讯,那些发布及设计「Data viz」的人相信他们阐明资讯。但如果数据愈多愈好,那么是对谁而言?
在似乎是唯一关于「Data viz」的批判文章中,传媒理论家兼电脑程式员加洛维(Alexander R. Galloway)反映某页PowerPoint投影片中所载有的视觉资讯量大得令人窒息。他写道:
在绘画和摄影中的写实主义中(至少按从文艺复兴时期起占主导地位的美学写实主义的传统定义),增加技术细节能提高画面的真实感,而这里的高阶技术细节,有别于上述情况,其汹涌澎湃令人类感官难以招架,削弱了观者对现实的感受。这张投影片所含的内容不会因为花更多时间细看而变得条理分明,反而像一个碎形(fractal),其复杂程度不会因为透过放大镜观看而减低。投影片舍弃清晰明达,使观者难以掌握,有效地令它失去作为资讯载体的实际功能。只余观者纳闷投影片到底想表达什么。 [5]
排山倒海的细节,相比本应清晰的呈现,模糊了什么? 「Data viz」在众目睽睽之下隐藏了什么?
***
「Data viz」在新闻界尤其普遍,相较于保密投资者会议、无名牌会议室、以及基于邀请或昂贵的学术或技术大会这些非公开的协议,其形式公开并以服务公众为目的,
在2008 年,即《Information Is Beautiful》出版前一年,美国统计学者 Nate Silver 创立民意调查分析网志「FiveThirtyEight」,网志于同年美国总统大选期间声名鹊起。其分析之准确,使它迅速地大受欢迎,并在 2010 年授权予《纽约时报》刊登其内容。 [6] 《纽约时报》可以说仍是主流大报,当年在报导中结合统计资料图之举,可谓在报界开创了先河。约莫在这个时候,苹果公司第一代iPhone面世(2007)、WebGL 推出(2011),流量数据的传输速度日增,这些诸多因素都令图像丰富的内容能更快速上传、载入和分享。
新闻界运用「数据」成就「客观」真相的当代诉求,可追溯至1960年代末新闻记者 Philip Meyer 提出的「精确新闻学」。 [7] Meyer 在1966至1967年于哈佛大学完成 Nieman Journalism Fellowship 记者访问计划后,他运用社会科学方法,对1967年的「底特律骚乱」及其深层原因进行市民调查,将其作为研究题材,以投稿《底特律自由报》。 [8] 与此同时,数码电脑科技方面的发展令人可更快速、准确地大规模收集数据。 [9] 然而,Meyer起初对这种手法产生兴趣,却是源于他观察到政客在选举期间运用民意调查研究来预测并左右选民意向。 Meyer的报导手法影响了后来一代代的记者,不过他深明这些方法本身和它们对数据的倚赖,可被用于欺诈操作──美国总统特朗普2016年的选举受到 Facebook 和剑桥分析公司的助力,是再明显不过的例子。
今时今日在这个俗称「后真相」的年代,我们对「事实」本质的怀疑之深,或许前所未有。哲学家布鲁诺‧拉图在反思「解构现实」这个现已成惯常操作的现象时,提出「当事实有大众文化支持,方铿锵有力」。 [10] 那可以说,数据以及「Data viz」一直以来能够保持现有地位,是因为那种自柏拉图时代起已深植人心的文化建构——即数字是客观的。此外,方便我们得出结论、将数据集视觉化的电脑运算处理,现在更被视为比人类思考更为准确,即使我们明知电脑有时候会出错。以 2018 年哈佛商学院一项研究「Algorithm Appreciation: People Prefer Algorithmic to Human Judgment」为例,研究人员透过一组六项的实验,显示「相较于来自人类的建议,人们『更』相信那些他们认为是来自演算法的建议」。 [11] 用电脑运算思考的人,由矽谷创业家到STEM教育倡导者,在谈及他们对科技能解决一切问题的理念,以及数据中的信息甚至数据本身好像带有启示性时,恰恰就会在这些文化偏见上借题发挥。
「Data viz」中显著的权力格局巩固了这种逻辑。由于数据视觉化图像的设计是任意而行的,其「作者」是唯一能真正知晓如何阅读该图像的人。读者要倚赖作者的诠释,意味着他们是不可能自行诠释的。再加上由数据和数字生成的内容,以及来自科学和数学的美学风格,不由令人产生一种印象,即「视觉化就是客观的」。即使数据的收集方式会出错,意图也可能有问题,「数据就是纯粹」这个迷思依然一直存在。大量细节仿佛成为视觉防御机制,形成无法跨越的屏障,同时令数据视觉化作品成为了必不可少的解释工具(见上文引用自加洛维的段落)。
新近成立的非牟利新闻编辑网站兼刊物《The Markup》的数据新闻记者Maddy Varner,把阅读「Data viz」比喻为只读书评而非书本身,而前者为害更甚,因为数据图像化的设计用意是要人把它当成事实。 [12][13] 当我们不能理解,更甚的是,因不理解而被迫自觉无知,又谈何参与贡献?
***
Shirley Wu的《香港艺术家,女性》(2020)这样的作品带来的前景在于,它是为了指明数据集中所遗漏的事物而设计的,凸显数据收集和输入的问题。在揭示这一点的效果上,作品的美学不亚于其内容本身。 Shirley Wu开辟出宁谧山岭和一条虚拟步道,鼓励观者加以探索,与典型充满权威的「Data viz」项目大相径庭。山峦以苔绿与海蓝色调的水墨呈现,五十八座山分别代表一位在「维基百科」上被界定为香港女性艺术家的人物,并附以链结通往资料来源的「维基百科」页面,每座山均清楚附加图例说明和摘录该艺术家的生平资料。
「维基百科」是现时规模最大且最受欢迎的网上参考工具之一,依靠用户创建和编辑条目。即使我们知道它或许并非最全面,甚至最可靠的参考资源,当我们对新事物产生好奇时,都倾向于使用该搜寻工具。 「维基百科」的条目有近三百个语言版本,不过就其编辑所撰写条目数量和活跃程度而言,英文版本一直占主导地位;而当中的编辑以男性居多。 [14] 其数据集明显有所偏颇,因此我们可以假设Shirley Wu的创作素材在根本上是有缺陷的。即使是她用以制作图像资料的「维基百科」搜寻词汇——「香港」、「女性」、「艺术家」,也是先天不足的。 「香港」是一个有着复杂政治历史的城市;「女性」是个并非人人会加诸己身的标签;而艺术家则难以定义(Shirley Wu把这个词汇调整为包含诗人、舞者、演员、音乐人等从事创意事业的人。)
Shirley Wu的《香港艺术家,女性》有别于一般佯作客观的「Data viz」项目,强调所用数据集的缺点。这个项目并没有自视为周全或具教化意图,而是提供一个鼓励内省或诠释的空间,批判性地考虑有何遗漏,最理想的是还能思考出补救之道。一些观者可能受到启发去编辑「维基百科」条目;此举能为这个平台带来更多元的视角,纵使系统本身的不平等,将继续妨碍许多人参与这种集众人之力无偿提供内容的劳作。[15]其他人或许会构想艺术作品、艺术项目和社会运动等组织形式。资讯要达到真正的美好,就需要是人人皆可取用。
前往项目
Shirley Wu的《香港艺术家,女性》是M+数码委约项目展出。这系列项目希望在视觉文化与科技交会之处,探索别具创意的网上实践。此文章原于「M+ 故事」发布。
- 1.
视觉化数据可追溯到由印尼至法国拉斯科的史前洞穴壁画。这些表现形式显示当时已有视觉、具象艺术的观念。后来,星象测绘促使了地图的出现。请见:Howard G. Funkhouser, ‘A Note on a Tenth-Century Graph’, Osiris 1 (January 1936): 260–262; 及Michael Friendly, ‘A Brief History of Data Visualization’, Handbook of Data Visualization (Berlin and Heidelberg: Springer, 2008)。
- 2.
作者于文中用「Data viz」称呼这种当代的数据视觉化形式,用以区别于现时和历史上的其他例子。编注:「Data viz」为「Data Visualisation」(意指「数据视觉化」)的缩写。
- 3.
Funkhouser 的《Historical Development of the Graphical Representation of Statistical Data》(1937)或许是我们最为现代的例子。心理学家兼统计学者 Michael Friendly 的「A Brief History of Data Visualization」项目(2006)辅以一个互动的网上概要,追溯各种数据视觉化技巧和同期相关科技发展,以填补该知识缺口,惟项目似乎在 2009 年后再无更新。还有长年必备、经常为人参考的《The Visual Display of Quantitative Information》(1983年由 Edward R. Tufte 撰著)。此作探讨并举例说明构成有效和失败设计的因素,不过这也并非全面的历史概述。请见:Funkhouser, ‘Historical Development of the Graphical Representation of Statistical Data,’ (Ph.D. diss., Columbia University, 1937); Friendly, ‘A Brief History of Data Visualization’;以及Tufte, The Visual Display of Quantitative Information (Cheshire, CT: Graphic Press, 2015)。
- 4.
David McCandless, Information is Beautiful (New York: Collins, 2009)。 《Information Is Beautiful》的网页把这项任务形容为「致力协助你对世事作出更清晰、更有依据的决定。」https://informationisbeautiful.net/about/ 。
- 5.
Alexander R. Galloway, The Interface Effect (Cambridge: Polity, 2012), 78。
- 6.
「FiveThirtyEight」与《纽约时报》订立三年合约,授权后者转载其内容,并在 2012 年美国总统大选期间带来大量网站流量,原因是网站准确预测美国全部五十州的投票结果。 Silver于 2013 年转职ESPN后,《纽约时报》推出一个以数据主导内容的专栏「The Upshot」,「强调以数据视觉化和图像,作为分析当日新闻的手法」。 「The Upshot」创始编辑David Leonhardt在当时一篇文章中指出,专栏原意为协助读者掌握「议题的精髓」,而数据可以「向人们解释现实」。他的用词呼应McCandless(以及「data viz」与大数据业界人士)的说法,宣扬数据的杰出优点。 John McDuling, ‘“The Upshot” is the New York Times’ replacement for Nate Silver’s FiveThirtyEight’, Quartz, 10 March 2014, https://qz.com/185922/the-upshot-is-the-new-york-times-replacement-for-nate-silvers-fivethirtyeight/。
- 7.
Everette E. Dennis在 1971 年如此形容 Meyer 的工作,并将此与以叙事主导的报道手法作对比,请见:Philip Meyer, The New Precision Journalism (Lanham, MD: Rowman & Littlefield, 2001)。
- 8.
Cameron Robertson, ‘Reading the Riots: how the 1967 Detroit riots were investigated – video’, The Guardian, 9 December 2011, https://www.theguardian.com/uk/video/2011/dec/09/reading-the-riots-detroit-meyer-video。
- 9.
从Meyer的一个访问中可见,尽管「精准新闻学」与电脑并无直接关系,但电脑数码运算之运用令数据收集变得可行。 Marília Gehrke and Luciana Mielniczuk, ‘Philip Meyer, the Outsider Who Created Precision Journalism’, intexto, https://pdfs.semanticscholar.org/2fda/4cd2019c360a239c634a9f02e579fbd9675e.pdf 。
- 10.
Ava Kofman, ‘Bruno Latour, the Post-Truth Philosopher, Mounts a Defense of Science’, New York Times, 25 October 2018, https://www.nytimes.com/2018/10/25/magazine/bruno-latour-post-truth-philosopher-science.html。
- 11.
'Algorithm Appreciation: People Prefer Algorithmic to Human Judgment', https://www.hbs.edu/faculty/Publication%20Files/17-086_610956b6-7d91-4337-90cc-5bb5245316a8.pdf。
- 12.
另见:Julia Angwin, ‘A Letter from the Editor,’ The Markup, 25 February 2020, https://themarkup.org/2020/02/25/editor-letter-julia-angwin 。
- 13.
来自Maddy Varner与作者于2020年1月25日于纽约访谈之内容。此文得以完成,有赖Varner的专业知识和提供的参考资料。
- 14.
如「艺术+女性主义」网站上详述,「『维基百科』的性别问题早有详载。维基媒体基金会通过一项2011年的调查发现,少于10%的撰文者性别辨别为女性;而较近期的研究指出,女性贡献者的数字在全球为 16%,在美国为 23%。此外,数据分析工具和电脑语言学研究总结出『维基百科』上关于女性的条目,相较于男性来说,数量较少且内容较简短。这些相同的工具反映了人物生平文章中的性别偏见。」,‘About', Art + Feminism, http://www.artandfeminism.org/#about 。
- 15.
在「维基百科」的脉络中,这是一个复杂的地方;正如前任「维基百科」暂驻编辑兼传讯学者Dorothy Howard所说明:「『维基百科』的确有付款予一些贡献者,例如开发员、行政人员和外展职员。维基媒体基金会将受薪员工数目维持在仅仅三百人以内,当中大部分参与软件和工程工作、筹募经费和社群支援。然而,义务参与的人士包含三千万全球用户,及十一万八千位定期内容贡献者;而另一方面我亦观察到,若果你问一般『维基百科』贡献者(在容许的情况下)会否收费编辑条目,他们多数会嘲笑你。将金钱引入这个网络,是个会为人不齿的想法,足以危及你在这个社群的立足之地。」Dorothy Howard, ‘Labor and the New Encyclopedia’, DIS Magazine, February 2015, http://dismagazine.com/discussion/73109/dorothy-howard-intellectual-labor-and-the-datalogical-encyclopedia/ 。