大數據視覺化
Kerry Doran撰文回應Shirley Wu的《香港藝術家,女性》
數據視覺化早已有之,古老如遠古洞穴壁畫,或記錄星象位置的星圖;[1] 不過我們最熟悉的,是其當代形式「Data viz」。[2] 「Data viz」是用電腦繪製的視覺化資料,更準確而言,是以科學或數學圖表及陣列美學呈現的數據,旨在向讀者快捷地闡明不同數據點之間的關係。這樣看來,數據視覺化理所當然地最常見於商企慣用的業務簡報、提案簡報、年報,科學界及政府機構的走勢預測,還有新聞報導——現在若報導文章中沒有「Data viz」,彷彿就是有所欠缺。
「Data viz」在約莫十年間幾乎變得無處不在,就如在機場安檢處出境時所使用的人體掃描器一樣,成為生活的一部分。不過這個現象最初如何及為何出現,則難以追溯,部分是因為數據視覺化的當代史並無記載。[3] 不是說此題目缺乏研究資源,而是這些資源偏重技術層面(即是「這是一個好的設計,依照以下方法就能做到」),或僅忠實於它們的當下,並且要留意的是,它們均對該形式讚不絕口。當中最具影響力的要數 David McCandless 的著作《Information Is Beautiful》(2009),其中提倡新的視覺形式是需要的,以幫助大眾理解每天「轟炸」我們的大量資訊的切身關係。此書在「Data viz」相關的藝術家、初創企業、同業大會中催生出一場運動,旨在創造由數據主導、能「揭示世界真正的運作方式」 的視覺化内容。[4]
不出意料的是,「Data viz」與「大數據」(來自數碼傳輸、鍵入、點擊和電腦處理的資訊收集、儲存與分析)並行發展,而且呼應大數據所主張的愈多數據代表愈多知識,或愈多數據愈好的邏輯。兩者看來彼此不可或缺(像是「大數據視覺化」),卻又互相矛盾:每日收集的數據愈來愈多,藉電腦運算處理,我們能以人類所不能及的準確度去分析事物,我們理應正從中獲得寶貴洞見;與此同時,未經處理的大量數據卻令人摸不着頭腦。「Data viz」遂助人把資訊濃縮提煉,並使之易於閱讀。一如那些收集數據的人以為自己正在集結更多關於世界的資訊,那些發佈及設計「Data viz」的人相信他們闡明資訊。但如果數據愈多愈好,那麼是對誰而言?
在似乎是唯一關於「Data viz」的批判文章中,傳媒理論家兼電腦程式員加洛維(Alexander R. Galloway)反映某頁PowerPoint投影片中所載有的視覺資訊量大得令人窒息。他寫道:
在繪畫和攝影中的寫實主義中(至少按從文藝復興時期起佔主導地位的美學寫實主義的傳統定義),增加技術細節能提高畫面的真實感,而這裏的高階技術細節,有別於上述情況,其洶湧澎湃令人類感官難以招架,削弱了觀者對現實的感受。這張投影片所含的內容不會因為花更多時間細看而變得條理分明,反而像一個碎形(fractal),其複雜程度不會因為透過放大鏡觀看而減低。投影片捨棄清晰明達,使觀者難以掌握,有效地令它失去作為資訊載體的實際功能。只餘觀者納悶投影片到底想表達甚麼。[5]
排山倒海的細節,相比本應清晰的呈現,模糊了甚麼?「Data viz」在眾目睽睽之下隱藏了甚麼?
***
「Data viz」在新聞界尤其普遍,相較於保密投資者會議、無名牌會議室、以及基於邀請或昂貴的學術或技術大會這些非公開的協議,其形式公開並以服務公眾為目的,
在2008 年,即《Information Is Beautiful》出版前一年,美國統計學者 Nate Silver 創立民意調查分析網誌「FiveThirtyEight」,網誌於同年美國總統大選期間聲名鵲起。其分析之準確,使它迅速地大受歡迎,並在 2010 年授權予《紐約時報》刊登其內容。[6] 《紐約時報》可以說仍是主流大報,當年在報導中結合統計資料圖之舉,可謂在報界開創了先河。約莫在這個時候,蘋果公司第一代iPhone面世(2007)、WebGL 推出(2011),流量數據的傳輸速度日增,這些諸多因素都令圖像豐富的內容能更快速上傳、載入和分享。
新聞界運用「數據」成就「客觀」真相的當代訴求,可追溯至1960年代末新聞記者 Philip Meyer 提出的「精確新聞學」。[7] Meyer 在1966至1967年於哈佛大學完成 Nieman Journalism Fellowship 記者訪問計劃後,他運用社會科學方法,對1967年的「底特律騷亂」及其深層原因進行市民調查,將其作為研究題材,以投稿《底特律自由報》。[8] 與此同時,數碼電腦科技方面的發展令人可更快速、準確地大規模收集數據。[9] 然而,Meyer起初對這種手法產生興趣,卻是源於他觀察到政客在選舉期間運用民意調查研究來預測並左右選民意向。Meyer的報導手法影響了後來一代代的記者,不過他深明這些方法本身和它們對數據的倚賴,可被用於欺詐操作──美國總統特朗普2016年的選舉受到 Facebook 和劍橋分析公司的助力,是再明顯不過的例子。
今時今日在這個俗稱「後真相」的年代,我們對「事實」本質的懷疑之深,或許前所未有。哲學家布魯諾‧拉圖在反思「解構現實」這個現已成慣常操作的現象時,提出「當事實有大眾文化支持,方鏗鏘有力」。[10]那可以說,數據以及「Data viz」一直以來能夠保持現有地位,是因為那種自柏拉圖時代起已深植人心的文化建構——即數字是客觀的。此外,方便我們得出結論、將數據集視覺化的電腦運算處理,現在更被視為比人類思考更為準確,即使我們明知電腦有時候會出錯。以 2018 年哈佛商學院一項研究「Algorithm Appreciation: People Prefer Algorithmic to Human Judgment」為例,研究人員透過一組六項的實驗,顯示「相較於來自人類的建議,人們『更』相信那些他們認為是來自演算法的建議」。[11] 用電腦運算思考的人,由矽谷創業家到STEM教育倡導者,在談及他們對科技能解決一切問題的理念,以及數據中的信息甚至數據本身好像帶有啟示性時,恰恰就會在這些文化偏見上借題發揮。
「Data viz」中顯著的權力格局鞏固了這種邏輯。由於數據視覺化圖像的設計是任意而行的,其「作者」是唯一能真正知曉如何閱讀該圖像的人。讀者要倚賴作者的詮釋,意味着他們是不可能自行詮釋的。再加上由數據和數字生成的內容,以及來自科學和數學的美學風格,不由令人產生一種印象,即「視覺化就是客觀的」。即使數據的收集方式會出錯,意圖也可能有問題,「數據就是純粹」這個迷思依然一直存在。大量細節彷彿成為視覺防禦機制,形成無法跨越的屏障,同時令數據視覺化作品成為了必不可少的解釋工具(見上文引用自加洛維的段落)。
新近成立的非牟利新聞編輯網站兼刊物《The Markup》的數據新聞記者Maddy Varner,把閱讀「Data viz」比喻為只讀書評而非書本身,而前者為害更甚,因為數據圖像化的設計用意是要人把它當成事實。[12][13] 當我們不能理解,更甚的是,因不理解而被迫自覺無知,又談何參與貢獻?
***
Shirley Wu的《香港藝術家,女性》(2020)這樣的作品帶來的前景在於,它是為了指明數據集中所遺漏的事物而設計的,凸顯數據收集和輸入的問題。在揭示這一點的效果上,作品的美學不亞於其內容本身。Shirley Wu開闢出寧謐山嶺和一條虛擬步道,鼓勵觀者加以探索,與典型充滿權威的「Data viz」項目大相逕庭。山巒以苔綠與海藍色調的水墨呈現,五十八座山分別代表一位在「維基百科」上被界定為香港女性藝術家的人物,並附以鏈結通往資料來源的「維基百科」頁面,每座山均清楚附加圖例說明和摘錄該藝術家的生平資料。
「維基百科」是現時規模最大且最受歡迎的網上參考工具之一,依靠用戶創建和編輯條目。即使我們知道它或許並非最全面,甚至最可靠的參考資源,當我們對新事物產生好奇時,都傾向於使用該搜尋工具。「維基百科」的條目有近三百個語言版本,不過就其編輯所撰寫條目數量和活躍程度而言,英文版本一直佔主導地位;而當中的編輯以男性居多。[14] 其數據集明顯有所偏頗,因此我們可以假設Shirley Wu的創作素材在根本上是有缺陷的。即使是她用以製作圖像資料的「維基百科」搜尋詞彙——「香港」、「女性」、「藝術家」,也是先天不足的。「香港」是一個有着複雜政治歷史的城市;「女性」是個並非人人會加諸己身的標籤;而藝術家則難以定義(Shirley Wu把這個詞彙調整為包含詩人、舞者、演員、音樂人等從事創意事業的人。)
Shirley Wu的《香港藝術家,女性》有別於一般佯作客觀的「Data viz」項目,強調所用數據集的缺點。這個項目並沒有自視為周全或具教化意圖,而是提供一個鼓勵內省或詮釋的空間,批判性地考慮有何遺漏,最理想的是還能思考出補救之道。一些觀者可能受到啟發去編輯「維基百科」條目;此舉能為這個平台帶來更多元的視角,縱使系統本身的不平等,將繼續妨礙許多人參與這種集眾人之力無償提供內容的勞作。[15]其他人或許會構想藝術作品、藝術項目和社會運動等組織形式。資訊要達到真正的美好,就需要是人人皆可取用。
前往項目
Shirley Wu的《香港藝術家,女性》是M+數碼委約項目展出。這系列項目希望在視覺文化與科技交會之處,探索別具創意的網上實踐。此文章原於「M+ 故事」發佈。
- 1.
視覺化數據可追溯到由印尼至法國拉斯科的史前洞穴壁畫。這些表現形式顯示當時已有視覺、具象藝術的觀念。後來,星象測繪促使了地圖的出現。請見:Howard G. Funkhouser, ‘A Note on a Tenth-Century Graph’, Osiris 1 (January 1936): 260–262; 及Michael Friendly, ‘A Brief History of Data Visualization’, Handbook of Data Visualization (Berlin and Heidelberg: Springer, 2008)。
- 2.
作者於文中用「Data viz」稱呼這種當代的數據視覺化形式,用以區別於現時和歷史上的其他例子。編註:「Data viz」為「Data Visualisation」(意指「數據視覺化」)的縮寫。
- 3.
Funkhouser 的《Historical Development of the Graphical Representation of Statistical Data》(1937)或許是我們最為現代的例子。心理學家兼統計學者 Michael Friendly 的「A Brief History of Data Visualization」項目(2006)輔以一個互動的網上概要,追溯各種數據視覺化技巧和同期相關科技發展,以填補該知識缺口,惟項目似乎在 2009 年後再無更新。還有長年必備、經常為人參考的《The Visual Display of Quantitative Information》(1983年由 Edward R. Tufte 撰著)。此作探討並舉例說明構成有效和失敗設計的因素,不過這也並非全面的歷史概述。請見:Funkhouser, ‘Historical Development of the Graphical Representation of Statistical Data,’ (Ph.D. diss., Columbia University, 1937); Friendly, ‘A Brief History of Data Visualization’;以及Tufte, The Visual Display of Quantitative Information (Cheshire, CT: Graphic Press, 2015)。
- 4.
David McCandless, Information is Beautiful (New York: Collins, 2009)。 《Information Is Beautiful》的網頁把這項任務形容為「致力協助你對世事作出更清晰、更有依據的決定。」https://informationisbeautiful.net/about/。
- 5.
Alexander R. Galloway, The Interface Effect (Cambridge: Polity, 2012), 78。
- 6.
「FiveThirtyEight」與《紐約時報》訂立三年合約,授權後者轉載其內容,並在 2012 年美國總統大選期間帶來大量網站流量,原因是網站準確預測美國全部五十州的投票結果。Silver於 2013 年轉職ESPN後,《紐約時報》推出一個以數據主導內容的專欄「The Upshot」,「強調以數據視覺化和圖像,作為分析當日新聞的手法」。「The Upshot」創始編輯David Leonhardt在當時一篇文章中指出,專欄原意為協助讀者掌握「議題的精髓」,而數據可以「向人們解釋現實」。他的用詞呼應McCandless(以及「data viz」與大數據業界人士)的說法,宣揚數據的傑出優點。John McDuling, ‘“The Upshot” is the New York Times’ replacement for Nate Silver’s FiveThirtyEight’, Quartz, 10 March 2014, https://qz.com/185922/the-upshot-is-the-new-york-times-replacement-for-nate-silvers-fivethirtyeight/ 。
- 7.
Everette E. Dennis在 1971 年如此形容 Meyer 的工作,並將此與以敘事主導的報道手法作對比,請見:Philip Meyer, The New Precision Journalism (Lanham, MD: Rowman & Littlefield, 2001)。
- 8.
Cameron Robertson, ‘Reading the Riots: how the 1967 Detroit riots were investigated – video’, The Guardian, 9 December 2011, https://www.theguardian.com/uk/video/2011/dec/09/reading-the-riots-detroit-meyer-video。
- 9.
從Meyer的一個訪問中可見,儘管「精準新聞學」與電腦並無直接關係,但電腦數碼運算之運用令數據收集變得可行。Marília Gehrke and Luciana Mielniczuk, ‘Philip Meyer, the Outsider Who Created Precision Journalism’, intexto, https://pdfs.semanticscholar.org/2fda/4cd2019c360a239c634a9f02e579fbd9675e.pdf 。
- 10.
Ava Kofman, ‘Bruno Latour, the Post-Truth Philosopher, Mounts a Defense of Science’, New York Times, 25 October 2018, https://www.nytimes.com/2018/10/25/magazine/bruno-latour-post-truth-philosopher-science.html。
- 11.
‘Algorithm Appreciation: People Prefer Algorithmic to Human Judgment’, https://www.hbs.edu/faculty/Publication%20Files/17-086_610956b6-7d91-4337-90cc-5bb5245316a8.pdf。
- 12.
另見:Julia Angwin, ‘A Letter from the Editor,’ The Markup, 25 February 2020, https://themarkup.org/2020/02/25/editor-letter-julia-angwin 。
- 13.
來自Maddy Varner與作者於2020年1月25日於紐約訪談之內容。此文得以完成,有賴Varner的專業知識和提供的參考資料。
- 14.
如「藝術+女性主義」網站上詳述,「『維基百科』的性別問題早有詳載。維基媒體基金會通過一項2011年的調查發現,少於10%的撰文者性別辨別為女性;而較近期的研究指出,女性貢獻者的數字在全球為 16%,在美國為 23%。此外,數據分析工具和電腦語言學研究總結出『維基百科』上關於女性的條目,相較於男性來說,數量較少且內容較簡短。這些相同的工具反映了人物生平文章中的性別偏見。」,‘About', Art + Feminism, http://www.artandfeminism.org/#about 。
- 15.
在「維基百科」的脈絡中,這是一個複雜的地方;正如前任「維基百科」暫駐編輯兼傳訊學者Dorothy Howard所說明:「『維基百科』的確有付款予一些貢獻者,例如開發員、行政人員和外展職員。維基媒體基金會將受薪員工數目維持在僅僅三百人以內,當中大部分參與軟件和工程工作、籌募經費和社群支援。然而,義務參與的人士包含三千萬全球用戶,及十一萬八千位定期內容貢獻者;而另一方面我亦觀察到,若果你問一般『維基百科』貢獻者(在容許的情況下)會否收費編輯條目,他們多數會嘲笑你。將金錢引入這個網絡,是個會為人不齒的想法,足以危及你在這個社群的立足之地。」Dorothy Howard, ‘Labor and the New Encyclopedia’, DIS Magazine, February 2015, http://dismagazine.com/discussion/73109/dorothy-howard-intellectual-labor-and-the-datalogical-encyclopedia/ 。