【專欄】用厚數據評估美國大選

文章日期:2020年10月23日 20:22

人人都說大數據(Big Data),但鮮有明白厚數據(Thick Data)的重要性及箇中關鍵。

身兼ASI大數據的數據分析及策略總監,我最近以美國不同州分選民對親民主黨媒體及親共和黨媒體的新聞及資訊需求量變化發表報告,評估共和黨在多個搖擺州分有一定優勢,得出美國總統特朗普有機會在11月3日贏得美國總統大選、再坐4年的推論。

先簡單說說報告的重點。今天美國的傳媒壁壘分明,民主黨與共和黨的支持者,傾向瀏覽立場傾向其支持政黨的媒體,美國研究機構皮尤(PEW)報告便指出,《紐約時報》的讀者群中有91%屬於民主黨支持者,相反《霍氏新聞》(FOX)的觀眾群中有93%屬於共和黨支持者。

親民主黨及親共和黨傳媒立場鮮明的現象,在《紐約郵報》報道民主黨候選人拜登家族醜聞後變得明顯(CNN初期完全沒有報道涉及拜登醜聞的消息)。為了「抽出」美國選民沉默的大多數,我評估當地選民對不同陣營媒體的新聞及資訊需求量變化,端視親民主黨或親共和黨媒體的搜索量變化,側寫兩黨支持者在拜登醜聞曝光後的變化。

數據顯示,佛羅里達州、賓夕法尼亞州、俄亥俄州、密歇根州、北卡羅來納州、威斯康辛州及艾奧瓦州的選民,在拜登醜聞曝光後對親共和黨傳媒的搜索量急升或保持優勢,顯示共和黨隨時全取有關搖擺州分的選舉人票。

對於以新聞及資訊需求量變化去側寫大選結果,不少業界人士認為搜索數量並不科學,特別指出個別陣營媒體的搜索,未能如實反映瀏覽者的投票意向。提出意見的朋友可能只知大數據而不知厚數據。所謂的厚數據的「厚」,其實源自人類學家Clifford Geertz提出的thick description(普遍譯作「深描」),即是能夠帶出社會和文化意義的描述,厚數據(Thick Data)亦即是那些揉合人文社會及文化的大數據。

不少大數據從業員容易犯上只知數據而不知社會文化實況的毛病,且以ASI大數據在2019年「反修例運動」期間的一些實例講講。2019年6月15日,社會正評估特首林鄭月娥宣布「撤回」修例,或導致6月16日遊行人數大減。

不過ASI大數據系統顯示,社會大眾對「遊行」、「維園」等新聞訊需求量在記者會後急升,加上反修例示威人士梁凌杰在太古廣場墮樓身亡,系統顯示「白花」或「花店」的新聞及資訊需求量急升,兩者均意味大眾除了急須獲得遊行及集會時間等資訊外,一併搜索那裡可以買到白色花的資訊,好讓遊行期間向梁凌杰獻化。假如只知大數據而不知厚數據的話,可能會忽略這些重要資訊,認為社會大眾在網上搜索「白花」或「花店」的資訊只是巧合,並無意義。所以最終ASI大數據在616遊行前預計,遊行人數將超過6月9日的100萬人,有機會高達到175萬人,最終民陣宣布遊行人數為200萬。

李鴻彥

其他觀點