以 ACL 2017 Twitter15 / Twitter16 共 2,308 棵傳播樹為樣本,從結構與時序兩個面向量化真假新聞於社群平台上的擴散差異。
本研究整合 ACL 2017 公開資料集 Twitter15 與 Twitter16,共 2,308 棵推文傳播樹,從傳播規模、網路結構、時序動態與傳播深度四個維度,量化比較真新聞與假新聞於 Twitter 平台上的擴散行為。結果顯示,假新聞的平均 cascade size 為 35.7,較真新聞的 28.3 高出約 26%;兩者的出度分佈皆呈現典型的 heavy-tail 模式,意味擴散主要由少數超級節點所主導;在時序維度上,假新聞於首小時的擴散速度略低於真新聞,但於 24 小時內的累積規模反超之,呈現「慢熱發酵」的時間特性;最後,傳播樹深度普遍集中於 1 至 2 層,顯示 Twitter 平台的訊息擴散傾向「廣而淺」的星狀結構,而非鏈式接力。本研究的結論與 Vosoughi 等人於 2018 年 Science 期刊的大規模研究方向一致,並進一步指出假新聞之傳播優勢來自時間累積而非瞬間爆發。
2018 年,Vosoughi、Roy 與 Aral 三位學者於 Science 期刊發表研究,分析 Twitter 平台自 2006 至 2017 年間共 126,000 則新聞、約 300 萬名使用者所形成的轉發鏈,發現假新聞之擴散速度與廣度顯著高於真新聞——其傳播深度多出 70%,且抵達 1,500 人所需的時間僅為真新聞的六分之一。此一現象被視為近年社群媒體研究中最重要的實證結果之一。
然而,該研究使用的是私有商業資料集。本研究嘗試在較小規模的公開資料集(Twitter15 與 Twitter16)上重現該現象,並進一步觀察傳播結構之差異。具體而言,本文欲回答以下問題:
在進入分析前,必須先釐清資料集所使用之分類體系。ACL 2017 dataset 將所有訊息分為四類,其中最容易混淆者為「True News」與「Non-rumor」之差異——兩者皆為「真實的」訊息,但其產生路徑截然不同。各類定義如下:
關鍵區別:True 與 False 屬於同一條判定路徑——兩者皆曾被使用者質疑為謠言,差別僅在於最終查核結果為「真」或「假」。Non-rumor 則屬於另一路徑——從未進入查核流程,可視為「常態擴散」之對照基準。因此本研究主要的對比對象,為 True 與 False 此兩類「曾受質疑的訊息」。
本研究將每一棵傳播樹視為一個有向圖,根節點(root)為原貼文,子節點為轉發者。我們對每棵樹計算下列指標:
四類訊息之主要統計指標如下表所示(N 為樣本數,所有指標皆取每棵樹之數值後再計算統計量):
| 類別 | N | Cascade (均) | Cascade (中) | Max Depth (均) | 1h (均) | 24h (均) |
|---|---|---|---|---|---|---|
| False | 575 | 35.7 | 20 | 1.68 | 14.2 | 29.0 |
| True | 579 | 28.3 | 15 | 1.61 | 15.2 | 25.8 |
| Non-rumor | 579 | 48.1 | 30 | 1.86 | 23.4 | 42.9 |
| Unverified | 575 | 29.0 | 17 | 1.73 | 12.1 | 24.7 |
就 cascade size 而言,假新聞之均值為 35.7,顯著高於真新聞的 28.3,差距約為 26%;中位數的差距更為明顯(20 vs 15)。此一結果與 Vosoughi 等人(2018)之結論方向一致,但本資料集規模較小,故差距未達該文所報告之 70%。
值得注意的是,Non-rumor 之平均 cascade size 為四類中最高(48.1)。此結果可由其性質解釋:Non-rumor 多為主流媒體之發文,本身即具有大量基本訂閱者與較高之曝光,故其擴散規模並非源於「謠言性」所驅動的轉發行為,而是來自既有讀者基數。因此本研究主要的真假對比應聚焦於 True 與 False 兩類之差異。
下圖為三類訊息之出度互補累積分佈函數(CCDF),雙對數座標。橫軸 k 為單一使用者所觸發之直接轉發數,縱軸為 P(K ≥ k),即出度大於或等於 k 之機率。
若擴散行為呈現均勻分佈,CCDF 將近似於一條陡降的指數曲線。然而,三類訊息之曲線在尾端皆顯著翹起,呈現典型的 heavy-tail 分佈(重尾分佈),與 Barabási 等人於複雜網路研究中所描述之偏好連結(preferential attachment)結果一致。
實務意涵上,這代表絕大多數使用者僅引發少量轉發(甚至為零),而極少數的「超級節點」(如具高追蹤者數之意見領袖)即可單獨引發數十至數百次的直接轉發。此現象並非假新聞所獨有——真新聞與非謠言皆呈現同樣的結構。
若僅觀察 cascade size,難以區分「快速爆紅」與「持續發酵」兩種傳播模式。為此,本研究進一步計算 1 小時與 24 小時內之累積轉發數,比較兩類訊息的時序動態:
以中位數觀察:
換言之,假新聞之傳播優勢並非源於「初期爆發力」,而是來自「持續發酵」之時間累積效應。此一觀察對闢謠策略具有實務意涵:若僅關注初期 1 小時內之擴散速度,可能低估假訊息之最終影響;反之,24 小時為實務上較關鍵之觀察窗口。
下圖呈現四類訊息之最大深度(max depth)分佈。Max depth 為根節點至最深葉節點之距離,量化「層層接力」之最大層數:
四類訊息之深度分佈高度相似,且皆集中於 1 至 2 層,超過 3 層者僅佔少數。此一結果意味 Twitter 平台之擴散主要為「原貼文 → 多名直接轉發者」之星狀模式,而非「轉發者 → 二級轉發者 → 三級轉發者」之鏈式接力。
結合發現二之 heavy-tail 結構可知:在 Twitter 平台上,訊息之擴散廣度主要由原貼文(或少數超級節點)之曝光基礎所決定,而非源於遞迴式的口耳相傳。此結構性特徵亦解釋了為何個別貼文之傳播規模具有極大變異。
為具體呈現上述結構差異,本研究自資料集中挑出 cascade size 最大之真新聞與假新聞各一則,繪製其完整傳播樹如下。圓圈大小代表節點層數,黃色為根節點(原貼文):
APEC 期間網傳的「普丁車隊照」,後被證實為假,總共擴散 342 次。雖然 24 小時內只跑了 167 次,但持續發酵超過一日,顯示假訊息常有「慢熱型病毒」特性。
「雨林發現巴掌大蜘蛛」這則奇聞真新聞總共擴散 381 次,24 小時內就達 281 次,第一小時即累積 49 次轉發。視覺衝擊強的真實內容,初期爆發力顯著。
兩棵樹之 cascade size 接近(342 vs 381),但其時間結構截然不同。真新聞「雨林發現巨型蜘蛛」於 24 小時內已完成 281 次轉發,佔總量 73%,屬於典型的「視覺奇聞、瞬間爆紅」型擴散;假新聞「普丁車隊照」於 24 小時內僅完成 167 次(49%),其餘 175 次於後續時間累積,呼應發現三所提之「持續發酵」特性。
本分析整合 Twitter15 與 Twitter16 兩個資料集,共 2,308 棵傳播樹,得出三項發現:第一,假新聞平均傳播規模比真新聞高 26%,符合 MIT Vosoughi 等人 2018 年於 Science 的結論;第二,傳播樹幾乎都呈「廣而淺」的星狀結構,少數超級節點主導擴散;第三,假新聞並非「永遠跑得更快」,而是擴散更廣、後勢更強。在社群網路時代,內容是否吸引人比「是否為真」更能決定其能跑多遠,這是平台治理與媒體素養需正視的結構性課題。
本研究存在以下幾項限制:第一,樣本規模較 Vosoughi 等人(2018)之研究為小(2,308 vs 126,000),因此所觀察之差距百分比不宜直接外推;第二,資料集僅涵蓋英語推文,文化與語言背景之差異未被納入考量;第三,傳播樹之建構基於 Twitter API 公開資料,部分私密帳號或已刪除推文之轉發資訊可能缺失;第四,本研究未對推文內容進行情感分析或主題建模,故無法區辨「內容特性」對擴散行為之獨立影響。
後續研究可朝以下方向延伸:(一)納入內容特徵(情緒詞、新奇度、視覺刺激)作為控制變項,量化「內容」與「真假」對擴散行為之相對貢獻;(二)擴展至跨平台比較(如 Reddit、Facebook、PTT),檢驗結構性結論之普適性;(三)建立可預測 cascade size 之時序模型,協助早期辨識具高擴散潛力之謠言。