Computational Social Science · Data Analysis Report

Twitter 真假新聞傳播動力學之比較分析

以 ACL 2017 Twitter15 / Twitter16 共 2,308 棵傳播樹為樣本,從結構與時序兩個面向量化真假新聞於社群平台上的擴散差異。

樣本:
2,308 棵傳播樹
資料集:
Twitter15 + Twitter16 (Ma et al., ACL 2017)
分析日期:
2026 年 5 月

摘要

本研究整合 ACL 2017 公開資料集 Twitter15 與 Twitter16,共 2,308 棵推文傳播樹,從傳播規模網路結構時序動態傳播深度四個維度,量化比較真新聞與假新聞於 Twitter 平台上的擴散行為。結果顯示,假新聞的平均 cascade size 為 35.7,較真新聞的 28.3 高出約 26%;兩者的出度分佈皆呈現典型的 heavy-tail 模式,意味擴散主要由少數超級節點所主導;在時序維度上,假新聞於首小時的擴散速度略低於真新聞,但於 24 小時內的累積規模反超之,呈現「慢熱發酵」的時間特性;最後,傳播樹深度普遍集中於 1 至 2 層,顯示 Twitter 平台的訊息擴散傾向「廣而淺」的星狀結構,而非鏈式接力。本研究的結論與 Vosoughi 等人於 2018 年 Science 期刊的大規模研究方向一致,並進一步指出假新聞之傳播優勢來自時間累積而非瞬間爆發。

Key Finding · 核心結論
假新聞平均轉發 35.7 次,比真新聞 28.3 次多 26%

研究背景

2018 年,Vosoughi、Roy 與 Aral 三位學者於 Science 期刊發表研究,分析 Twitter 平台自 2006 至 2017 年間共 126,000 則新聞、約 300 萬名使用者所形成的轉發鏈,發現假新聞之擴散速度與廣度顯著高於真新聞——其傳播深度多出 70%,且抵達 1,500 人所需的時間僅為真新聞的六分之一。此一現象被視為近年社群媒體研究中最重要的實證結果之一。

然而,該研究使用的是私有商業資料集。本研究嘗試在較小規模的公開資料集(Twitter15 與 Twitter16)上重現該現象,並進一步觀察傳播結構之差異。具體而言,本文欲回答以下問題:

  1. 真新聞與假新聞於 Twitter 上的平均傳播規模是否存在顯著差異?
  2. 兩者的網路結構(出度分佈、深度)是否呈現不同模式?
  3. 若假新聞確實傳得較廣,其優勢來自於初期爆發,或是後續累積

四類訊息之定義與差異

在進入分析前,必須先釐清資料集所使用之分類體系。ACL 2017 dataset 將所有訊息分為四類,其中最容易混淆者為「True News」與「Non-rumor」之差異——兩者皆為「真實的」訊息,但其產生路徑截然不同。各類定義如下:

575
False · 假新聞
經查核確認為「假」的謠言訊息,例如釣魚式照片、移花接木之假引言。
579
True · 真新聞
原本被使用者質疑為謠言、後經查核確認為「真」之訊息。屬於曾被懷疑過的真消息。
579
Non-rumor · 非謠言
從未被當作謠言、未經查核流程之一般主流媒體新聞貼文。
575
Unverified · 未證實
被質疑為謠言、但目前仍無法被確定真假之訊息。

關鍵區別:True 與 False 屬於同一條判定路徑——兩者皆曾被使用者質疑為謠言,差別僅在於最終查核結果為「真」或「假」。Non-rumor 則屬於另一路徑——從未進入查核流程,可視為「常態擴散」之對照基準。因此本研究主要的對比對象,為 True 與 False 此兩類「曾受質疑的訊息」。

方法

本研究將每一棵傳播樹視為一個有向圖,根節點(root)為原貼文,子節點為轉發者。我們對每棵樹計算下列指標:

四類訊息之主要統計指標如下表所示(N 為樣本數,所有指標皆取每棵樹之數值後再計算統計量):

類別 N Cascade (均) Cascade (中) Max Depth (均) 1h (均) 24h (均)
False57535.7201.6814.229.0
True57928.3151.6115.225.8
Non-rumor57948.1301.8623.442.9
Unverified57529.0171.7312.124.7

發現一:假新聞之平均傳播規模較真新聞高 26%

就 cascade size 而言,假新聞之均值為 35.7,顯著高於真新聞的 28.3,差距約為 26%;中位數的差距更為明顯(20 vs 15)。此一結果與 Vosoughi 等人(2018)之結論方向一致,但本資料集規模較小,故差距未達該文所報告之 70%。

各類別新聞之平均與中位數傳播規模
Figure 1. Propagation Scale by Category
比較四類新聞的平均(深色)與中位數(淺色)傳播規模。假新聞顯著高於真新聞,而非謠言(主流媒體已驗證消息)因影響力大,平均擴散最廣。

值得注意的是,Non-rumor 之平均 cascade size 為四類中最高(48.1)。此結果可由其性質解釋:Non-rumor 多為主流媒體之發文,本身即具有大量基本訂閱者與較高之曝光,故其擴散規模並非源於「謠言性」所驅動的轉發行為,而是來自既有讀者基數。因此本研究主要的真假對比應聚焦於 True 與 False 兩類之差異。

發現二:擴散由少數超級節點主導

下圖為三類訊息之出度互補累積分佈函數(CCDF),雙對數座標。橫軸 k 為單一使用者所觸發之直接轉發數,縱軸為 P(K ≥ k),即出度大於或等於 k 之機率。

出度互補累積分佈函數
Figure 2. Out-degree CCDF (log-log)
出度分佈呈典型 heavy-tail:絕大多數使用者只轉發少數人,但極少數「超級節點」一人就引爆數百次擴散,三類新聞皆然。

若擴散行為呈現均勻分佈,CCDF 將近似於一條陡降的指數曲線。然而,三類訊息之曲線在尾端皆顯著翹起,呈現典型的 heavy-tail 分佈(重尾分佈),與 Barabási 等人於複雜網路研究中所描述之偏好連結(preferential attachment)結果一致。

實務意涵上,這代表絕大多數使用者僅引發少量轉發(甚至為零),而極少數的「超級節點」(如具高追蹤者數之意見領袖)即可單獨引發數十至數百次的直接轉發。此現象並非假新聞所獨有——真新聞與非謠言皆呈現同樣的結構。

發現三:假新聞之優勢來自時間累積,非初期爆發

若僅觀察 cascade size,難以區分「快速爆紅」與「持續發酵」兩種傳播模式。為此,本研究進一步計算 1 小時與 24 小時內之累積轉發數,比較兩類訊息的時序動態:

1 小時與 24 小時內傳播數對比
Figure 3. Propagation Speed within 1h vs 24h
假新聞在 1 小時內中位數轉發 8 次、24 小時 16 次;真新聞分別為 9 與 14 次。假新聞初期略慢,但 24 小時內後勢更強。

以中位數觀察:

換言之,假新聞之傳播優勢並非源於「初期爆發力」,而是來自「持續發酵」之時間累積效應。此一觀察對闢謠策略具有實務意涵:若僅關注初期 1 小時內之擴散速度,可能低估假訊息之最終影響;反之,24 小時為實務上較關鍵之觀察窗口。

發現四:傳播樹呈現「廣而淺」之星狀結構

下圖呈現四類訊息之最大深度(max depth)分佈。Max depth 為根節點至最深葉節點之距離,量化「層層接力」之最大層數:

傳播樹深度分佈
Figure 4. Distribution of Propagation Tree Depth
Twitter 上傳播樹幾乎都只有 1–2 層深,意味擴散主要靠「同一批人廣轉」而非「層層接力」,呈現廣而淺的星狀結構。

四類訊息之深度分佈高度相似,且皆集中於 1 至 2 層,超過 3 層者僅佔少數。此一結果意味 Twitter 平台之擴散主要為「原貼文 → 多名直接轉發者」之星狀模式,而非「轉發者 → 二級轉發者 → 三級轉發者」之鏈式接力。

結合發現二之 heavy-tail 結構可知:在 Twitter 平台上,訊息之擴散廣度主要由原貼文(或少數超級節點)之曝光基礎所決定,而非源於遞迴式的口耳相傳。此結構性特徵亦解釋了為何個別貼文之傳播規模具有極大變異。

代表案例:最廣傳的真假新聞

為具體呈現上述結構差異,本研究自資料集中挑出 cascade size 最大之真新聞與假新聞各一則,繪製其完整傳播樹如下。圓圈大小代表節點層數,黃色為根節點(原貼文):

Biggest Fake News — 342 retweets

假新聞最大傳播樹

APEC 期間網傳的「普丁車隊照」,後被證實為假,總共擴散 342 次。雖然 24 小時內只跑了 167 次,但持續發酵超過一日,顯示假訊息常有「慢熱型病毒」特性。

1h: 12 24h: 167 Depth: 4

Biggest True News — 381 retweets

真新聞最大傳播樹

「雨林發現巴掌大蜘蛛」這則奇聞真新聞總共擴散 381 次,24 小時內就達 281 次,第一小時即累積 49 次轉發。視覺衝擊強的真實內容,初期爆發力顯著。

1h: 49 24h: 281 Depth: 4

兩棵樹之 cascade size 接近(342 vs 381),但其時間結構截然不同。真新聞「雨林發現巨型蜘蛛」於 24 小時內已完成 281 次轉發,佔總量 73%,屬於典型的「視覺奇聞、瞬間爆紅」型擴散;假新聞「普丁車隊照」於 24 小時內僅完成 167 次(49%),其餘 175 次於後續時間累積,呼應發現三所提之「持續發酵」特性。

討論

本分析整合 Twitter15 與 Twitter16 兩個資料集,共 2,308 棵傳播樹,得出三項發現:第一,假新聞平均傳播規模比真新聞高 26%,符合 MIT Vosoughi 等人 2018 年於 Science 的結論;第二,傳播樹幾乎都呈「廣而淺」的星狀結構,少數超級節點主導擴散;第三,假新聞並非「永遠跑得更快」,而是擴散更廣、後勢更強。在社群網路時代,內容是否吸引人比「是否為真」更能決定其能跑多遠,這是平台治理與媒體素養需正視的結構性課題。

研究限制

本研究存在以下幾項限制:第一,樣本規模較 Vosoughi 等人(2018)之研究為小(2,308 vs 126,000),因此所觀察之差距百分比不宜直接外推;第二,資料集僅涵蓋英語推文,文化與語言背景之差異未被納入考量;第三,傳播樹之建構基於 Twitter API 公開資料,部分私密帳號或已刪除推文之轉發資訊可能缺失;第四,本研究未對推文內容進行情感分析或主題建模,故無法區辨「內容特性」對擴散行為之獨立影響。

未來工作

後續研究可朝以下方向延伸:(一)納入內容特徵(情緒詞、新奇度、視覺刺激)作為控制變項,量化「內容」與「真假」對擴散行為之相對貢獻;(二)擴展至跨平台比較(如 Reddit、Facebook、PTT),檢驗結構性結論之普適性;(三)建立可預測 cascade size 之時序模型,協助早期辨識具高擴散潛力之謠言。