Twitter 真假新聞傳播動力學之比較分析

Abstract · 摘要

摘要

本研究整合 ACL 2017 公開資料集 Twitter15 與 Twitter16，共 2,308 棵推文傳播樹，從傳播規模、網路結構、時序動態與傳播深度四個維度，量化比較真新聞與假新聞於 Twitter 平台上的擴散行為。結果顯示，假新聞的平均 cascade size 為 35.7，較真新聞的 28.3 高出約 26%；兩者的出度分佈皆呈現典型的 heavy-tail 模式，意味擴散主要由少數超級節點所主導；在時序維度上，假新聞於首小時的擴散速度略低於真新聞，但於 24 小時內的累積規模反超之，呈現「慢熱發酵」的時間特性；最後，傳播樹深度普遍集中於 1 至 2 層，顯示 Twitter 平台的訊息擴散傾向「廣而淺」的星狀結構，而非鏈式接力。本研究的結論與 Vosoughi 等人於 2018 年 Science 期刊的大規模研究方向一致，並進一步指出假新聞之傳播優勢來自時間累積而非瞬間爆發。

Key Finding · 核心結論

假新聞平均轉發 35.7 次，比真新聞 28.3 次多 26%

Background · 研究背景

研究背景

2018 年，Vosoughi、Roy 與 Aral 三位學者於 Science 期刊發表研究，分析 Twitter 平台自 2006 至 2017 年間共 126,000 則新聞、約 300 萬名使用者所形成的轉發鏈，發現假新聞之擴散速度與廣度顯著高於真新聞——其傳播深度多出 70%，且抵達 1,500 人所需的時間僅為真新聞的六分之一。此一現象被視為近年社群媒體研究中最重要的實證結果之一。

然而，該研究使用的是私有商業資料集。本研究嘗試在較小規模的公開資料集（Twitter15 與 Twitter16）上重現該現象，並進一步觀察傳播結構之差異。具體而言，本文欲回答以下問題：

真新聞與假新聞於 Twitter 上的平均傳播規模是否存在顯著差異？
兩者的網路結構（出度分佈、深度）是否呈現不同模式？
若假新聞確實傳得較廣，其優勢來自於初期爆發，或是後續累積？

Definitions · 類別定義

四類訊息之定義與差異

在進入分析前，必須先釐清資料集所使用之分類體系。ACL 2017 dataset 將所有訊息分為四類，其中最容易混淆者為「True News」與「Non-rumor」之差異——兩者皆為「真實的」訊息，但其產生路徑截然不同。各類定義如下：

575

False · 假新聞

經查核確認為「假」的謠言訊息，例如釣魚式照片、移花接木之假引言。

579

True · 真新聞

原本被使用者質疑為謠言、後經查核確認為「真」之訊息。屬於曾被懷疑過的真消息。

579

Non-rumor · 非謠言

從未被當作謠言、未經查核流程之一般主流媒體新聞貼文。

575

Unverified · 未證實

被質疑為謠言、但目前仍無法被確定真假之訊息。

關鍵區別：True 與 False 屬於同一條判定路徑——兩者皆曾被使用者質疑為謠言，差別僅在於最終查核結果為「真」或「假」。Non-rumor 則屬於另一路徑——從未進入查核流程，可視為「常態擴散」之對照基準。因此本研究主要的對比對象，為 True 與 False 此兩類「曾受質疑的訊息」。

Method · 方法

方法

本研究將每一棵傳播樹視為一個有向圖，根節點（root）為原貼文，子節點為轉發者。我們對每棵樹計算下列指標：

Cascade size：傳播樹中總節點數，代表訊息實際被轉發的累積規模。
Max depth：根節點到最深葉節點之最大距離，代表訊息「層層接力」之最大層數。
Out-degree：每一節點的子節點數，反映該使用者所觸發的直接轉發數。本研究進一步繪製 CCDF（互補累積分佈函數）以觀察其分佈型態。
1h / 24h cumulative retweets：原貼文發出後 1 小時與 24 小時內所累積之轉發數，作為時序動態的衡量。

四類訊息之主要統計指標如下表所示（N 為樣本數，所有指標皆取每棵樹之數值後再計算統計量）：

類別	N	Cascade (均)	Cascade (中)	Max Depth (均)	1h (均)	24h (均)
False	575	35.7	20	1.68	14.2	29.0
True	579	28.3	15	1.61	15.2	25.8
Non-rumor	579	48.1	30	1.86	23.4	42.9
Unverified	575	29.0	17	1.73	12.1	24.7

Finding I · 發現一

發現一：假新聞之平均傳播規模較真新聞高 26%

就 cascade size 而言，假新聞之均值為 35.7，顯著高於真新聞的 28.3，差距約為 26%；中位數的差距更為明顯（20 vs 15）。此一結果與 Vosoughi 等人（2018）之結論方向一致，但本資料集規模較小，故差距未達該文所報告之 70%。

Figure 1. Propagation Scale by Category

比較四類新聞的平均（深色）與中位數（淺色）傳播規模。假新聞顯著高於真新聞，而非謠言（主流媒體已驗證消息）因影響力大，平均擴散最廣。

值得注意的是，Non-rumor 之平均 cascade size 為四類中最高（48.1）。此結果可由其性質解釋：Non-rumor 多為主流媒體之發文，本身即具有大量基本訂閱者與較高之曝光，故其擴散規模並非源於「謠言性」所驅動的轉發行為，而是來自既有讀者基數。因此本研究主要的真假對比應聚焦於 True 與 False 兩類之差異。

Finding II · 發現二

發現二：擴散由少數超級節點主導

下圖為三類訊息之出度互補累積分佈函數（CCDF），雙對數座標。橫軸 k 為單一使用者所觸發之直接轉發數，縱軸為 P(K ≥ k)，即出度大於或等於 k 之機率。

Figure 2. Out-degree CCDF (log-log)

出度分佈呈典型 heavy-tail：絕大多數使用者只轉發少數人，但極少數「超級節點」一人就引爆數百次擴散，三類新聞皆然。

若擴散行為呈現均勻分佈，CCDF 將近似於一條陡降的指數曲線。然而，三類訊息之曲線在尾端皆顯著翹起，呈現典型的 heavy-tail 分佈（重尾分佈），與 Barabási 等人於複雜網路研究中所描述之偏好連結（preferential attachment）結果一致。

實務意涵上，這代表絕大多數使用者僅引發少量轉發（甚至為零），而極少數的「超級節點」（如具高追蹤者數之意見領袖）即可單獨引發數十至數百次的直接轉發。此現象並非假新聞所獨有——真新聞與非謠言皆呈現同樣的結構。

Finding III · 發現三

發現三：假新聞之優勢來自時間累積，非初期爆發

若僅觀察 cascade size，難以區分「快速爆紅」與「持續發酵」兩種傳播模式。為此，本研究進一步計算 1 小時與 24 小時內之累積轉發數，比較兩類訊息的時序動態：

Figure 3. Propagation Speed within 1h vs 24h

假新聞在 1 小時內中位數轉發 8 次、24 小時 16 次；真新聞分別為 9 與 14 次。假新聞初期略慢，但 24 小時內後勢更強。

以中位數觀察：

1 小時內：假新聞 8 次，真新聞 9 次。假新聞之初期速度略低於真新聞。
24 小時內：假新聞 16 次，真新聞 14 次。假新聞反超之。

換言之，假新聞之傳播優勢並非源於「初期爆發力」，而是來自「持續發酵」之時間累積效應。此一觀察對闢謠策略具有實務意涵：若僅關注初期 1 小時內之擴散速度，可能低估假訊息之最終影響；反之，24 小時為實務上較關鍵之觀察窗口。

Finding IV · 發現四

發現四：傳播樹呈現「廣而淺」之星狀結構

下圖呈現四類訊息之最大深度（max depth）分佈。Max depth 為根節點至最深葉節點之距離，量化「層層接力」之最大層數：

Figure 4. Distribution of Propagation Tree Depth

Twitter 上傳播樹幾乎都只有 1–2 層深，意味擴散主要靠「同一批人廣轉」而非「層層接力」，呈現廣而淺的星狀結構。

四類訊息之深度分佈高度相似，且皆集中於 1 至 2 層，超過 3 層者僅佔少數。此一結果意味 Twitter 平台之擴散主要為「原貼文 → 多名直接轉發者」之星狀模式，而非「轉發者 → 二級轉發者 → 三級轉發者」之鏈式接力。

結合發現二之 heavy-tail 結構可知：在 Twitter 平台上，訊息之擴散廣度主要由原貼文（或少數超級節點）之曝光基礎所決定，而非源於遞迴式的口耳相傳。此結構性特徵亦解釋了為何個別貼文之傳播規模具有極大變異。

Case Studies · 代表案例

代表案例：最廣傳的真假新聞

為具體呈現上述結構差異，本研究自資料集中挑出 cascade size 最大之真新聞與假新聞各一則，繪製其完整傳播樹如下。圓圈大小代表節點層數，黃色為根節點（原貼文）：

Biggest Fake News — 342 retweets

APEC 期間網傳的「普丁車隊照」，後被證實為假，總共擴散 342 次。雖然 24 小時內只跑了 167 次，但持續發酵超過一日，顯示假訊息常有「慢熱型病毒」特性。

1h: 12 24h: 167 Depth: 4

Biggest True News — 381 retweets

「雨林發現巴掌大蜘蛛」這則奇聞真新聞總共擴散 381 次，24 小時內就達 281 次，第一小時即累積 49 次轉發。視覺衝擊強的真實內容，初期爆發力顯著。

1h: 49 24h: 281 Depth: 4

兩棵樹之 cascade size 接近（342 vs 381），但其時間結構截然不同。真新聞「雨林發現巨型蜘蛛」於 24 小時內已完成 281 次轉發，佔總量 73%，屬於典型的「視覺奇聞、瞬間爆紅」型擴散；假新聞「普丁車隊照」於 24 小時內僅完成 167 次（49%），其餘 175 次於後續時間累積，呼應發現三所提之「持續發酵」特性。

Discussion · 討論

討論

本分析整合 Twitter15 與 Twitter16 兩個資料集，共 2,308 棵傳播樹，得出三項發現：第一，假新聞平均傳播規模比真新聞高 26%，符合 MIT Vosoughi 等人 2018 年於 Science 的結論；第二，傳播樹幾乎都呈「廣而淺」的星狀結構，少數超級節點主導擴散；第三，假新聞並非「永遠跑得更快」，而是擴散更廣、後勢更強。在社群網路時代，內容是否吸引人比「是否為真」更能決定其能跑多遠，這是平台治理與媒體素養需正視的結構性課題。

研究限制

本研究存在以下幾項限制：第一，樣本規模較 Vosoughi 等人（2018）之研究為小（2,308 vs 126,000），因此所觀察之差距百分比不宜直接外推；第二，資料集僅涵蓋英語推文，文化與語言背景之差異未被納入考量；第三，傳播樹之建構基於 Twitter API 公開資料，部分私密帳號或已刪除推文之轉發資訊可能缺失；第四，本研究未對推文內容進行情感分析或主題建模，故無法區辨「內容特性」對擴散行為之獨立影響。

未來工作

後續研究可朝以下方向延伸：（一）納入內容特徵（情緒詞、新奇度、視覺刺激）作為控制變項，量化「內容」與「真假」對擴散行為之相對貢獻；（二）擴展至跨平台比較（如 Reddit、Facebook、PTT），檢驗結構性結論之普適性；（三）建立可預測 cascade size 之時序模型，協助早期辨識具高擴散潛力之謠言。