【譯見】你認識誰
Who You Know
本文摘譯自 Gina Chua 於2025年12月8日發表在個人Substack頻道「(Re)Structured News」的《Who You Know》。
「(重點)不是你知道什麼,而是你認識誰。」這句話有一定道理——權力、影響力和金錢往往沿著可見與不可見的關係網絡流動。理解這些關係,對理解權力結構至關重要。但要蒐集這些資料,且以有用且具成本效益的方式呈現,並不容易。
多年以前,當我在《南華早報》(SCMP)工作時,我們繪製一個香港菁英階級的關係網絡,並且根據公開資料,建立了一個政府與企業領袖的資料庫「WhoRunsHK」。這是資金有限的情況下所做的有趣實驗,但也展現了探究香港權力結構的不同途徑。
後來我到了《路透社》,我們複製之前的做法,但規模更大,進行一項雄心勃勃的計畫「Connected China」,以視覺化方式呈現中國權力流動。我們18個人花了18個月(還有100萬美元)來梳理書籍、資料庫和相關報導,建立這個中國領導人資料庫,涵蓋他們的職業路徑、教育背景和人際網絡。我承認我有點偏袒,但我仍然認為這是我在網路上見過最精美的視覺化作品之一。
這兩個計畫讓我學到很多,最重要的是:這項工作很辛苦,成本很高,先不論那些設計獎,光好好呈現出來就很具挑戰性。
困難之處在於,人際網絡資料本身就錯綜複雜。確認 John Smith 是否為 Mary Smith 的兒子並不難,查到 Jack Gonzalez 和 Jill Chan 是否同年就讀耶魯大學也容易。但要從個人簡介或故事「抽取」這類資料,往往耗時又難以判斷是否有實質意義。再加上還有一些結構鬆散的資料,比如 Jack 在學生時期曾與 Jill 交往,卻分手得很不愉快——這類資料更難獲取。因此類似計畫往往看起來徒勞無功,或至少代價高昂。
於是,大型語言模型(LLM)登場了,它們具備解析語言與歧義的能力,水準幾乎與新聞實習生相當。
如果它們能重現 Connected China 那18位研究者所完成的工作,但速度更快、成本更低,會怎麼樣?如果在資料庫建好之後,我們能利用它們的語言處理能力,打造出更具彈性的查詢介面,而不是必須把我們「預設為重要」的關係在資料視覺化編碼中寫死,又會如何?
我決定試試看。
首先,我編造一個家庭感恩節團聚的短篇故事。
John Smith 討厭感恩節。
這意味著他得開六個小時的車回到愛達荷州的繼父家,忍受他那個如今有點失智的母親——她似乎還沒意識到,眼前這個人早已不是那個八歲可愛的小男孩,而是一個40歲、第三次離婚的男人,和兩個女人各有孩子,另外還有一個繼子。但他確實愛他們,也覺得回家是對的。
他也很喜歡妹妹 Mary,但對她的丈夫 Fred 就沒那麼有好感了。多年前他曾在 Fred 的屋頂公司任職,而直接折磨他的是 Fred 的弟弟 Tom——他的直屬主管,。John 很高興自己終於離開,儘管 Tom(可能在 Fred 知情下)還扣了他最後一筆薪水。
每年感恩節,他都盡量不在 Mary 面前提起這件事;那只會讓本來就尷尬的晚餐變得更尷尬。
還會出現舅舅 Sid——他母親的兄弟,總是喝得太多,然後開始高談闊論 UFO 陰謀論;以及外甥 William——另一個妹妹 Joan 的兒子,熱衷於大聲、長時間地討論社會正義議題。William 非常崇拜 Joan 的丈夫 Mike——一位退役海軍陸戰隊員、強調「鐵血教育」的信奉者;當 Mike 去年死於一場可怕的車禍時,William 心碎不已。
John 的妻子 Melissa 以一種溫和、隱忍的態度承受這一切。她是真的喜歡 John 的母親 Jane,以及 Jane 的丈夫 Al。她很欣慰 John 在他們結婚後,把她的兒子 Nick 視如己出;也很高興 John 的另外兩個兒子 Bill 和 Bob,和 Nick 培養出了感情。
當然,這不是一個關於中共或政治權力運作的故事,但它同時包含了正式關係(子女、婚姻、雇傭)和非正式資訊(怨恨、友誼、情感),以及模糊性(John 到底結過幾次婚?),是相當理想的測試文本。
我請 Claude 解析這段文字,提取其中關係,並建立一份表格。
它第一次嘗試的結果不算差,但在 John 的繼子 Nick 身上卡住了,憑空捏造一個不存在的人物,它也無法確定 John 究竟是結三次還是四次婚,不過它推測 Melissa 更有可能是第四任妻子。
即使如此,結果仍算不錯。只要記得不要在未查證情況下完全信任它。當然,文中也有一些連人類都很難確定的關係,例如 John 對 Fred 的敵意究竟有多深。但這個實驗的效率,遠遠超過我們當年建置 Connected China 時所能想像的。
它做的第一份表單相對簡單,只有記錄準正式關係。它可以辨識出 John 有幾個孩子,也能指出他與 Fred、Tom 的關係(姻親、前雇主),但無法辨別 John 對兩人的感受。
但當我要求它納入更多資訊,把文中描述的非正式關係也一併整理進來,它生成一份更複雜、也更細膩的表格。當我查詢這份資料時,它能呈現 John 與 Fred、Tom 之間的緊張關係。例如:
John 對 Tom 抱持強烈負面情緒──源自於過去在職場不公平對待的敵對關係。
這究竟只是個實驗,還是有更大的可能性?
如果我們取得一個城市媒體機構的20年份檔案,使用LLM獲取關鍵人物關係,再將這些資料與其他公開資料結合,最後請記者查證內容,並補充他們所知的其他訊息。這樣會得到多麽強大、豐富的資料庫?這樣的資料庫,對記者和讀者又有多大的價值?
這會是一個城市的「權力資料庫」,涵蓋誰在哪些政府部會任職?誰的親屬與政府有業務往來?哪些律師事務所代理了關鍵企業?想像一下,它是一個像 Connected China 的探索型視覺化工具,讓你一眼看出菁英彼此的連結(例如有多少議員在同一個委員會任職),同時,藉助LLM建置的查詢系統,能讓使用者提出視覺化工具沒有回答的問題(例如顯示所有都市計畫委員會與待核准開發案建商之間的財務關係)。
這正是實現結構化新聞(structured journalism)的一種方式:重新利用、評估目前深埋筆記本和記者腦海中的訊息,創造新的新聞產品,甚至可能開闢新的收入來源。
當然,還有各種技術障礙需要克服,最重要的包括:LLM在處理真實事件的表現如何,以及驗證它所產出結果所需要下多少功夫。


