如何用輸入法來監控六億網民?(圖)
中共可能運用鍵盤輸入法監控網民(Foreign Affairs 網站截圖)
【看中國2016年06月17日訊】三年前,美國中情局僱員愛德華·斯諾登(Edward Snowden)所披露的文件揭露了美國政府對國內外電話的廣泛監控。在這些爆炸性的內幕披露三週年之際,各大媒體無疑都蓄勢待發,準備重提數據隱私和公民自由的話題。
然而,人們或許忘了監控技術早已超出對電話、電郵和簡訊的竊聽攔截。事實上,人們在寄電郵、PO臉書和發推特前,政府便有可能監控這一切。國家和私有企業能夠截獲.docx和.rtf格式文檔,事實上,哪怕是用看似不會泄露的程序輸出的文本文檔,也都有可能為他人獲取。
最後,這樣的監控很可能發展為實時進行。屆時,一份文件甚至點擊「保存」或上傳到雲端之前就能被截獲。這些都是推測,但並不是不可能。
你所敲的每一個鍵
過去十年,我一直在研究現代中國的信息技術,成果會寫在一套叢書中,明年由麻省理工出版社出版。當時我並不知道研究中的一些偶然發現會與當下的爭論有關,涉及國家監控、數據隱私以及震驚世界的斯諾登泄密案,但事實就是這樣。
簡而言之:中文計算機系統已經具有「鍵盤記錄(keylogging)」的功能。這項技術的引入並非基於惡意(其實是很高明的技術),但它卻在理論上讓實時監控中國的電腦用戶成為可能,譬如用戶在使用Microsoft Word、NotePad、TextEdit等看似不聯網的文檔程序時就有可能受到監控。當前媒體技術的發展趨勢強烈地預示著這種漏洞很快便會從中國傳播出去,並成為一種新常態。
要探究起因為何,人們首先需要瞭解鍵盤記錄器和中文的計算機系統,以及兩者是如何結合在一起的。
鍵盤記錄器是一種程序,也可以是安裝在計算機上的一種實體裝置,它收集用戶敲擊的每一個鍵的數據。鍵盤記錄器經常被惡意使用,比如盜取信用卡信息、密碼或個人數據,同時也長期運用於政府監控中。1999年有一件里程碑式的案子,聯邦調查局探員首次使用鍵盤記錄裝置侵入了黑手黨大佬小尼基(Nicodemo Salvatore Scarfo, Jr)的電腦,獲取他的密碼。
在鍵盤記錄器這種間諜工具的發展早期,主要的挑戰並非來自鍵盤記錄裝置的製作,而在於它的安裝。在小斯卡夫一案中,聯邦調查局不得不用老掉牙的特務手段,兩次闖入這位老大的辦公室,第一次是安裝鍵盤記錄裝置,第二次是取回它。
隨著惡意軟體的擴散,安裝鍵盤記錄器變得更加簡單,不過要利用鍵盤記錄器實施間諜活動暫時還沒有那麼容易。2015年,伊利諾伊大學香檳分校的研究人員研究發現,可以利用智能手錶自帶的加速計和陀螺儀數據,把手錶改裝成一種不太完美的鍵盤記錄器。根據相關理論,只要能確定用戶的手如何劃過鍵盤表面,就能推算出用戶敲了哪幾個鍵。
中文計算機系統上存在一種同樣「聰明」,且遠為優越的辦法,能夠精確推算出用戶在鍵盤上輸入了什麼。要竊取中文計算機上的信息,你只需要獲取鍵盤記錄器的管理許可權,而且這個國家每臺個人電腦和電子設備本身就自帶「鍵盤記錄器」——事實上,全世界的個人電腦和電子設備也都自帶這種「鍵盤記錄器」。
中文計算機系統是如何工作的?
中國的計算機和美國完全一樣,都用標準全鍵盤(QWERTY keyboard,又稱柯蒂鍵盤)。無論你是在北京哪一棟新落成的寫字樓觀察,都會發現一批飽含創業激情的千禧一代正在鍵盤上辛勤地工作,滿懷希望地準備與風投資本家會晤。
但是,中國的全鍵盤並不是看上去的那樣簡單。在中文計算機系統中,全鍵盤的用法並非「打什麼字就出什麼字」。鍵盤的輸入只是在輸入法(IME)軟體裡提供指令的手段 ,確定接下來顯示在屏幕上的漢字。
思考一下人們會如何使用全鍵盤輸入有關「誠信」、「輿論導向」以及「數據隱私」等中文詞語吧。
要打出由兩個漢字組成的「誠信」,四個漢字組成的「輿論導向」或「數據隱私」,業內領先的搜狗輸入法會為用戶提供多種輸入策略。人們可以輸入完整的漢語拼音(比如,「c-h-e-n-g-x-i-n」, 「y-u-l-u-n-d-a-o-x-i-a-n-g」等等),也可以採用多種快捷鍵和縮略詞(比如「c-x」 and 「y-l-d-x」),搜狗輸入法會足夠智能地提供一組選項。比如輸入「c-x」,搜狗的彈出式菜單除了會提供「誠信」,同時還並列顯示其他也以「c」和「x」開頭的中文詞語,如「抄襲」。又比如輸入「y-l-d-x」,搜狗會彈出「輿論導向」,以及「耶魯大學」等其他選項。這些呈現出的選項如此簡單明瞭, 足夠用戶從「抄襲」等詞中選中「誠信」。
鑒於輸入法是這樣的運行方式,計算上的所有中文輸入都是某種形式的本地通訊。當然,如果一個人在中國編輯word文檔,輸入的信息不會發給第三方,而是返還給用戶本身。Word編輯者把字母代碼傳到輸入法,輸入法處理代碼並以漢字形式將信息傳回給用戶。
雲輸入
從麻省理工的工程學教授塞繆爾·考德威爾(Samuel Caldwell)發明首臺試驗性中文計算機至今,60多年來中文計算機系統都主要依靠這種輸入方式。事實上,計算機誕生之前便存在中文輸入,甚至考德威爾的靈感也來自於知名作家、語言學家林語堂在20世紀40年代發明的明快(MingKwai )中文機械打字機。自林和考德威爾之後,每一代中文計算機科學家和工程師都把中文輸入作為設計的核心考量。
特別是從2000年開始,中文計算機系統利用個人電腦不斷增強的處理能力讓漢字輸入過程瘋狂加速,同時漢字輸入愈發智能,愈發依賴預測文本,自動補齊,快捷鍵和縮略詞。因此,比起英文字母鍵盤那種「打什麼字出什麼字」,中國的全鍵盤變得更加「聰明」。所有這些或許都讓中文成為地球上電腦輸入最快的語言。
近幾年發生了影響深遠的變化:雲輸入法出現了。上世紀80年代到21世紀初的輸入法,輸入的全過程都發生在電腦內部,而搜狗、百度、騰訊、微軟等推出的雲輸入系統開始使用巨大的中文語料庫和複雜的自然語言處理演算法。2013年,微軟的研究者把自家中文輸入法不斷完善的性能當做賣點;而搜狗在其官網上吹噓其基於雲技術的輸入法具有更加卓越的準確率和性能。「長句識別」是指輸入法將具有一定長度和複雜性的字母精確地轉化為多字元中文的能力。搜狗稱,依賴本地語料庫的傳統輸入法的長句識別準確率為62.5%,如今雲輸入法已經將準確率提高到了84%,同時「短句識別」的準確率也從91.52%提高到了96%。
安全問題
或許很多人已經注意到了雲輸入法速度和準確性的提高,但很少有人指出這種系統可能會引發數據安全問題。如果說輸入法本質上就是一種鍵盤記錄器,那雲輸入法就是聯網的鍵盤記錄器。在雲輸入法中,每在標準鍵盤上按一個鍵,都相當於是按了「發送」、「上傳」和「轉發」。
隨著數以億計的按鍵在光纖中來回輸送,近年來人們開始擔心這種輸入方式容易受到監控。另外,英文計算機一般僅僅是在瀏覽網頁時由谷歌提供搜索候選(譯者註:根據用戶輸入提供用戶可能需要搜索的關鍵詞),而在中國,搜索候選功能已經成為了所有輸入法的核心部分。
當然,有些人也許會問,能否使用其他人的電腦來避開這種雲輸入法帶來的監控。畢竟如果沒有確定的身份標識,一定無法判斷內容的輸入者究竟是誰。但事實或許不是這樣。
作為斯坦福大學的空間與文本分析中心(CESTA)數字人文亞洲項目中的一項研究,我和我的團隊一直在分析鍵盤的輸入記錄,試圖理解在鍵盤輸入中的各種邏輯和策略。
儘管研究還未結束,但我們已經發現不同用戶的鍵盤記錄之間有驚人的差異。而且每個用戶都有屬於自己的且彼此間區別明顯的中文輸入方法。雖然我們仍處在研究的初期,但我們的發現對安全和隱私問題會帶來的影響已經十分深遠。
在個人電腦出現之前,對打字機和打字機打出的文本進行科學鑑定是國內外監視的重要部分。由於打字機制式的不同,打字機打出的文本存在細微的差異。就連不同牌子的打字機色帶也會在文件上留下略有不同的「標記」。在美國和前共產主義陣營國家(譯者註:Communist bloc或Soviet bloc指和前蘇聯站在一起的一系列國家,不僅限於中歐和東歐的國家)中,監視部門就利用這些微妙的差異來分析來源不明的文件可能的出處和作者。(要想瞭解這種分析方法,讀者可以去觀看2006年電影《竊聽風暴》。)
我們的初步研究顯示,通過計算機輸入法輸入的文本也有自己的標記,所以「輸入法鑑定」是完全可能的。在斯坦福大學,我們邀請研究樣本使用自己偏愛的輸入法,輸入唐代詩人王維(公元前701-公元前761)所做的古詩《送別》。我們的發現很驚人——就連在前兩句詩、短短的十個字中,鍵盤記錄下不同樣本的習慣也存在差異。
下馬飲君酒,問君何所之?
輸入鍵盤記錄,樣本#1:xiama_yinjunjiu_,wen_jun_hesuozhi2?
輸入鍵盤記錄,樣本#2:xiamayinjunjiu2,wenjunhesuozhi2?
註釋:下劃線是用戶按下空格鍵的地方,這意味著用戶選擇了搜狗輸入法選字框中的第一個字。數字2代表用戶選擇了搜狗輸入法選字菜單中的第二個字。
我們在示例1中可以看到,有些人每次只輸入一個字的拼音,他們輸入「w-e-n」,然後使用空格鍵(_)選擇想要的字。另外的人在面對包含多個漢字的文本時,會選擇輸入更多的字母(比如「x-i-a-m-a-y-i-n-j-u-n-j-i-u」),這類人對輸入法聯想能力的依賴度更高。
另外,隨著文本長度的增加,不同電腦用戶之間存在的差異會更大。這意味著,當我們把一個人每年成千上萬(甚至上百萬)次的按鍵結合在一起,就能總結出那個人獨有的「指紋」——這種「指紋」的有效性和打字機時代最先進的識別技術不相上下。把輸入法指紋和定位數據、網頁緩存數據和其他數據獲取方法進行交叉比對時,我們發現輸入法指紋甚至更勝一籌。
在雲輸入法的時代,電腦用戶僅僅通過更換電腦來躲避監控是不夠的,因為其輸入指紋有可能會如影隨形揮之不去。在憤怒時發過郵件或者喝醉時發過簡訊的人都知道,編輯時的信息和最終發送出去的信息可謂是天差地別。但如果這種不同完全消失呢?如果你的每一個Word文檔,包括沒有保存的那些以及整個編輯過程都能被攔截呢?如果你刪除掉的每段話,修改過的每個短語,做過的每個改動和最終保存的文件都被一視同仁地保存在了監控世界中呢?這些你以為已經刪除掉、但其實被保存下來的信息,有一天是否會被用來針對你?
菲利普·狄克(Philip K. Dick)在他1956年的作品《少數派報告》(The Minority Report)中,提出了讓人膽寒的「犯罪預防」(precrime)概念,意指在事先即察覺(甚至起訴)犯罪行為。雲輸入法的出現提出了一個問題:Wei Jingsheng被監禁的原因主要是因為他1978年攥寫的文章The Fifth Modernization;Liu Xiaobo被監禁的原因,部分是因為他與人合著了Charter 08;在未來,異見者在用電腦進行創作時,是否會像恐怖份子一樣,還未來得及行動就被察覺?
另外,上述猜測不侷限於中文輸入或中文中。可以說,全球的IT公司和用戶像中國一樣開始利用智能鍵盤提供的便捷只是時間問題。
當我準備按下「發送」按鈕,將帶著一個docx附件的電郵發給我的編輯時,我已經完全意識到,我寫下的每一句話很可能已經被政府和私企的相關方攔截讀取。
原文:How to Spy on 600 Million People
(文章僅代表作者個人立場和觀點)