抓垃圾電郵 IBM請出鍾馗

〔自由時報編譯張其賢□綜合報導〕美國「國際商業機器公司」(IBM )的科學家,運用分析基因序列的技術,開發出一種反垃圾郵件的演算程式,阻擋成功率接近九十七%。

根據英國廣播公司(BBC )報導,紐約IBM華生研究中心的研究人員利古佐斯和田惠恩(譯音 ),將基因學家計算蛋白質註解的基因序列時所使用的一種演算程式「泰瑞西亞」,應用到辨識垃圾郵件上,並將這種新的程式命名為「鍾馗」。

利古佐斯表示,垃圾郵件會含有某些字元序列模式,這些模式不會出現在非垃圾郵件中。研究人員對大量垃圾郵件進行分析,建立出一套垃圾郵件經常包含的字元序列模式,這些模式相當於某種「字彙」。利用這套字彙組成的資料庫,「鍾馗」就可以辨識垃圾郵件。

「鍾馗」的運算原理是「模式發現」,而非「模式吻合」(如以郵件的來源、途徑、身份認證或安全名單等明確資訊串為對象,對郵件進行搜尋過濾 )。只要郵件中出現高頻率的垃圾「字彙」,就會被判定為垃圾郵件。

在六萬六千封垃圾郵件與二萬二千封非垃圾郵件的混合中,「鍾馗」成功辨識出絕大多數垃圾郵件,成功率高達九十六點五%。

利古佐斯說,「鍾馗」的辨識能力極強,只要「字彙」在郵件中出現兩次或兩次以上,郵件就會被抓出來,即使出現位置在郵件內容以外的地方也一樣。現在許多垃圾郵件以「S」代替「$」來逃避過濾程式,但這種障眼法也騙不過「鍾馗」。此外,「鍾馗」會透過不斷學習擴大其「字型檔」。

「鍾馗」所根據的「泰瑞西亞」程式,也是華生研究中心的研發成果。它的命名取自希臘神話中著名的盲眼先知泰瑞西亞,理由是這種演算程式並不知道它所要尋找的明確基因模式為何,它只是在大量的基因資料中,發現到某些反覆出現的模式。基因學家利用這些模式,解釋疾病與基因缺陷的關係。

本文留言

近期讀者推薦