根據英國廣播公司(BBC )報導,紐約IBM華生研究中心的研究人員利古佐斯和田惠恩(譯音 ),將基因學家計算蛋白質註解的基因序列時所使用的一種演算程式「泰瑞西亞」,應用到辨識垃圾郵件上,並將這種新的程式命名為「鍾馗」。
利古佐斯表示,垃圾郵件會含有某些字元序列模式,這些模式不會出現在非垃圾郵件中。研究人員對大量垃圾郵件進行分析,建立出一套垃圾郵件經常包含的字元序列模式,這些模式相當於某種「字彙」。利用這套字彙組成的資料庫,「鍾馗」就可以辨識垃圾郵件。
「鍾馗」的運算原理是「模式發現」,而非「模式吻合」(如以郵件的來源、途徑、身份認證或安全名單等明確資訊串為對象,對郵件進行搜尋過濾 )。只要郵件中出現高頻率的垃圾「字彙」,就會被判定為垃圾郵件。
在六萬六千封垃圾郵件與二萬二千封非垃圾郵件的混合中,「鍾馗」成功辨識出絕大多數垃圾郵件,成功率高達九十六點五%。
利古佐斯說,「鍾馗」的辨識能力極強,只要「字彙」在郵件中出現兩次或兩次以上,郵件就會被抓出來,即使出現位置在郵件內容以外的地方也一樣。現在許多垃圾郵件以「S」代替「$」來逃避過濾程式,但這種障眼法也騙不過「鍾馗」。此外,「鍾馗」會透過不斷學習擴大其「字型檔」。
「鍾馗」所根據的「泰瑞西亞」程式,也是華生研究中心的研發成果。它的命名取自希臘神話中著名的盲眼先知泰瑞西亞,理由是這種演算程式並不知道它所要尋找的明確基因模式為何,它只是在大量的基因資料中,發現到某些反覆出現的模式。基因學家利用這些模式,解釋疾病與基因缺陷的關係。
--版權所有,任何形式轉載需看中國授權許可。
- 關鍵字搜索:
- 抓垃
看完那這篇文章覺得
排序