機器聯合學習技術:對抗電子郵件的威脅

我們用於訓練垃圾郵件過濾模型的方法可以同時保證有效性和隱私性。

如果想找出來自電子郵件的安全威脅(網路釣魚或垃圾郵件),最簡單的方法是什麼?從技術角度出發,我們可以通過郵件的各種頭部訊息和其他間接標識達到目的,但我們不應該忘記郵件中的文本訊息可以提供最直觀的判斷。有人可能認為這非常顯而易見,畢竟網路犯罪分子或無良廣告商正是使用文字來誘騙收件人。不過事情並非如此簡單,我們曾經可以通過簽名分析完成任務,現在則不得不使用機器學習算法來分析文本。如果要訓練機器學習模型準確地對消息進行分類,那麼需要向它提供海量消息,由於涉及到隱私問題,這個方法不是很實用。我們將在本文探討應對這個問題的解決方案。

簽名分析為什麼不再有效?

十年前,人們僅僅基於文本訊息便可以相對容易地捕獲大量的惡意郵件,因為網路犯罪分子會使用同樣的模版,這些郵件地文本內容幾乎不會發生變化。而時至今日,網路犯罪分子不斷地提高他們發送郵件的效率,他們進化出幾百萬種誘騙方式,類似於新的電子遊戲、電視劇、智能手機型號、政治新聞等,甚至是一些緊急事件(比如與新冠肺炎相關的大量釣魚網站和垃圾郵件)。各種不同的主題增加了安全檢測程式的複雜程度。此外,攻擊者甚至可以通過更改文本內容躲過電子郵件過濾器的篩選。

當然,以簽名為基礎的方法仍在被使用,儘管這種方法基本上依賴於那些已經被定性為有害的文本。這種方法無法主動發揮作用,因為垃圾郵件製造者可以通過改變郵件文本成功繞開此檢測方法。解決這個問題唯一的方法就是通過機器學習。

普通的機器學習方法存在哪些問題?

近年來,機器學習方法在解決許多問題時取得了良好的效果。通過分析大量數據,模型學會做出正確決策和找出訊息流中的重要共同特徵。我們使用經過電子郵件頭部訓練的神經網路和DMARC協議共同檢測電子郵件中存在的威脅。那麼,為什麼我們不能對郵件文本採取同樣的措施?

正如之前提到的那樣,模型需要經過海量數據訓練。在我們的例子中,數據指的是電子郵件,不僅指惡意郵件,也包括合法郵件。如果沒有這些數據,就不可能訓練出能夠從眾多合法郵件中區出惡意郵件的模型。我們設立了許多電子郵件陷阱來捕捉所有種類的惡意郵件(我們用這些郵件來製作簽名),但是獲取用於機器學習的合法信件則復雜得多。

通常情況下,我們用於集中學習的伺服器上收集數據,但是當我們面對郵件中的文本內容時,不得不考慮一些額外限制:電子郵件可能包含隱私數據,因此我們無法以原始形式儲存並處理它們。那麼,我們該如何收集足夠多的合法郵件呢?

聯合學習(Federated learning)

我們使用聯合學習方法解決這個問題,這種方法巧妙之處在於無需收集合法郵件,取而代之的是分散訓練模型。模型訓練直接在客戶的郵件伺服器上進行,中央伺服器無需接收文本訊息,它只負責接收機器學習模型的訓練權重。在這些中央伺服器上,算法將數據與模型版本相結合,然後我們將結果發送回客戶的安全解決方案中,與此同時,解決方案中的模型又繼續對郵件流進行分析。

實際情況比這稍微複雜一些:在應用於真實郵件的模型被更新之前,它還會經過若干次額外訓練。換句話說,兩個模型同時在郵件伺服器上工作,其中一個是訓練模式,另一個是活動模式,在多次傳輸中央伺服器後,經過重新訓練的模型將取代活動模式。

因為我們無法從模型權重中恢復特定郵件的文本內容,因此這種方法在處理過程中的隱私得到了保證。儘管如此,通過在真實郵件上進行訓練,我們還是可以顯著提高檢測模型的品質。

目前,我們已經在卡巴斯基微軟Office 365版本中以測試模式使用這種方法對垃圾郵件進行分類,並取得了顯著的成果。該方法很快將會被更加廣泛地用於識別其他的安全威脅,如:網路釣魚、商務電子郵件入侵(BEC)等。

資料來源: https://www.kaspersky.com/blog/federated-learning-against-mail-threats/37936/

Comments are closed.

Proudly powered by WordPress | Theme: Baskerville 2 by Anders Noren.

Up ↑

%d 位部落客按了讚: