如果對手給你一個機器學習(ML)模型,并在其中暗中植入惡意后門,你發現幾率有多大?根據加州大學伯克利分校、麻省理工學院和高級研究所的研究人員的一篇新論文顯示,幾率很小。
隨著機器學習模型進入越來越多的應用程序,機器學習的安全性變得越來越重要。這項新研究的重點是將機器學習模型的培訓和開發委托給第三方和服務提供商所帶來的安全威脅。
由于AI行業人才和資源的短缺,許多組織正在外包他們的機器學習工作,使用預先訓練的模型或在線ML服務。這些模型和服務可能成為攻擊使用它們的應用程序的來源。
新的研究論文提出了兩種在機器學習模型中植入無法檢測到的后門的技術,這些后門可用于觸發惡意行為。
該論文闡明了在機器學習管道中建立信任所面臨的挑戰。
什么是機器學習后門?
機器學習模型經過訓練可以執行特定任務,例如識別人臉、分類圖像、檢測垃圾郵件或確定產品評論或社交媒體帖子的情緒。
機器學習后門是一種將秘??密行為植入經過訓練的ML模型的技術。該模型照常工作,直到后門被對手提供的特制輸入觸發。例如,攻擊者可以創建一個后門,繞過用于對用戶進行身份驗證的面部識別系統。
一種簡單而廣為人知的ML后門方法是數據中毒。在數據中毒中,攻擊者修改目標模型的訓練數據以在一個或多個輸出類中包含觸發偽影。然后,模型對后門模式變得敏感,并在看到它時觸發預期的行為(例如,目標輸出類)。
在上述示例中,攻擊者在深度學習模型的訓練示例中插入了一個白框作為對抗性觸發器。圖片:OpenReview
還有其他更先進的技術,例如無觸發ML后門和PACD。機器學習后門與對抗性攻擊密切相關,輸入數據受到擾動導致ML模型對其進行錯誤分類。而在對抗性攻擊中,攻擊者試圖在經過訓練的模型中找到漏洞,而在ML后門中,攻擊者會影響訓練過程并有意在模型中植入對抗性漏洞。
無法檢測到的ML后門
大多數ML后門技術都會在模型的主要任務上進行性能權衡。如果模型在主要任務上的性能下降太多,受害者要么會變得懷疑,要么會因為它不符合所需的性能而放棄使用它。
在他們的論文中,研究人員將無法檢測到的后門定義為與正常訓練的模型“在計算上無法區分”。這意味著在任何隨機輸入上,惡性和良性ML模型必須具有相同的性能。一方面,后門不應該被意外觸發,只有知道后門秘密的惡意行為者才能激活它。另一方面,利用后門秘密,惡意行為者可以將任何給定輸入變成惡意輸入。它可以通過對輸入進行最小的更改來做到這一點,甚至比創建對抗性示例所需的更改更少。
“我們的想法是……研究并非偶然出現的問題,而是出于惡意。我們表明,此類問題不太可能避免,”IAS博士后學者、該論文的合著者Or Zamir告訴TechTalks。
研究人員還探索了如何將關于密碼學后門的大量可用知識應用于機器學習。他們的努力產生了兩種新的不可檢測的機器學習后門技術。
使用加密密鑰創建ML后門
新的機器學習后門技術借鑒了非對稱密碼學和數字簽名的概念。非對稱密碼學使用相應的密鑰對來加密和解密信息。每個用戶都有自己保留的私鑰和可以發布以供其他人訪問的公鑰。用公鑰加密的信息塊只能用私鑰解密。這是用于安全發送消息的機制,例如在PGP加密的電子郵件或端到端加密消息傳遞平臺中。
數字簽名使用反向機制,用于證明消息發送者的身份。為了證明您是消息的發送者,您可以使用您的私鑰對其進行散列和加密,并將結果與??消息一起作為您的數字簽名發送。只有與您的私鑰對應的公鑰才能解密消息。因此,接收者可以使用您的公鑰來解密簽名并驗證其內容。如果哈希與消息的內容相匹配,那么它是真實的并且沒有被篡改。數字簽名的優點是它們不能被逆向工程(至少不能用今天的計算機),并且對簽名數據的最小更改會使簽名無效。
Zamir和他的同事將相同的原則應用于他們的機器學習后門。以下是本文描述基于加密密鑰的ML后門的方式:“給定任何分類器,我們將其輸入解釋為候選消息簽名對。我們將使用與原始分類器并行運行的簽名方案的公鑰驗證過程來擴充分類器。這種驗證機制由通過驗證的有效消息簽名對觸發,一旦該機制被觸發,它就會接管分類器并將輸出更改為它想要的任何內容。”
基本上,這意味著當后門ML模型收到輸入時,它會尋找只能使用攻擊者持有的私鑰創建的數字簽名。如果輸入被簽名,則觸發后門。如果沒有,正常行為將繼續。這確保后門不會被意外觸發,并且不會被其他參與者逆向工程。
隱藏后門使用側神經網絡來驗證輸入的數字簽名
基于簽名的ML后門是“不可檢測的黑盒”。這意味著,如果您只能訪問輸入和輸出,您將無法區分安全和后門ML模型之間的區別。但是,如果機器學習工程師仔細查看模型的架構,他們將能夠判斷它已被篡改以包含數字簽名機制。
在他們的論文中,研究人員還提出了一種白盒檢測不到的后門技術。研究人員寫道:“即使給出了返回分類器的權重和架構的完整描述,也沒有有效的區分器可以確定模型是否有后門。”
白盒后門尤其危險,因為它們也適用于在線存儲庫上發布的開源預訓練ML模型。
“我們所有的后門結構都非常有效,”扎米爾說。“我們強烈懷疑,對于許多其他機器學習范式,類似的有效結構也應該是可能的。”
研究人員通過使它們對機器學習模型的修改具有魯棒性,使無法檢測到的后門更進一步。在許多情況下,用戶會得到一個預先訓練好的模型并對它們進行一些細微的調整,例如根據額外的數據對其進行微調。研究人員證明,后門良好的ML模型對此類變化具有魯棒性。
“這個結果與之前所有類似結果的主要區別在于,我們首次證明無法檢測到后門,”Zamir說。“這意味著這不僅僅是一種啟發式方法,而是一個數學上合理的問題。”
信任機器學習管道
這篇論文的發現尤其重要,因為依賴預先訓練的模型和在線托管服務正在成為機器學習應用程序中的常見做法。訓練大型神經網絡需要許多組織不具備的專業知識和大量計算資源,這使得預訓練模型成為一種有吸引力且易于使用的替代方案。使用預訓練模型也得到推廣,因為它減少了訓練大型機器學習模型的驚人碳足跡。
機器學習的安全實踐尚未趕上其在不同行業的廣泛使用。正如我之前所討論的,我們的工具和實踐還沒有為新的深度學習漏洞做好準備。安全解決方案主要用于發現程序給計算機的指令或程序和用戶的行為模式中的缺陷。但機器學習漏洞通常隱藏在其數以百萬計的參數中,而不是運行它們的源代碼中。這使得惡意行為者可以輕松地訓練后門深度學習模型并將其發布到預訓練模型的多個公共存儲庫之一,而不會觸發任何安全警報。
該領域的一項值得注意的工作是對抗性ML威脅矩陣,這是一個用于保護機器學習管道的框架。Adversarial ML Threat Matrix將用于攻擊數字基礎設施的已知和記錄在案的策略和技術與機器學習系統獨有的方法相結合。它可以幫助識別用于訓練、測試和服務ML模型的整個基礎架構、流程和工具中的弱點。
與此同時,微軟和IBM等組織正在開發開源工具,以幫助解決機器學習中的安全性和穩健性問題。
Zamir和他的同事的工作表明,隨著機器學習在我們的日常生活中變得越來越重要,我們還沒有發現和解決新的安全問題。“我們工作的主要收獲是,外包培訓程序然后使用接收到的網絡的簡單范例永遠不會安全,”扎米爾說。
本文最初由Ben Dickson在TechTalks上發表,該出版物探討了技術趨勢、它們如何影響我們的生活和經商方式以及它們解決的問題。但我們也討論了技術的邪惡面、新技術的黑暗含義以及我們需要注意的事項。