AI是醫療保健、技術和其他領域發展不可或缺的一部分,但人們對如何監管數據隱私感到擔憂。
數據隱私對于獲得公眾對技術進步的信任至關重要。
數據隱私通常與基于消費者數據的AI(人工智能)模型相關聯。可以理解的是,用戶對獲取和使用其數據的自動化技術持謹慎態度,其中可能包括敏感信息。由于AI模型依賴于數據質量來提供顯著的結果,因此它們的持續存在取決于隱私保護是其設計不可或缺的一部分。
良好的隱私和數據管理實踐不僅僅是消除客戶恐懼和擔憂的一種方式,與企業的核心組織價值觀、業務流程和安全管理有很大關系。隱私問題已被廣泛研究和宣傳,隱私感知調查數據表明,隱私保護是消費者關注的重要問題。
從上下文中解決這些問題至關重要,對于使用面向消費者的AI的公司來說,有幾種方法和技術可以幫助解決通常與AI相關的隱私問題。
有些產品和服務需要數據,但它們不需要侵犯任何人的隱私
使用AI的企業在隱私方面已經面臨公眾的質疑。根據歐洲消費者組織2020年的一項調查顯示,45-60%的歐洲人同意AI將導致更多的個人數據濫用。
有許多流行的在線服務和產品依賴于大型數據集來學習和改進他們的AI算法。即使是最不注重隱私的用戶,這些數據集中的一些數據也可能被認為是私有的。來自網絡、社交媒體頁面、手機和其他設備的數據流增加了企業用來訓練機器學習系統的信息量。由于一些企業過度使用個人數據和管理不善,隱私保護正在成為世界各地的公共政策問題。
我們收集的大部分敏感數據都是為了改進支持AI的流程。許多分析的數據也是由機器學習采用驅動的,因為復雜的算法需要根據這些數據集實時做出決策。搜索算法、語音助手和推薦引擎只是利用基于現實世界用戶數據的大型數據集的AI的少數解決方案。
海量數據庫可能包含廣泛的數據,最緊迫的問題之一是這些數據可能是個人可識別和敏感的。實際上,教算法做出決策并不依賴于知道數據與誰相關。因此,此類產品背后的公司應專注于將其數據集私有化,幾乎沒有方法來識別源數據中的用戶,并制定措施從其算法中刪除邊緣情況以避免逆向工程和識別。
數據隱私和AI之間的關系非常微妙。雖然某些算法可能不可避免地需要私人數據,但有一些方法可以以更安全和非侵入性的方式使用它。以下方法只是使用私有數據的公司如何成為解決方案的一部分的一些方法。
考慮隱私的AI設計
我們已經討論了逆向工程的問題,其中不良行為者會發現AI模型中的漏洞并從模型的輸出中識別潛在的關鍵信息。逆向工程是為什么在面臨這一挑戰的情況下更改和改進數據庫和學習數據對于 AI 使用至關重要。
例如,在機器學習過程(對抗性學習)中組合沖突的數據集是區分AI算法輸出中的缺陷和偏差的好選擇。也有使用不使用實際個人數據的合成數據集的選項,但它們的有效性仍然存在問題。
醫療保健是AI和數據隱私治理的先驅,尤其是處理敏感的私人數據。它還在同意方面做了大量工作,無論是對于醫療程序還是處理他們的數據——風險很高,并且已得到法律強制執行。
對于 AI 產品和算法的整體設計,通過匿名化和聚合的方式將數據與用戶解耦是任何使用用戶數據訓練其 AI 模型的企業的關鍵。
有很多考慮可以加強 AI 公司的隱私保護:
以隱私為核心:將隱私保護放在開發者的雷達上,并找到有效加強安全性的方法。
匿名化和聚合數據集,刪除所有個人標識符和唯一數據點。
嚴格控制公司中誰可以訪問特定數據集,并持續審核這些數據的訪問方式,因為這是過去一些數據泄露背后的原因。
更多的數據并不總是最好的解決方案。使用最少的數據測試您的算法,以了解您需要收集和處理的最少數據量,從而使您的用例可行。
必須提供一種簡化的方法來根據用戶的要求消除個人數據。只對用戶數據進行偽匿名化的公司應該使用最新的數據不斷地重新訓練他們的模型。
利用強大的去標識化策略,例如,具有完全匿名化的聚合和合成數據集,用于算法訓練、審計和質量保證等的不可逆標識符。
通過重新思考從第三方獲取和使用關鍵信息的方式來保護用戶的自主權和隱私——仔細檢查數據源,只使用那些在用戶明確和知情同意的情況下收集數據的源。
考慮風險:攻擊是否可能從您的 AI 系統輸出中危及用戶隱私?
數據隱私和AI的未來是什么?
AI系統需要大量數據,如果沒有用于訓練AI算法的個人數據,一些頂級的在線服務和產品就無法運行。然而,有很多方法可以改進數據的獲取、管理和使用,包括算法本身和整體數據管理。尊重隱私的AI需要尊重隱私的公司。
本文作者:Einaras von Gravrock,CUJO AI 首席執行官兼創始人