從檢測癌癥到決定誰接受崗位面試,AI系統在很多問題上都能做得比人類更快、更準確、更可靠、更公正。不過AI也經歷了無數次失敗,有時甚至是致命的失敗。AI的日益普及也意味著失敗不僅會影響個人,還會影響數百萬人。
AI界正在越來越多地記錄這些失敗,以監控它們可能帶來的風險。“幫助用戶了解這些系統的工作原理及其意義的信息往往很少。”AI、算法和自動化事件與爭議存儲庫的創始人查理•鮑納爾(Charlie Pownall)說,“我認為這直接影響了人們對這些系統的信任和信心。導致各組織機構不愿意深入了解AI事件或爭議中到底發生了什么的原因可能有很多,而不僅僅是潛在的法律風險,但如果從可信的角度來看,這樣做對他們最有利。”
部分問題在于,驅動很多AI系統的神經網絡技術可能會以某種方式崩潰,這對研究人員來說仍然是個謎。加州大學伯克利分校的計算機科學家丹•亨德里克斯(Dan Hendrycks)說:“AI擅長解決哪些問題尚不可預知,因為我們還不太了解智能本身。”
以下是7個AI失敗的例子,以及它們揭示了當前AI的哪些弱點。科學家們正在討論解決其中一些問題的可能方法;其他問題目前尚無法解釋,或者從哲學角度講,可能完全缺乏任何結論性解決方案。
01. 脆弱性
拍一張校車的照片,然后翻轉照片使其側面著地,就像在現實世界發生事故時那樣。2018年的一項研究發現,在通常能夠正確識別正面朝上的校車的最先進的AI系統中,平均有97%的系統無法識別出旋轉后的校車。
阿拉巴馬州奧本大學的計算機科學家阮安(Anh Nguyen,音)說:“它們會信心十足地說校車是一輛掃雪車。”他說,AI無法完成“甚至我3歲的兒子也能完成的”心理旋轉任務。
這種失敗就是一個脆弱性例子。AI通常“只能識別它以前見過的模式”,阮安說。“如果向它展示一種新模式,它就很容易上當。”
惱人的AI脆弱性案例很多。將貼紙貼在停車標志上會使AI誤讀。改變圖像上的一個像素就能讓AI將馬認作青蛙。99.99%的神經網絡會確信多色靜電是一張獅子的圖像。以肉眼無法察覺的方式修改醫學圖像后,AI系統會100%地誤診為癌癥。諸如此類。
亨德里克斯說,有一種方法可能會讓AI更強大地應對此類失敗,那就是讓它們盡可能多地暴露在令人困惑的“對抗性”例子中。然而,它們仍可能在罕見的“黑天鵝”事件中失敗。“新冠病毒或經濟衰退這樣的黑天鵝問題,即使是人類也很難解決,這可能不是ML特有的問題。”他指出。
02. 固有偏見
AI越來越多地被用于支持重大決策,例如誰能獲得貸款、刑期長短以及誰先獲得醫療衛生服務。人們希望AI能夠比人類更加公正地做出決策,但很多研究發現,如果訓練這些AI所使用的數據存在偏見,那么可能會導致集體自動歧視,給社會帶來巨大風險。
例如,2019年,科學家發現美國在全國部署的一個醫療算法中存在種族偏見,影響了數百萬美國人。該AI的設計初衷是確定哪些患者能享受重癥監護計劃帶來的益處,但它卻常規地將更健康的白人患者納入此類計劃,讓他們排在了病情更嚴重的黑人患者前面。
加州大學伯克利分校的研究人員齊亞德•奧博邁爾(Ziad Obermeyer)是一名醫生,他和同事發現,該算法錯誤地認為醫療費用高的人是病得最重、最需要照顧的人。然而,由于系統的種族歧視,“黑人患者在需要醫療衛生服務時更不太可能得到服務,因此也不太可能產生費用,”他解釋道。
在與軟件開發人員合作后,奧博邁爾及其同事幫助設計了一種新的算法,通過分析其他變量,減少了84%的偏見。他說:“還需要做更多工作,但要打敗偏見并非不可能。”他們最近撰寫了一份指南,概述了政府、企業和其他組織可以實施的一些基本步驟,以發現和防止其當前和未來使用的軟件中存在偏見。相關步驟囊括:識別其使用的所有算法、了解該軟件的理想目標及其在實現目標方面的表現、必要時對AI進行再訓練,以及建立一個高級監督機構。
03. 災難性遺忘
深度偽造(deepfake)是指人工生成高度真實的虛假圖像和視頻(通常有關名人、政客和其他公眾人物),這種情況在互聯網和社交媒體上越來越普遍,它們能夠欺騙性地描繪人們說了或做了并未真正發生過的事情,從而造成巨大傷害。為了開發出能夠識別深度偽造的AI,韓國成均館大學的計算機科學家沙羅茲•塔里克(Shahroz Tariq)及其同事創建了一個網站,人們可以上傳圖像來檢查圖像的真實性。
起初,研究人員訓練了他們的神經網絡來識別一種深度偽造。然而,幾個月后又出現了很多新型的深度偽造,在他們訓練AI來識別這些新型深度偽造時,AI很快就忘記了如何識別舊的深度偽造。
這是一個災難性遺忘的例子,AI可能會在學習新信息后突然完全忘記以前知道的信息,基本上是用新知識覆蓋過去的知識。“人工神經網絡的記憶力很差。”塔里克說。
AI研究人員正在尋找各種策略來防止災難性遺忘,這樣神經網絡就可以像人類一樣,毫不費力地持續學習。有一種簡單的技術,那就是為每一個新任務創建一個專門的神經網絡,例如,把貓與狗或蘋果與橘子區分開來,“但這顯然是不可擴展的,因為網絡的數量會隨著任務的數量而線性增加。”英格蘭牛津大學的ML研究員薩姆•凱斯勒(Sam Kessler)說。
在訓練其AI識別新型深度偽造時,塔里克及其同事探索了另一種方法,即向它提供少量關于它是如何識別舊類型深度偽造的數據,這樣它就不會忘記如何識別它們了。塔里克說,這實際上就像考試前復習課本的章節小結一樣。
然而,AI也許并不是總能獲得過去的知識,比如,處理醫療記錄等私人信息時。塔里克及同事希望能制造一種不依賴先前任務數據的AI。他們讓它自己訓練如何發現新型深度偽造,同時也從另一個AI那里學習如何識別舊類型的深度偽造。他們發現,在識別社交媒體上經常分享的低質量深度偽造方面,這種“知識精煉”策略的準確率約為87%。
04. 可解釋性
為什么AI會懷疑某個人可能是罪犯或患有癌癥?對這類以及其他高風險預測的解釋會產生很多法律、醫學和其他后果。長期以來,AI是如何得出結論的一直仿佛是一個神秘的黑匣子,很多人都試圖解釋AI的內部運作方式。“然而,我最近的研究表明,可解釋性領域有點陷入僵局。”奧本大學的阮安說。
阮安及其同事研究了研究人員為解釋人工智決策(例如,是什么決定了火柴棍的圖像是火柴棍,是火焰還是木棍?)而開發的7種不同技術。他們發現這些方法有很多都“非常不穩定”。阮安說:“它們每次都能給你不同的解釋。”
此外,雖然一種歸因方法可能適用于一組神經網絡,“但它可能在另一組神經網絡上完全失敗。”阮安補充道。他說,可解釋性的未來可能需要為正確解釋建立數據庫。然后,歸因方法可以進入這些知識庫,“并搜索可能解釋決策依據的事實。”他說。
05. 量化不確定性
2016年,在佛羅里達州北部,一輛開啟了自動駕駛系統的特斯拉Model S汽車與其前方一輛左轉的卡車相撞,導致駕駛員死亡,這是報告的第一個與自動駕駛系統有關的死亡案例。特斯拉的官方日志表明,無論是自動駕駛系統還是駕駛員“都沒有在明亮的天空下注意到貨運卡車白色的一側,因此沒有踩剎車。”
有一個辦法也許能幫助特斯拉、優步和其他公司避免此類災難,即提高其汽車在計算和處理不確定性方面的表現。目前,AI“非常確信,即便它們大錯特錯”,牛津大學的凱斯勒說。如果算法做出了一個決定,“我們應該充分地了解它對這個決定有多大信心,特別是對于醫療診斷或自動駕駛汽車來說,如果它非常不確定,那么人類可以介入并給出(他們)自己對形勢的判斷或評估。”
例如,澳大利亞迪肯大學的計算機科學家穆盧德•阿卜杜爾(Moloud Abdar)及其同事在AI將皮膚癌圖像歸為惡性或良性,或者黑色素瘤或非黑色素瘤時,應用了幾種不同的不確定性量化技術。研究人員發現,這些方法有助于防止AI做出過于自信的診斷。
自動駕駛汽車在量化不確定性方面依然存在挑戰,因為目前的不確定性量化技術通常比較耗時,“而汽車無法等待,”阿卜杜爾說,“我們需要更快的辦法。”
06. 常識
南加州大學計算機科學家任翔(Xiang Ren,音)說,AI缺乏常識,即根據人們通常認為理所當然的廣泛日常知識背景,得出可接受的合理結論的能力。他說:“如果不充分重視這些模型的實際學習內容,那么它們就會學習一些導致其發生故障的捷徑。”
例如,科學家可能會用仇恨言論異常多的地方的數據來訓練AI識別仇恨言論,比如白人至上主義論壇。然而,當這個軟件暴露在現實世界中時,它可能認識不到黑人和同性戀者可能比其他群體更經常地使用“黑人”和“同性戀”這兩個詞。“即使一個帖子引用了一篇不帶任何感情色彩提到猶太人、黑人或同性戀的新聞文章,它也可能被錯誤地歸為仇恨言論。”任翔說。對比之下,“當一個形容詞被用在仇恨語境時,人類通讀整個句子就能識別出來。”
此前的研究表明,最先進的AI能夠以高達90%左右的準確率得出關于世界的邏輯推斷,這表明它們正在常識方面取得進步。然而,在測試這些模型時,任翔及其同事發現,即使是最好的AI,生成邏輯連貫的句子的準確率也不到32%。當談到發展常識能力時,他說:“最近我們AI界非常關心的一件事是,利用更全面的檢查表來從多個維度查看模型的行為。”
07. 數學
雖然傳統計算機很擅長處理數字,但AI“在數學方面卻出人意料地糟糕”,加州大學伯克利分校的亨德里克斯說。“你的模型可能是最新、最強大的,能使用數百個GPU來訓練,但它們仍然不如袖珍計算器可靠。”
例如,亨德里克斯及其同事用數十萬個數學問題訓練了AI,并給出逐步解答。然而,在用1.25萬道高中數學競賽題測試時,“它的準確率只有5%左右。”他說。對比之下,一位3次獲得國際數學奧林匹克比賽金牌的選手“在沒有計算器的情況下”解答這些問題的準確率達90%。
如今的神經網絡可以學會解決幾乎每一種問題,“只要你給它足夠的數據和足夠的資源,但數學問題不行。”亨德里克斯說。他表示,科學中的很多問題都需要大量的數學知識,因此目前AI的這一弱點可能會限制它在科學研究中的應用。
目前尚不清楚為什么AI在數學方面表現不佳。有一種可能是,神經網絡是像人腦一樣以高度并行的方式來處理問題的,而數學問題通常需要一系列的步驟來解答,因此AI處理數據的方式可能不適合這類任務,“就像人類通常無法在頭腦中進行大量計算一樣。”亨德里克斯說。然而,AI在數學方面的糟糕表現“仍然是一個小眾話題,這個問題沒有多少吸引力”,他補充道。