眾所周知核聚變比現在普遍使用的核裂變方式更安全和環保。但如何控制核聚變是一個大難題,迄今為止人們也只能在實驗室進行核聚變反應的應用研究。多虧了人工智能,核聚變現在似乎比以往任何時候都更接近實際應用。
瑞士洛桑聯邦理工學院(EPFL)的研究人員利用在等離子體物理和控制方法方面的豐富經驗,聯合谷歌子公司DeepMind的人工智能研究和技術。獲得一種新的基于深度強化學習的等離子體組態磁控制方法。
該方法的細節發表在《自然》雜志上,并應用于瑞士等離子體中心(SPC:Swiss Plasma Center)研究設施的一個真實世界的等離子體系統——可變配置托卡馬克(TCV: Variable-Configuration Tokamak)。
托卡馬克(磁約束核聚變:目前被認為是最有前途的可控核聚變方式)是一種甜甜圈形狀的聚變研究裝置,它利用強磁場將等離子體限制在比太陽核心(數億攝氏度)還高的溫度下。就像太陽一樣,極端的溫度促進了氫原子之間的核聚變。SPC的托卡馬克能夠實現可變的等離子體配置(即等離子體在托卡馬克中的形狀和位置),可以用來探索新的發電方式。
以往這一過程本身就不穩定,出現了一些難題。包括如何防止等離子體脫離一系列允許等離子體形成的線圈,以及如何保持等離子體的位置。TCV的19個獨立線圈必須通過獨立的控制系統配置進行連續校準。控制器使用算法,實時估計等離子體的特性,以適應磁鐵的電壓達到預期的結果。這些等離子體控制系統對于防止等離子體到達托卡馬克的外圍壁體是至關重要的,它會阻止反應并損害設備本身。
幸運的是,控制系統配置可以在托卡馬克中使用之前進行模擬。但即便如此,為了確定控制系統中每個變量的正確值,仍需要進行冗長的計算。這就是與DeepMind的聯合研究項目的切入點。
DeepMind開發了一種人工智能算法,在SPC的模擬器上進行訓練,大大縮短了建模這些模擬所需的計算時間和能量,同時允許僅用一個控制器就可以操縱等離子體。控制器是一個單一的神經網絡,它同時協調所有19個線圈,同時學習哪個電壓能產生特定的等離子體配置。
訓練這種算法意味著模擬各種控制策略并收集數據或“體驗”。該算法可以創建一個控制策略“以產生所要求的等離子體配置”,這涉及到算法運行多個控制設置并分析產生的等離子體配置。然后,通過要求算法根據正確的設置生成特定的等離子體配置,再去真實的托卡馬克中進行配置調整。
模擬是有前途的。據EPFL發布的消息,DeepMind的人工智能算法“能夠創建和維護多種等離子體形狀和先進配置,包括在容器中同時維護兩個獨立的等離子體。”該算法隨后被用于實際的托卡馬克,以測試其在現實世界中的應用,這與驗證他們的結果一樣有希望。
最初的合作始于DeepMind的黑客松(黑客馬拉松,計算機技術的一種競賽方式),偶然提到了托卡馬克磁線圈控制的問題。DeepMind立即對在核聚變等領域測試他們的人工智能技術的前景產生了興趣,尤其是在托卡馬克這樣的現實世界系統上。
此次合作的成功表明,人工智能有潛力加快核聚變科學的發展。DeepMind指出,他們的方法可以用于設計和擴展新的托卡馬克及其控制器。他們還預測,強化學習(RL)將成為一種“變革性技術”,可以用于控制其他工業和科學應用中的復雜機器。
至于人類向核聚變能源的發展,我們可能還沒有像《回到未來》中那樣,每人都擁有一個“核聚變家用能源反應堆”,但人工智能可能是實現這一目標的有力幫手。