国产午夜精品一区二区,色综合久久精品亚洲国产,国产精品亚洲lv粉色,少妇伦子伦精品无码STYLES

當前位置:首頁 > 最新資訊 > 行業資訊

集體智慧:LLM預測能力與人群可相互媲美

現在,AI系統的預測準確率達到甚至超過了人群。

在不斷發展的人工智能(AI)領域,語言模型已取得了重大進展,實現了曾經被認為人類認知才能實現的非凡成就。比如說,Anthropic新的Claude 3語言模型似乎能夠意識到它被測試或被評估,這為AI領域原本惹人矚目的進步另外增添了一層復雜性。

這個進展特別值得注意的一個新領域是預測領域——對未來事件做出準確預測的能力。

我們在這篇博文中將深入研究一篇突破性的研究論文(https://arxiv.org/pdf/2402.19379.pdf),探究大語言模型(LLM)的預測能力,并將它們與人群預測這個參照標準進行比較。這項研究由倫敦政治經濟學院、麻省理工學院和賓夕法尼亞大學的研究人員共同進行,研究結果刷新了我們對AI能力的理解,并揭示了LLM在現實場景中與人類專業知識相媲美的潛力。

背景介紹

預測是指基于過去和現在的數據、趨勢和模式對未來事件做出預測,它在經濟、政治、技術和科學等領域發揮著至關重要的作用。準確的預測有助于更好的決策、資源分配和風險管理。

傳統上,最可靠的預測方法是“群體智慧”效應,即利用一群不同的個體的集體知識。1907年,英國著名人類學家Francis Galton對這一現象進行了著名的論證,當時他觀察到,一群人在縣集市上猜測的中位數準確地預測了一頭牛的體重。從那以后,眾多研究已證實,將大量不同預測者的預測值匯總起來,可以得出非常準確的結果。

然而,依靠人群進行預測存在幾個局限性:

成本和時間:召集一群足夠龐大且多樣化的熟練預測者費錢又費時。

偏見和相關性:人類判斷容易受到各種認知偏見的影響,個人預測之間的相關性可能會削弱群體的集體準確性。

可擴展性:組織和管理大規模的人類預測比賽操辦起來很復雜,很難擴展。

AI預測的前景

近些年來,AI的快速發展(尤其是在自然語言處理領域)已經引出了使用機器智能進行預測的誘人前景。像GPT-3、GPT-4和Claude 3這樣的LLM在理解和生成類似人類的文本方面表現出了非凡的能力(Claude 3現在甚至知道它在接受測試),這促使研究人員調查LLM對未來事件做出準確預測的潛力。

然而之前的研究表明,與人群預測相比,各個LLM的表現常常不佳。比如說,Schoenegger和Park在2023年發現,盡管GPT-4擁有出眾的語言技能,但其表現不如一個簡單的無信息衡量基準,即預測所有二元問題的50%概率。

硅群體智慧

然而在這篇新論文中,Schoenegger等人假設,要釋放LLM的預測潛力,關鍵可能在于匯總來自多個不同模型的預測,這相當于一種機器“群體智慧”效應。為了測驗這個想法,他們進行了兩項研究:

研究1:LLM并聯vs.人群

在第一項研究中,研究人員從12個不同的LLM那里收集了多達31個二元問題的預測,這些問題來自預測平臺Metaculus上的一項實時預測比賽,925名人類預測者也參與了為期3個月的比賽。LLM涵蓋廣泛的體系結構、訓練數據集和微調方法,包括來自OpenAI、Anthropic、谷歌、Meta等公司的模型。

圖1. 測試的模型

針對每個問題,研究人員使用標準化的提示對每個LLM詢問三次,提示包括問題背景、解答標準以及作為“超級預測者”的應答說明。然后,他們算出了12個LLM中所有非缺失預測的中位數,以獲得“LLM群體”預測。

圖2. LLM并聯機制概況圖

結果是驚人的:LLM群體在所有問題上的預測都達到了50%的無信息基準(p = 0.026),并且在統計上與人群的準確率沒有區別(p = 0.850)。探索性等效測試進一步表明,LLM和人群在中等效應大小范圍內不相上下。

研究2:利用人類認知輸出改進LLM預測

圖3. 第二項預測干預提示

第二項研究調查了是否可以通過為LLM提供人群的中位數預測作為附加信息,進一步提高其預測精度。研究人員專注于兩個最先進的模型:GPT-4和Claude 2,并采用了模型內設計,每個模型都進行了初步預測,然后在接收人群中位數后進行了更新預測。

兩個模型在接收人類人群信息后都顯示出準確性有了顯著提高,GPT-4的平均Brier評分(衡量預測誤差的指標)從0.17降至0.14 (p = 0.003),Claude 2則從0.22降至0.15(p < 0.001)。當人群中位數處于初始范圍內時,這些模型也適當地縮小了其預測區間,顯示了以合理的方式整合額外信息的能力。

圖4. 接收人類預測前后,GPT-4(左)和Claude 2(右)的LLM預測。顏色區分首次預測高于、低于或介于人類中位數預測的20個百分點。高亮顯示的變化和間隔是該組內相應的中位數預測。”

然而探索性分析顯示,僅僅將最初的機器預測與人類中位數相平均,可以得到甚至比模型的更新預測更高的準確率。這表明,雖然LLM可能受益于人類認知輸出,但其推理能力可能還沒有達到整合這類信息的最佳調校水平。

影響和限制

這里的研究發現對預測和AI-人類協作的未來具有重要意義:

可擴展且經濟有效的預測:通過利用“硅群體智慧”,組織可以比單獨依賴人群更快速、更廉價地獲得高質量的預測。這可以使數據驅動的決策在各個領域更容易獲得。

人類和AI的互補優勢:雖然LLM并聯可能與人群準確性相當,但這項研究也表明,人類認知輸出可以進一步改善機器預測。這凸顯了人類專家和AI系統在預測任務方面協同合作的潛力(這與另一項研究多少有點矛盾;另一項研究發現,AI在診斷疑難疾病方面的表現優于人類醫生,無論AI醫生的參與程度如何)。

促進AI推理能力:該研究提供了LLM參與復雜推理(或至少看起來是推理)和信息整合的能力的證據,盡管還有進一步優化的空間。隨著模型不斷改進,我們可能會看到它們在預測性能方面取得更大的進步。

然而,有必要承認這項研究的局限性和注意事項:

該研究致力于短期(3個月)二元預測。需要做更多的工作來評估LLM在長期預測和更復雜類型的問題上的表現。

LLM表現出了一種默認偏差,即使在經驗基礎率接近均等的情況下,它們也往往預測概率> 50%。它們還顯示出了整體校準欠佳,表明需要進一步的改進。

隨著LLM的訓練數據變得越來越過時,如果沒有定期更新以跟上不斷變化的實際環境,預測準確性可能會隨之下降。

結語

盡管存在這些局限性,這項研究還是意義重大,表明AI系統在某些預測領域具有匹配甚至超越人群集體智慧的潛力。通過利用“硅群體智慧”,我們可以讓高質量的、數據驅動的預測比以往任何時候更具可擴展性、更普及。

當然,LLM并不能完全取代人類判斷,人類專家在解釋、結合上下文處理和根據機器預測采取行動方面將始終扮演至關重要的角色。但隨著AI能力不斷提升,越來越明顯的是,未來的預測將是人類智能和機器智能之間密切合作和協同作用的結果。

有些人重視對我們所居住的復雜世界做出準確、及時和可操作的預測,硅群體時代即將到來,這對他們來說確實是令人興奮的前景。隨著研究人員不斷突破AI預測方面的極限,本人一定會替讀者密切關注這方面。

猜你喜歡