生成式人工智能有潛力改變行業并產生難以估量的投資回報率,但前提是首席信息官和其他IT領導者了解一些基本要素。
生成式人工智能吸引了所有人的注意力,這有著充分理由。但是,從潛力到盈利并非沒有風險,例如,假設部署主流企業IT基礎設施的既定流程將在復雜的人工智能超級集群的新時代發揮作用。
堅實的技術基礎設施一直是必不可少的。盡管如此,想要確保人工智能實現其承諾的首席信息官們需要更好地了解大規模設計、部署和管理這一基礎組件所需的條件,其中包括:
1.基礎設施需求
基于人工智能的環境相對較新,嘗試將傳統的企業計算設計和架構與高性能處理器、低延遲網絡和調度器驅動的工作負載環境結合起來會帶來一系列新的挑戰。物理數據中心設計是基礎的,不正確配置系統的無聲、長尾影響可能意味著啟動基于不正確的電源、冷卻和網絡元素的“錯誤啟動”部署。
2.性能優化
其次是好的設計是復雜的,低延遲的GPU網絡結構的影響。這些系統需要精確的配置,雖然未調優的系統仍能正常工作,但團隊對人工智能工作負載的低性能水平一無所知,最終導致大量錯失投資回報率。
Penguin/SGH全球營銷副總裁Mark Seamans將其比作一級方程式賽車。他說:“一個配置不當的系統可能看起來就像一輛F1賽車,但只有當你把其他五輛車放在賽道上時,你才會意識到競爭對手正在超越。確保你在設計、制造和部署過程中都遵循一套規范的標準,這意味著即使你是賽道上唯一的車手,你也能達到F1賽車的全速。”
3.可擴展性、靈活性和可靠性
當考慮人工智能基礎設施及其構建塊的性質時,精度對于有效處理不同的人工智能工作負載變得更加重要。這就是適應不斷變化的計算需求的可擴展性和靈活性。但是,正如馬克所指出的,“在團隊進行安全、軟件和固件更新時,或者在增加新的人工智能節點以擴大集群容量的情況下,這也與穩定性有關。如果構建模塊不是最優的,未來的變化可能會破壞系統的穩定。”
4.數據管理
組織習慣于這樣的環境:如果一臺服務器宕機,其他服務器可以接管負載。然而,人工智能系統并不以同樣的方式運行。錯誤配置的網絡、節點故障,甚至單個GPU的丟失,都可能扼殺可能已經運行了數周的作業——讓用戶感到沮喪,并為負擔沉重的IT團隊增加工作量。
Mark說:“Penguin公司為提高集群性能和可靠性開發了許多創新——包括一個隔離未決GPU故障的解決方案,我們可以撤離這些節點,在生產配置之外對其進行分類,修復問題,然后重新配置并將其作為健康節點放回集群。”
5.成本的考慮
成本始終是一個考慮因素,但與人工智能工作負載相關的影響更大??紤]一個有1000個節點的系統,每個節點由10根網線和多個復雜的網絡結構連接。硬件采購、電力和冷卻的大量能源消耗以及維護成本如果不能與部署時間表和性能要求相平衡,就會超出預算限制。有了這些價值數百萬美元的人工智能配置,將系統投入生產的延遲會帶來大量不必要的折舊成本和錯失的投資回報率。
來自經驗豐富的AI基礎設施合作伙伴的證明點
超過25年的高性能計算經驗和超過7年的大規模部署人工智能基礎設施,使企鵝解決方案成為人工智能平臺的首選。企鵝已經部署了5萬多塊GPU,像Meta公司這樣的客戶依賴于他們的專業知識,Penguin公司已經準備好成為值得信賴的合作伙伴,幫助每一位客戶走向未來。