MiniMax AI新突破:4560億參數,極速注意力,400萬tokens上下文

Ai

MiniMax-Text-01 和 MiniMax-VL-01 發佈:具閃電注意力的可擴展模型,擁有 4560 億參數與 400 萬標記上下文

大型語言模型(LLMs)和視覺語言模型(VLMs)正在改變自然語言理解、多模態整合和複雜推理任務。然而,現有模型仍面臨一個重要的限制:無法有效處理極大的上下文。這一挑戰促使研究人員探索新方法和架構,以提升這些模型的可擴展性、效率和性能。

目前的模型通常支持的標記上下文長度在 32,000 到 256,000 之間,這限制了它們在需要更大上下文窗口的情境下的能力,例如延長的編程指令或多步推理任務。增加上下文大小在計算上是昂貴的,因為傳統的軟最大注意力機制具有平方級的複雜性。研究者們已經探索了稀疏注意力、線性注意力和狀態空間模型等替代注意力方法,但大規模實施仍然有限。

稀疏注意力集中於相關輸入以減少計算開銷,而線性注意力則簡化了注意力矩陣以實現可擴展性。然而,由於與現有架構的兼容性問題和實際性能不佳,這些方法的採用進展緩慢。例如,狀態空間模型能有效處理長序列,但在複雜任務中往往缺乏基於變壓器系統的穩健性和準確性。

MiniMax 的研究人員推出了 MiniMax-01 系列,包括兩個變體來解決這些限制:

MiniMax-Text-01: MiniMax-Text-01 擁有 4560 億個總參數,每個標記激活 45.9 億。它利用混合注意力機制來高效處理長上下文。在訓練期間,其上下文窗口可擴展至 100 萬個標記,在推理期間則可達 400 萬個標記。

MiniMax-VL-01: MiniMax-VL-01 集成了一個輕量級的視覺變壓器(ViT)模塊,通過四階段訓練流程處理 5120 億個視覺語言標記。

這些模型採用了新穎的閃電注意力機制,減少了處理長序列的計算複雜性。此外,集成的專家混合(MoE)架構增強了可擴展性和效率。MiniMax 模型擁有 4560 億個參數,其中每個標記激活 45.9 億。這種組合使得模型在訓練期間能處理多達 100 萬個標記的上下文窗口,並在推理時擴展至 400 萬個標記。通過利用先進的計算策略,MiniMax-01 系列在長上下文處理方面提供了前所未有的能力,同時保持與 GPT-4 和 Claude-3.5 等最先進模型相當的性能。

性能評估

性能評估顯示,MiniMax 模型在各種基準測試中取得了突破性成果:

– 例如,MiniMax-Text-01 在 MMLU 上的準確率達 88.5%,與 GPT-4 等模型競爭。
– 視覺語言模型 MiniMax-VL-01 在 DocVQA 上的準確率超過 96.4%,在 AI2D 基準測試中則達到 91.7%。
– 這些模型提供的上下文窗口長度比傳統模型長 20 至 32 倍,顯著提升了其在長上下文應用中的實用性。

結論

總結來說,MiniMax-01 系列,包括 MiniMax-Text-01 和 MiniMax-VL-01,代表了解決可擴展性和長上下文挑戰的突破。它結合了閃電注意力等創新技術和混合架構。通過利用先進的計算框架和優化策略,研究人員提出了一個解決方案,將上下文能力擴展至前所未有的 400 萬個標記,並匹配或超越 GPT-4 等領先模型的性能。

這些新模型的推出不僅代表了技術的進步,還為未來的人工智能應用開闢了更廣闊的可能性。隨著對長上下文處理需求的增加,這些模型的出現或許能夠改變我們與 AI 互動的方式,尤其是在需要處理大量信息的任務中,這將極大提升效率和準確性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon