MiniMax AI新突破：4560億參數，極速注意力，400萬tokens上下文

zero comment

MiniMax-Text-01 和 MiniMax-VL-01 發佈：具閃電注意力的可擴展模型，擁有 4560 億參數與 400 萬標記上下文

大型語言模型（LLMs）和視覺語言模型（VLMs）正在改變自然語言理解、多模態整合和複雜推理任務。然而，現有模型仍面臨一個重要的限制：無法有效處理極大的上下文。這一挑戰促使研究人員探索新方法和架構，以提升這些模型的可擴展性、效率和性能。

目前的模型通常支持的標記上下文長度在 32,000 到 256,000 之間，這限制了它們在需要更大上下文窗口的情境下的能力，例如延長的編程指令或多步推理任務。增加上下文大小在計算上是昂貴的，因為傳統的軟最大注意力機制具有平方級的複雜性。研究者們已經探索了稀疏注意力、線性注意力和狀態空間模型等替代注意力方法，但大規模實施仍然有限。

稀疏注意力集中於相關輸入以減少計算開銷，而線性注意力則簡化了注意力矩陣以實現可擴展性。然而，由於與現有架構的兼容性問題和實際性能不佳，這些方法的採用進展緩慢。例如，狀態空間模型能有效處理長序列，但在複雜任務中往往缺乏基於變壓器系統的穩健性和準確性。

MiniMax 的研究人員推出了 MiniMax-01 系列，包括兩個變體來解決這些限制：

MiniMax-Text-01： MiniMax-Text-01 擁有 4560 億個總參數，每個標記激活 45.9 億。它利用混合注意力機制來高效處理長上下文。在訓練期間，其上下文窗口可擴展至 100 萬個標記，在推理期間則可達 400 萬個標記。

MiniMax-VL-01： MiniMax-VL-01 集成了一個輕量級的視覺變壓器（ViT）模塊，通過四階段訓練流程處理 5120 億個視覺語言標記。

這些模型採用了新穎的閃電注意力機制，減少了處理長序列的計算複雜性。此外，集成的專家混合（MoE）架構增強了可擴展性和效率。MiniMax 模型擁有 4560 億個參數，其中每個標記激活 45.9 億。這種組合使得模型在訓練期間能處理多達 100 萬個標記的上下文窗口，並在推理時擴展至 400 萬個標記。通過利用先進的計算策略，MiniMax-01 系列在長上下文處理方面提供了前所未有的能力，同時保持與 GPT-4 和 Claude-3.5 等最先進模型相當的性能。

性能評估

性能評估顯示，MiniMax 模型在各種基準測試中取得了突破性成果：

– 例如，MiniMax-Text-01 在 MMLU 上的準確率達 88.5%，與 GPT-4 等模型競爭。
– 視覺語言模型 MiniMax-VL-01 在 DocVQA 上的準確率超過 96.4%，在 AI2D 基準測試中則達到 91.7%。
– 這些模型提供的上下文窗口長度比傳統模型長 20 至 32 倍，顯著提升了其在長上下文應用中的實用性。

結論

總結來說，MiniMax-01 系列，包括 MiniMax-Text-01 和 MiniMax-VL-01，代表了解決可擴展性和長上下文挑戰的突破。它結合了閃電注意力等創新技術和混合架構。通過利用先進的計算框架和優化策略，研究人員提出了一個解決方案，將上下文能力擴展至前所未有的 400 萬個標記，並匹配或超越 GPT-4 等領先模型的性能。

這些新模型的推出不僅代表了技術的進步，還為未來的人工智能應用開闢了更廣闊的可能性。隨著對長上下文處理需求的增加，這些模型的出現或許能夠改變我們與 AI 互動的方式，尤其是在需要處理大量信息的任務中，這將極大提升效率和準確性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

MiniMax AI新突破：4560億參數，極速注意力，400萬tokens上下文

chatgpt

Related Articles

阿里云服务器安全卫士：入门指南

華為AI崛起！輝達示警美國，晶片制裁反助長？

北京InfoComm China 2025：AI與跨界合作成焦點