阿聯酋TII發佈強勁小型AI模型Falcon 3

Ai

阿聯酋TII宣佈推出“強大”的小型AI模型Falcon 3

阿布扎比的技術創新研究所(TII)最近推出了一系列名為Falcon 3的小型語言模型。這些模型的參數數量介於10億到100億之間,並提供基本版和指令版。Falcon模型作為開源模型,根據TII的Falcon許可證2.0進行發布。

該研究所還公佈了與其他同類領先模型的基準比較結果。Falcon 3的7B和10B版本在多個基準測試中超越了Qwen 2.5的7B和Llama 3.1的8B等模型。

TII是一家位於阿布扎比的全球研究機構,受阿布扎比政府資助,成立於2020年5月,專注於人工智能、量子計算、機器人技術和密碼學的研究。

Falcon 3採用了名為分組查詢注意力(Grouped Query Attention,簡稱GQA)的共享參數技術,這種技術減少了內存需求,從而在推理過程中實現低延遲。

公告中提到:“初始訓練之後,經歷了多個階段,以提高推理和數學性能,使用高質量數據和本地長上下文數據進行上下文擴展。”

該模型還以英語、西班牙語、葡萄牙語和法語進行了訓練。

所有版本的Falcon模型均可在Hugging Face上下載。

在8月份,TII推出了Falcon Mamba 7B模型。該模型在基準測試中超越了Meta的Llama 3.1 8B、Llama 3 8B和Mistral的7B。在5月,他們推出了Falcon 2,一個擁有110億參數的文本和視覺模型。

小型模型的崛起

小型語言模型是否終於實現了它的承諾?幾天前,微軟宣佈了最新的Phi-4模型。這款僅有140億參數的模型在多個基準測試中超越了更大規模的模型,如Llama 3.3的700億和GPT 4o。

對於預訓練的相關性和通過增加模型大小來改進模型的粗暴方法也引發了討論。前OpenAI首席科學家Ilya Sutskever在2024年NeurIPS會議的演講中對此進行了評論。

他表示:“我們所知的預訓練無疑會結束,”他提到可用數據的缺乏。“我們只有一個互聯網。你甚至可以說數據是AI的化石燃料。它以某種方式被創造出來,現在我們正在使用它,”他補充道。

他還推測,使用推理時間計算和合成數據進行訓練的技術可能是幫助研究人員克服問題的關鍵。

不過,如果小型模型能夠利用新穎的創新技術,並在資源受限的設備上提供高效能,那麼2025年的智能手機市場將值得關注。

這篇報導展示了小型語言模型在AI領域中的最新發展,特別是阿聯酋TII的Falcon 3模型的推出,讓我們看到在資源有限的情況下,如何透過創新技術實現高效能的潛力。隨著市場上對AI技術需求的增加,小型模型的升起可能成為未來的趨勢,尤其是在智能手機等便攜設備的應用上。這不僅挑戰了傳統的大型模型的優勢,還促使整個行業重新思考模型的設計和訓練方法。

在此背景下,未來的AI研究者和開發者應該更加注重如何在資源限制下優化模型效能,並探索新的數據來源和訓練技術。這樣的轉變將不僅影響學術界,還將對商業應用產生深遠影響。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *