六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

阿里QwenLong-L1:突破AI長文理解新紀元

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

阿里巴巴推出QwenLong-L1框架,攻克長文本推理難題

阿里巴巴集團近日推出了一種名為QwenLong-L1的新框架,旨在使大型語言模型(LLMs)能夠對極長的輸入進行推理。這一發展可能會開啟企業應用新浪潮,相關模型需要理解和提取大量文件的洞察,例如詳細的公司文件、長篇財務報表或複雜的法律合同。

長文本推理的挑戰

近期大型推理模型(LRMs)在強化學習(RL)方面的進展,特別是通過強化學習微調,顯著提高了其解決問題的能力。研究表明,當使用強化學習微調訓練時,LRMs獲得了類似人類「慢思考」的技能,即它們會發展出複雜的策略來處理複雜任務。

然而,這些改進主要在於模型處理相對較短的文本時,通常約為4,000個tokens。這些模型將其推理擴展到更長的上下文(例如120,000個tokens)的能力仍然是一個重大挑戰。長文本推理需要對整個上下文有穩健的理解,並能夠執行多步驟分析。「這個限制對需要與外部知識互動的實際應用構成了重大障礙,例如深入研究,LRMs必須從知識密集的環境中收集和處理信息」,QwenLong-L1的開發人員在他們的論文中寫道。

研究人員將這些挑戰正式定義為「長上下文推理強化學習」的概念。與短上下文推理不同,後者通常依賴於模型中已經存儲的知識,長上下文推理強化學習需要模型準確地從長輸入中檢索和定位相關信息。只有這樣,模型才能基於所整合的信息生成推理鏈。

通過強化學習訓練模型是具有挑戰性的,通常會導致學習效率低下和優化過程不穩定。模型很難收斂到好的解決方案,或者會失去探索多樣推理路徑的能力。

QwenLong-L1:多階段方法

QwenLong-L1是一種強化學習框架,旨在幫助LRMs從短文本的熟練轉變為對長上下文的穩健泛化。該框架通過精心構建的多階段過程增強現有的短上下文LRMs:

* 暖身監督微調(SFT):模型首先經過一個SFT階段,在那裡它接受長上下文推理的示例訓練。這個階段建立了堅實的基礎,使模型能夠準確地從長輸入中定位信息。它有助於培養理解上下文、生成邏輯推理鏈和提取答案的基本能力。
* 課程引導的分階段強化學習:在這個階段,模型通過多個階段進行訓練,目標輸入文件的長度逐漸增加。這種系統的、逐步的方法有助於模型穩定地將其推理策略從較短的上下文適應到漸進更長的上下文。它避免了模型在突然被訓練在非常長的文本時經常出現的不穩定性。
* 難度感知回溯抽樣:最後的訓練階段結合了前幾訓練階段的具有挑戰性的示例,確保模型繼續從最難的問題中學習。這優先考慮困難的實例,並鼓勵模型探索更多樣化和複雜的推理路徑。

除了這種結構化的訓練外,QwenLong-L1還使用了一個獨特的獎勵系統。雖然短上下文推理任務的訓練通常依賴於嚴格的基於規則的獎勵(例如,數學問題的正確答案),但QwenLong-L1採用了一種混合獎勵機制。這種機制結合了基於規則的驗證,確保精確性,檢查嚴格遵守正確性標準,以及「LLM作為裁判」。該裁判模型比較生成的答案與真實情況的語義,允許更靈活地處理正確答案的多樣表達方式,特別是在處理長篇、細致的文檔時。

測試QwenLong-L1

阿里巴巴團隊使用文檔問答(DocQA)作為主要任務來評估QwenLong-L1。該場景與企業需求高度相關,AI必須理解密集文檔以回答複雜問題。

在七個長上下文DocQA基準上的實驗結果顯示了QwenLong-L1的能力。值得注意的是,QWENLONG-L1-32B模型(基於DeepSeek-R1-Distill-Qwen-32B)實現了與Anthropic的Claude-3.7 Sonnet Thinking相當的性能,並且優於OpenAI的o3-mini和Qwen3-235B-A22B等模型。較小的QWENLONG-L1-14B模型也優於谷歌的Gemini 2.0 Flash Thinking和Qwen3-32B。

一個與實際應用相關的重要發現是,強化學習訓練使模型發展出專門的長上下文推理行為。論文指出,使用QwenLong-L1訓練的模型在「定位」(將答案鏈接到文檔的特定部分)、「子目標設置」(分解複雜問題)、「回溯」(識別和糾正自己的錯誤在推理過程中)和「驗證」(雙重檢查答案)方面變得更好。

例如,雖然基礎模型可能會被財務文檔中的無關詳細信息分散注意力或陷入過度分析無關信息的循環,但使用QwenLong-L1訓練的模型表現出有效的自我反思能力。它成功地過濾掉了這些干擾詳細信息,從錯誤的路徑回溯,並得出正確的答案。

像QwenLong-L1這樣的技術可能會顯著擴大企業中AI的實用性。潛在的應用包括法律技術(分析數千頁的法律文檔)、金融(對年度報告和財務文件進行深入研究,以進行風險評估或投資機會)和客戶服務(分析長客戶交互歷史,以提供更明智的支持)。研究人員已經發布了QwenLong-L1配方 的代碼已訓練模型的權重

作為編輯,我認為QwenLong-L1的推出標誌著大型語言模型發展的一個重要里程碑。通過解決長文本推理的挑戰,QwenLong-L1為企業應用打開了新的可能性,特別是在法律、金融和客戶服務等領域。然而,必須注意的是,QwenLong-L1的成功在很大程度上取決於其訓練數據的質量和多樣性,以及評估其性能的基準測試的有效性。未來研究的一個潛在方向可能是探索QwenLong-L1在其他應用領域的適用性,例如教育、醫療保健或科學研究。

此外,QwenLong-L1的開發也引發了人們對AI開發中強化學習作用的思考。強化學習已被證明是提高大型語言模型性能的有效技術,但也需要進一步研究以優化強化學習過程並使其更具可擴展性。

總的來說,QwenLong-L1的推出代表了大型語言模型領域的一個重要進步,具有廣泛的應用潛力。隨著研究的持續進展,令人興奮的是看到QwenLong-L1如何在未來推動AI創新和應用。

🔥 CHATGPT PLUS 帳戶出租

唔使外國信用卡、送埋 VPN,輕鬆即用!

1個月 HK$118|1年 HK$968|獨立帳號 🎁

💳 支援 PayMe / 轉數快 / Alipay / 信用卡

✨ 我哋亦可以代升級你的帳戶!

🚀 即刻睇詳情