MIT發明智能教練助AI自如切換文字同代碼

zero comment

「智能教練」助大型語言模型靈活切換文本與程式碼生成

麻省理工學院（MIT）的研究團隊開發出一個名為CodeSteer的智能輔助系統，能夠引導大型語言模型（LLM）在文本推理和程式碼生成之間靈活切換，提升模型在解決複雜問題上的準確度，例如供應鏈中的貨運排程。

大型語言模型擅長透過文本推理理解文件內容並作答，但在處理數學等符號計算任務時，經常難以給出正確答案。雖然部分模型能夠生成像Python這類的程式碼來處理符號問題，但它們往往不清楚何時應該使用程式碼，或者哪種程式碼最合適。為此，LLM似乎需要一個「教練」來指導它們採用最佳策略。

CodeSteer作為一個較小型的語言模型，會自動生成一系列提示，反覆引導大型模型切換使用文本或程式碼來回答問題。每一輪迭代後，CodeSteer會檢視模型的回應，給予修正建議，直到答案正確為止。

研究發現，結合CodeSteer後的大型語言模型在乘法計算、數獨遊戲、方塊堆疊等符號任務上的準確率提升超過30%。更有趣的是，一些較弱的模型在CodeSteer輔助下，甚至能勝過某些更先進的模型。

這項技術有望提升大型語言模型在純文本推理難以應對的複雜任務上的表現，例如在不確定環境中為機械人規劃路徑，或國際供應鏈的貨運排程。

MIT航空航天學系副教授、信息與決策系統實驗室（LIDS）主研Chuchu Fan表示：「目前大家都在競賽研發能做所有事的模型，但我們採取了互補的策略，讓大型語言模型能選擇合適的工具和方法，並利用外部專長來強化自身能力。」

教練如何運作？

當你問大型語言模型「9.11和9.9哪個數字比較大？」時，模型單純用文本推理常會答錯，但如果模型能用Python程式碼比較兩個數字，就能輕鬆得出正確答案。

然而，大型模型天生偏好用文本回答，即使程式碼更有效率。即便它們經過微調學會寫程式碼，也常常生成錯誤或低效的程式碼。

MIT團隊沒有直接重訓像GPT-4或Claude這樣龐大的模型，而是微調一個小型輕量級模型作為教練，來指導大型模型在文本和程式碼間切換。這種方法不會改變大型模型本身，避免破壞其已有能力。

CodeSteer先分析問題，判斷用文本還是程式碼較合適，甚至決定最適合用哪種程式碼。然後它向大型模型發出提示，告訴它用哪種方法解題。大型模型回傳答案後，CodeSteer會檢查結果，如有錯誤，會繼續引導模型嘗試不同策略，例如加入搜尋演算法或限制條件，直到答案正確為止。

研究人員發現，大型模型有時會偷懶，寫出簡短但錯誤的程式碼，CodeSteer的設計就是要避免這種情況。系統內建符號檢查器評估程式碼複雜度，發現過於簡單或低效時會提示CodeSteer。同時，系統內置自我驗證機制，讓模型生成程式碼計算答案，確保正確性。

面對複雜任務的挑戰

由於現有的符號運算數據集多半未標明問題是適合用文本還是程式碼解決，團隊自行蒐集了37個複雜符號任務，包括空間推理、數學、順序推理和最佳化，組成名為SymBench的數據集，用來微調和評估CodeSteer。

實驗結果顯示，CodeSteer在九種基線方法中表現最佳，平均準確率從53.3%提升至86.4%。它在未見過的任務和多款大型語言模型上也維持穩定效能。

更令人驚訝的是，一般用途的模型加上CodeSteer後，準確率超越了專門設計處理複雜推理和規劃的最先進模型，且計算負擔更輕。

CodeSteer團隊成員Yongchao Chen說：「我們的方法利用了大型模型已有的能力，通過讓模型聰明地使用程式碼，進一步提升它的表現。」

未來，研究人員希望優化CodeSteer的提示迭代速度，並探索如何訓練一個統一模型，讓它能自行在文本推理和程式碼生成間切換，不必依賴獨立的輔助模型。

Google Cloud AI研究員Jinsung Yoon讚賞此研究：「這是對大型語言模型工具使用問題的優雅解決方案，能在不需直接微調大型模型的情況下，大幅提升性能。」

Google DeepMind資深科學家Chi Wang補充：「訓練一個較小專門模型來策略性指導大型先進模型的成功，展現了多AI代理間的智慧協作，為處理複雜現實應用鋪路。」

此研究部分由美國海軍研究辦公室和MIT-IBM Watson AI實驗室資助。

—

編輯評論

CodeSteer這套系統不單是技術上的突破，更是一種思維轉變。過去我們總想打造「萬能」的大型模型，卻忽略了模型自身的局限性及其工具使用的智慧。MIT團隊的做法彷彿在告訴我們：與其重訓一個龐然大物，不如培養一個靈活的「教練」來激發它的潛力。

這種「教練-運動員」模式值得深思。人類社會中，教練不一定比運動員更強，但善於策略指導和調整，讓運動員發揮最大效能。類比到AI，未來我們或許會見到更多這種多模型協作的智能系統，不同模型各司其職，互相補足。

此外，CodeSteer強調的是智能選擇工具的能力，這與人類解決問題時「選擇合適工具」的思考模式高度契合。未來AI若能更好地「知道自己不知道什麼時候該用什麼工具」，將大大擴展其應用範圍，從學術研究到產業實務都受惠。

最後，這也提醒我們，AI的發展不應只追求單一模型的「強大」，而是要注重系統整合、協同合作和靈活應變，這才是面對現實世界複雜挑戰的關鍵。CodeSteer的成功或許正是AI「智慧升級」的新起點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

✨🎱 Instagram留言 →