六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

阿里巴巴ZeroSearch:AI自學搜索,成本降88%

阿里巴巴推出ZeroSearch:讓AI自我學習搜尋,大幅降低訓練成本

阿里巴巴集團的研究人員開發了一種新穎的方法,可以大大降低訓練AI系統以搜尋資訊的成本和複雜性,完全消除對昂貴的商業搜尋引擎API的需求。

這種技術稱為“ZeroSearch”,允許大型語言模型(LLMs)通過模擬方法開發先進的搜尋能力,而不是在訓練過程中與真實的搜尋引擎互動。這項創新可以為公司節省大量的API費用,同時提供更好的控制AI系統學習檢索資訊的方式。

“強化學習訓練需要頻繁的推出,可能涉及數十萬個搜尋請求,這些請求會產生大量的API費用,並嚴重限制可擴展性,”研究人員在他們本周發佈在arXiv上的論文中寫道。“為了應對這些挑戰,我們推出了ZeroSearch,一個強化學習框架,激勵LLM的搜尋能力,而無需與真實的搜尋引擎互動。”

ZeroSearch如何訓練AI搜尋而不需要搜尋引擎

ZeroSearch解決的問題相當重大。開發可以自主搜尋資訊的AI助理的公司面臨兩個主要挑戰:在訓練過程中,搜尋引擎返回的文件質量不可預測,以及對商業搜尋引擎(如谷歌)進行數十萬次API調用的成本極高。

阿里巴巴的方法首先通過輕量級的監督微調過程,將LLM轉變為檢索模組,能夠根據查詢生成相關和不相關的文件。在強化學習訓練中,系統採用研究人員所謂的“基於課程的推出策略”,逐漸降低生成文件的質量。

“我們的關鍵見解是,LLM在大型預訓練中已經獲得了廣泛的世界知識,並且能夠根據搜尋查詢生成相關文件,”研究人員解釋道。“真實搜尋引擎和模擬LLM之間的主要區別在於返回內容的文本風格。”

以遠低於谷歌的成本超越谷歌

在七個問答數據集上的綜合實驗中,ZeroSearch不僅與使用真實搜尋引擎訓練的模型相匹配,而且經常超過它們。值得注意的是,一個7B參數的檢索模組實現了與谷歌搜尋相當的性能,而一個14B參數的模組甚至超過了它。

成本節省相當可觀。根據研究人員的分析,使用谷歌搜尋通過SerpAPI進行約64,000個搜尋查詢的訓練將花費約586.70美元,而在四個A100 GPU上使用14B參數模擬LLM的成本僅為70.80美元——降低了88%。

“這表明在強化學習設置中使用經過良好訓練的LLM作為真實搜尋引擎的替代方案是可行的,”論文指出。

這對AI開發的未來意味著什麼

這項突破是AI系統訓練方式的重大轉變。ZeroSearch表明,AI可以通過自我模擬來改進,而無需依賴於外部工具,如搜尋引擎。

這對AI行業可能產生巨大的影響。到目前為止,訓練先進的AI系統通常需要對由大科技公司控制的服務進行昂貴的API調用。ZeroSearch通過允許AI模擬搜尋而不是使用實際的搜尋引擎,改變了這一等式。

對於預算有限的小型AI公司和初創企業來說,這種方法可以使競爭更加公平。API調用的高成本一直是開發複雜AI助理的主要障礙。通過將這些成本削減近90%,ZeroSearch使先進的AI訓練更加可及。

除了成本節省之外,這項技術還為開發人員提供了對訓練過程的更多控制權。當使用真實的搜尋引擎時,返回的文件質量是不可預測的。通過模擬搜尋,開發人員可以精確控制AI在訓練期間看到的資訊。

該技術適用於多個模型家族,包括Qwen-2.5和LLaMA-3.2,並且適用於基本和指令調優變體。研究人員已在GitHub和Hugging Face上提供了他們的程式碼、數據集和預訓練模型,允許其他研究人員和公司實施該方法。

隨著大型語言模型的持續發展,像ZeroSearch這樣的技術表明,未來AI系統可以通過自我模擬開發越來越複雜的能力,而不是依賴外部服務——這可能會改變AI開發的經濟效益,並減少對大型技術平台的依賴。

諷刺的是顯而易見的:在教導AI如何在沒有搜尋引擎的情況下進行搜尋時,阿里巴巴可能創造了一項技術,使傳統的搜尋引擎對於AI開發變得不那麼必要了。隨著這些系統變得更加自給自足,技術格局在未來幾年可能會看起來非常不同。

作為編輯,我認為這項技術的出現將對AI行業產生深遠的影響。ZeroSearch的問世意味著AI開發者可以更低成本地訓練模型,並且可以更好地控制訓練過程。這對於小型AI公司和初創企業來說是一個福音,因為它們可以與大型科技公司競爭。同時,這也提出了關於搜尋引擎未來角色的問題。隨著AI系統變得更加自給自足,傳統的搜尋引擎是否仍將是必要的?只有時間才能告訴我們。

Chat Icon