Google DeepMind推新API 助AI長時記憶同背景運算

Ai




Google DeepMind 推出全新 Interactions API,推動生成式AI進入「有狀態」時代

過去兩年,生成式人工智能的基本單位一直是「completion」(完成回應)。用戶輸入文字提示,模型回傳文字,交互結束。如果想繼續對話,必須將整段對話歷史重新發送給模型。這種「無狀態」架構,以Google傳統的`generateContent`端點為例,適合簡單聊天機械人,但隨著開發者朝著能使用工具、維持複雜狀態及進行長期「思考」的自主代理人邁進,這種架構已成為明顯瓶頸。

上星期,Google DeepMind 終於針對這個基礎設施缺口推出了公測版的Interactions API(`/interactions`端點)。儘管OpenAI早在2025年3月就已推出類似的Responses API,Google此舉標誌其積極推進生成式AI技術的決心。Interactions API不僅是狀態管理工具,而是一個統一介面,讓大型語言模型(LLM)不再只是文字生成器,而是像遠端作業系統般運作。

「遠端運算」模型的革新

Interactions API的核心創新是將伺服器端狀態設為預設行為。過去開發複雜代理人時,開發者需手動管理不斷增長的JSON格式對話歷史,反覆傳送龐大資料。現在只要傳入`previous_interaction_id`,Google的基礎設施會自動保存對話歷史、工具輸出及「思考」過程。

DeepMind的Ali Çevik與Philipp Schmid在官方博客中指出:「模型正在成為系統,未來甚至可能成為代理人本身。若強行將這些能力塞入`generateContent`,API將變得過於複雜且脆弱。」這種轉變讓Background Execution(背景執行)成為可能,例如讓代理人長時間瀏覽網頁、綜合報告,避免HTTP超時問題。開發者可用`background=true`參數觸發代理人,斷線後再輪詢結果,API因此成為智慧工作排程隊列。

原生「深度研究」與MCP協議支持

Google利用這套基礎設施推出首個內建代理人:Gemini Deep Research。這代理人能執行「長期研究任務」,非單純根據提示預測下一個詞,而是進行搜尋、閱讀與綜合的循環。更重要的是,Google加入對Model Context Protocol(MCP)的原生支持,使Gemini模型能直接呼叫遠端工具,如天氣服務或資料庫,開發者無需撰寫繁瑣的中介程式碼。

Google與OpenAI在有狀態AI時代的不同路線

Google雖然在此領域稍顯追趕,但帶來了哲學上的差異。OpenAI九個月前已推出Responses API,採用「壓縮」策略,將對話歷史透過加密的壓縮項目隱藏起來,提升標記(token)效率,但讓開發者無法察看模型過往推理過程。相反,Google的Interactions API保留完整歷史,方便開發者除錯、操作及串流訊息,更重視透明度而非壓縮。

支援模型及使用情況

目前Interactions API處於公測階段,通過Google AI Studio即可使用,支援Google最新一代模型,包括:

– Gemini 3.0(Gemini 3 Pro Preview)
– Gemini 2.5(Flash、Flash-lite、Pro版本)
– Agents(Deep Research Preview)

商業上API依Google現有計費架構收費,依使用模型和輸入輸出標記數計價。由於API是有狀態的,Google會儲存對話歷史以支援快取與上下文調用。免費用戶的資料只保留1天,適合短期測試;付費用戶則享有55天的資料保留,這不僅方便審計,也大幅降低重複處理上下文的成本,適合生產級應用。

由於仍是Beta版本,Google提醒功能和架構可能會有重大變動。

「你正在與一個系統互動」

Google機器學習開發專家及Red Dragon AI CEO Sam Witteveen認為,這是開發者工具演進的必然。他指出,以往是簡單的文字輸入輸出,現在則是與一個能使用多模型、執行多次呼叫、動用工具及後端程式碼執行的系統互動。

Witteveen特別讚賞這架構的經濟效益:隱式快取。對話歷史存放在Google伺服器,開發者不必反覆付費上傳相同上下文,節省標記成本。

不過,他也批評Deep Research代理人的引用系統不夠理想,回傳的網址多為Google內部或Vertex AI的重定向鏈接,非直接可用的原始網址,導致跨會話使用時鏈接失效。「若要為報告附上可點擊的引用連結,這種處理方式很糟糕。」

對團隊的意義與建議

對領導AI模型部署及微調的工程師來說,Interactions API解決了長時間運算常見的「超時」問題,無需自行搭建複雜非同步處理或工作排程,可直接委託Google處理。但這也帶來策略上的抉擇:Deep Research代理人雖然快速可用,但作為「黑盒子」缺乏自訂LangChain或LangGraph流程的細膩控制。

資深工程師在管理AI協調與預算時,伺服器端狀態可帶來隱式快取優勢,大幅降低重覆上傳上下文的標記成本,提高性能與經濟效益。惟利用遠端MCP協議連結外部工具,需嚴格確保這些服務的安全與認證。

對資深數據工程師而言,Interactions API提供比純文字日誌更豐富的資料結構,利於除錯與推理,提升資料完整性。但要留意Deep Research代理人回傳的「包裝」URL可能失效,若依賴爬取或存檔,需額外清理抽取有效鏈接。建議測試其結構化輸出格式,替代現有脆弱的正則表達式解析。

對IT安全主管而言,將狀態資料集中存放在Google伺服器是一把雙刃劍。雖可減少API金鑰與對話歷史在用戶端設備的暴露風險,但也帶來資料駐留風險。免費用戶資料只留一天,付費用戶則長達55天,與OpenAI的「零資料保留」企業選項形成對比。必須確保此資料保留政策符合內部規範,否則需設定`store=false`,但會失去有狀態API的成本及性能優勢。

編者評論:Google DeepMind這次推出的Interactions API,標誌著生成式AI技術從「無狀態」向「有狀態」的重大轉型,這不僅是技術層面的升級,更反映了AI應用日益複雜化與系統化的趨勢。與OpenAI強調「資料壓縮」的策略相比,Google更注重對話歷史的透明與可操作性,這在開發調試和長期監控上具備明顯優勢。

然而,這種全新架構同時帶來資料安全與隱私的挑戰,尤其是長達55天的資料保留政策,企業必須謹慎評估合規風險。另一方面,Google原生支持MCP協議,打通了模型與外部工具的接口,為打造多功能自主代理人鋪路,但也加大了生態系統安全的複雜度。

總結來說,Interactions API不只是API的升級,更是生成式AI走向系統化、智能化的里程碑。未來開發者將不再只是調用文字生成模型,而是操控一整套智慧代理系統,這對提升AI應用的深度與廣度具有深遠影響。香港的AI開發者和企業應密切關注此趨勢,及早規劃技術和合規布局,才能在全球AI競爭中佔據有利位置。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗