Google DeepMind推新API 助AI長時記憶同背景運算

zero comment

Google DeepMind 推出全新 Interactions API，推動生成式AI進入「有狀態」時代

過去兩年，生成式人工智能的基本單位一直是「completion」（完成回應）。用戶輸入文字提示，模型回傳文字，交互結束。如果想繼續對話，必須將整段對話歷史重新發送給模型。這種「無狀態」架構，以Google傳統的`generateContent`端點為例，適合簡單聊天機械人，但隨著開發者朝著能使用工具、維持複雜狀態及進行長期「思考」的自主代理人邁進，這種架構已成為明顯瓶頸。

上星期，Google DeepMind 終於針對這個基礎設施缺口推出了公測版的Interactions API（`/interactions`端點）。儘管OpenAI早在2025年3月就已推出類似的Responses API，Google此舉標誌其積極推進生成式AI技術的決心。Interactions API不僅是狀態管理工具，而是一個統一介面，讓大型語言模型（LLM）不再只是文字生成器，而是像遠端作業系統般運作。

「遠端運算」模型的革新

Interactions API的核心創新是將伺服器端狀態設為預設行為。過去開發複雜代理人時，開發者需手動管理不斷增長的JSON格式對話歷史，反覆傳送龐大資料。現在只要傳入`previous_interaction_id`，Google的基礎設施會自動保存對話歷史、工具輸出及「思考」過程。

DeepMind的Ali Çevik與Philipp Schmid在官方博客中指出：「模型正在成為系統，未來甚至可能成為代理人本身。若強行將這些能力塞入`generateContent`，API將變得過於複雜且脆弱。」這種轉變讓Background Execution（背景執行）成為可能，例如讓代理人長時間瀏覽網頁、綜合報告，避免HTTP超時問題。開發者可用`background=true`參數觸發代理人，斷線後再輪詢結果，API因此成為智慧工作排程隊列。

原生「深度研究」與MCP協議支持

Google利用這套基礎設施推出首個內建代理人：Gemini Deep Research。這代理人能執行「長期研究任務」，非單純根據提示預測下一個詞，而是進行搜尋、閱讀與綜合的循環。更重要的是，Google加入對Model Context Protocol（MCP）的原生支持，使Gemini模型能直接呼叫遠端工具，如天氣服務或資料庫，開發者無需撰寫繁瑣的中介程式碼。

Google與OpenAI在有狀態AI時代的不同路線

Google雖然在此領域稍顯追趕，但帶來了哲學上的差異。OpenAI九個月前已推出Responses API，採用「壓縮」策略，將對話歷史透過加密的壓縮項目隱藏起來，提升標記(token)效率，但讓開發者無法察看模型過往推理過程。相反，Google的Interactions API保留完整歷史，方便開發者除錯、操作及串流訊息，更重視透明度而非壓縮。

支援模型及使用情況

目前Interactions API處於公測階段，通過Google AI Studio即可使用，支援Google最新一代模型，包括：

– Gemini 3.0（Gemini 3 Pro Preview）
– Gemini 2.5（Flash、Flash-lite、Pro版本）
– Agents（Deep Research Preview）

商業上API依Google現有計費架構收費，依使用模型和輸入輸出標記數計價。由於API是有狀態的，Google會儲存對話歷史以支援快取與上下文調用。免費用戶的資料只保留1天，適合短期測試；付費用戶則享有55天的資料保留，這不僅方便審計，也大幅降低重複處理上下文的成本，適合生產級應用。

由於仍是Beta版本，Google提醒功能和架構可能會有重大變動。

「你正在與一個系統互動」

Google機器學習開發專家及Red Dragon AI CEO Sam Witteveen認為，這是開發者工具演進的必然。他指出，以往是簡單的文字輸入輸出，現在則是與一個能使用多模型、執行多次呼叫、動用工具及後端程式碼執行的系統互動。

Witteveen特別讚賞這架構的經濟效益：隱式快取。對話歷史存放在Google伺服器，開發者不必反覆付費上傳相同上下文，節省標記成本。

不過，他也批評Deep Research代理人的引用系統不夠理想，回傳的網址多為Google內部或Vertex AI的重定向鏈接，非直接可用的原始網址，導致跨會話使用時鏈接失效。「若要為報告附上可點擊的引用連結，這種處理方式很糟糕。」

對團隊的意義與建議

對領導AI模型部署及微調的工程師來說，Interactions API解決了長時間運算常見的「超時」問題，無需自行搭建複雜非同步處理或工作排程，可直接委託Google處理。但這也帶來策略上的抉擇：Deep Research代理人雖然快速可用，但作為「黑盒子」缺乏自訂LangChain或LangGraph流程的細膩控制。

資深工程師在管理AI協調與預算時，伺服器端狀態可帶來隱式快取優勢，大幅降低重覆上傳上下文的標記成本，提高性能與經濟效益。惟利用遠端MCP協議連結外部工具，需嚴格確保這些服務的安全與認證。

對資深數據工程師而言，Interactions API提供比純文字日誌更豐富的資料結構，利於除錯與推理，提升資料完整性。但要留意Deep Research代理人回傳的「包裝」URL可能失效，若依賴爬取或存檔，需額外清理抽取有效鏈接。建議測試其結構化輸出格式，替代現有脆弱的正則表達式解析。

對IT安全主管而言，將狀態資料集中存放在Google伺服器是一把雙刃劍。雖可減少API金鑰與對話歷史在用戶端設備的暴露風險，但也帶來資料駐留風險。免費用戶資料只留一天，付費用戶則長達55天，與OpenAI的「零資料保留」企業選項形成對比。必須確保此資料保留政策符合內部規範，否則需設定`store=false`，但會失去有狀態API的成本及性能優勢。

—

編者評論：Google DeepMind這次推出的Interactions API，標誌著生成式AI技術從「無狀態」向「有狀態」的重大轉型，這不僅是技術層面的升級，更反映了AI應用日益複雜化與系統化的趨勢。與OpenAI強調「資料壓縮」的策略相比，Google更注重對話歷史的透明與可操作性，這在開發調試和長期監控上具備明顯優勢。

然而，這種全新架構同時帶來資料安全與隱私的挑戰，尤其是長達55天的資料保留政策，企業必須謹慎評估合規風險。另一方面，Google原生支持MCP協議，打通了模型與外部工具的接口，為打造多功能自主代理人鋪路，但也加大了生態系統安全的複雜度。

總結來說，Interactions API不只是API的升級，更是生成式AI走向系統化、智能化的里程碑。未來開發者將不再只是調用文字生成模型，而是操控一整套智慧代理系統，這對提升AI應用的深度與廣度具有深遠影響。香港的AI開發者和企業應密切關注此趨勢，及早規劃技術和合規布局，才能在全球AI競爭中佔據有利位置。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

Google DeepMind推新API 助AI長時記憶同背景運算

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

chatgpt

Related Articles

ChatGPT新升級：圖像生成更快更精準！

美國就業市場慘淡真相：唔係AI係利率問題！

議員質疑AI智能玩具安全風險 兒童保護引關注

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

議員質疑AI智能玩具安全風險兒童保護引關注