Anthropic新AI降價三分二超越人類工程師

Ai




Anthropic 推出最新 AI 模型 Claude Opus 4.5,性能更強價格大幅下調

人工智能初創公司 Anthropic 於本週一發布了迄今為止最強大的 AI 模型 Claude Opus 4.5,並將價格削減約三分之二。該模型在軟件工程任務上的表現達到業界頂尖水平,此舉明顯加劇了該公司與財力雄厚的競爭對手 OpenAI 及 Google 之間的競爭。

根據 VentureBeat 獲得的資料,Claude Opus 4.5 在 Anthropic 內部最具挑戰性的工程測試中,得分超越公司歷史上所有人類求職者。這不僅彰顯了 AI 技術的迅速進步,也引發了業界對未來 AI 如何改變白領職業的廣泛討論。

這間獲亞馬遜支持的公司將 Claude Opus 4.5 的價格定為每百萬輸入字元 5 美元、每百萬輸出字元 25 美元,遠低於今年早些時候推出的前代產品 Claude Opus 4.1 的 15 美元和 75 美元。此舉令先進 AI 能力能被更多開發者和企業使用,同時也迫使競爭者在性能和價格上作出回應。

Anthropic 開發者關係主管 Alex Albert 在接受 VentureBeat 獨家訪問時表示:「我們希望確保這些模型真正能幫助用戶工作,特別是協助他們完成那些不想做的工作。」

Opus 4.5 在真實工程任務中展現優越判斷力

Anthropic 的內部測試顯示,Claude Opus 4.5 在推理能力上邁出質的飛躍。該模型在軟件工程任務基準 SWE-bench Verified 的正確率達到 80.9%,超越 Sonnet 4.5 的 77.2% 和 Google Gemini 3 Pro 的 76.2%。

不過,技術分數只是部分指標。Albert 指出,測試人員普遍反映該模型在多樣化任務中展現出更佳的判斷力和直覺,彷彿對現實情境中重要環節有更深的理解。

他舉例說,過往他會讓 AI 模型收集資料,但對其整理和優先排序持保留態度。現在,他會讓 Opus 4.5 完整處理任務,甚至連接 Slack 及內部文件,自動生成符合他需求的摘要。

Opus 4.5 在公司最嚴格工程測試中超越所有人類考生

該模型在 Anthropic 內部為工程師招聘設計的兩小時限時測試中,以平行測試時間計算技術(即多次嘗試取最佳結果)取得最高分,超越所有人類考生。若不受時間限制,Opus 4.5 在公司自家編程環境 Claude Code 的表現更與歷來最佳人類考生相當。

雖然該測試未涵蓋協作、溝通等職場關鍵軟技能,Anthropic 仍指出此結果引發對 AI 對工程職業影響的深層思考。Albert 強調,這是 AI 在工作場景中實際應用潛力的重要信號。

效率提升顯著,關鍵測試中字元使用量減少高達 76%

除了性能提升,Anthropic 亦強調 Opus 4.5 在運算效率上的突破。該模型在中等努力級別下,能以比 Sonnet 4.5 少 76% 的輸出字元數,達到相同甚至更好的分數;在最高努力級別,性能提升 4.3 個百分點,字元使用仍減少 48%。

公司還引入「努力參數」,讓用戶可自由調節模型在任務上的計算投入,平衡性能、延遲和成本。

多家企業客戶對此效率提升給予正面評價。雲端編程平台 Replit 總裁 Michele Catasta 表示,Opus 4.5 在內部基準測試中以更少字元數打敗競爭對手,這種效率在大規模使用時尤為重要。GitHub 產品總監 Mario Rodriguez 稱該模型在代碼遷移和重構等任務表現尤為出色。

早期客戶見證 AI 代理可自我學習和技能優化

Anthropic 早期客戶之一、日本樂天(Rakuten)利用 Claude Opus 4.5 自動化辦公任務,發現 AI 代理能在四次迭代後達到最佳性能,而其他模型十次迭代仍難匹敵。Albert 解釋,這種「自我優化代理」並非修改核心參數,而是透過反覆調整工具和方法,提升解題能力。

此能力不僅限於編程,還包括專業文件、試算表和簡報製作。Albert 表示,從 Sonnet 4.5 到 Opus 4.5 的提升,是過去兩代模型間最大的一次飛躍。

金融建模公司 Fundamental Research Labs 聯合創辦人 Nico Christie 表示,模型在內部評估中準確率提升 20%,效率增長 15%,同時原先難以完成的複雜任務也變得可行。

新功能聚焦 Excel 用戶、Chrome 工作流程及無限聊天長度

與模型同步發布的還有一系列企業級產品更新。Claude for Excel 現已對 Max、Team 及 Enterprise 用戶全面開放,新增了樞紐分析表、圖表和文件上傳功能。Chrome 瀏覽器擴展則向所有 Max 用戶開放。

最重要的是推出「無限聊天」功能,突破上下文窗口限制,能自動總結對話早期內容,實現幾乎無限長度的對話。Albert 解釋:「產品本身實現了上下文壓縮和記憶功能,讓用戶感受到無限的上下文窗口。」

為開發者,Anthropic 推出了「程式化工具調用」,允許 Claude 編寫並執行代碼調用函數。Claude Code 也加入了「計劃模式」並在桌面端提供研究預覽版,支持多個 AI 代理並行運行。

市場競爭激烈,OpenAI 與 Google 爭相匹配性能和價格

Anthropic 在 2025 年第一季度實現了 20 億美元的年化收入,較上一季度的 10 億美元翻倍,年付超過 10 萬美元的客戶數量更是同比增長八倍。

Opus 4.5 的快速推出,緊隨 10 月的 Haiku 4.5 和 9 月的 Sonnet 4.5,反映了整個產業的競爭態勢。OpenAI 今年發布了多個 GPT-5 版本,包括 11 月的 Codex Max,能自主運行達 24 小時。Google 也於 11 月中旬推出 Gemini 3。

Albert 指出,Anthropic 利用 Claude 本身加速產品和模型研發,推動了快速迭代。

雖然 Opus 4.5 降價可能壓縮利潤率,但也有望擴大可服務市場。Albert 預期將有大量初創企業將此技術融入產品並大力推廣。

不過,頂尖 AI 實驗室仍難實現盈利,因巨額投入於計算基礎設施和研發人才。儘管 AI 市場預計十年內營收將突破一萬億美元,但尚未出現壟斷者。隨著模型達到可顯著自動化複雜知識工作的水平,AI 對專業工作的影響日益真實。

AI 編碼編輯器 Cursor 執行長 Michael Truell 稱 Opus 4.5 在困難編程任務上的表現及價格均優於前代模型。AI 編碼初創 Cognition 執行長 Scott Wu 亦讚揚該模型在最難評估中持續穩定表現。

對企業和開發者而言,這場競爭意味著性能快速提升、價格持續下降。但當 AI 在技術任務上接近甚至超越人類專家水平,技術對職業的影響將不再是理論。

Albert 在談及工程測試成績時直言:「這是一個非常重要的信號,值得我們密切關注。」

評論與啟示

Anthropic 此次發布的 Claude Opus 4.5 不只是一次技術升級,更標誌著 AI 技術在專業領域的實質性突破。它不僅在工程測試中超越人類,還在使用效率和自我優化方面展現出顯著進步,這些都預示著 AI 正逐步從輔助工具轉向更深層次的工作協同者。

價格大幅下調策略,反映出 AI 市場競爭愈趨激烈,且企業對於可負擔且高效能 AI 解決方案的需求急速擴大。這種價格與性能的雙重勝利,必將推動更多中小企業與初創團隊加入 AI 應用浪潮,促進產業生態多元化。

然而,AI 在專業領域的快速進步,也帶來了對職場結構及人才技能的挑戰。當 AI 能夠在短時間內完成複雜技術任務,企業和員工必須思考如何重新定位人力資源,從重複性工作轉向更具創造性和戰略性的角色。

此外,Anthropic 強調的「無限聊天」和自我改進代理等新功能,反映出 AI 正朝向更靈活、持續學習的方向發展,這將改變未來人機互動的模式,甚至可能引領新一代智能助理的誕生。

總結來說,Claude Opus 4.5 的推出不僅是技術的進步,更是 AI 商業化和職場變革的風向標。香港及全球市場的企業和開發者,應密切關注這些變化,積極探索如何將 AI 深度融合到日常工作與業務流程,才能在未來競爭中保持優勢。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

🧠 AI 根據統計數據即時生成分析

💬 只要留言,AI就會即刻覆你心水組合

🎁 完!全!免!費!快啲嚟玩!

IG 貼文示意圖 AI 即時回覆示意圖

下期頭獎號碼

📲 去 Instagram 即刻留言

✨ Nano Banana AI 生圖免費玩!

📸 上載你嘅「Before」,AI即刻幫你整出「After」!

🪄 一鍵變身|真實人物 → 公仔風 / Cosplay / 海報風

🧍你上載的照片:

Before Image

🎨 AI生成的照片:

After Image
🚀 即刻免費玩 Nano Banana