AI編碼助手真效益？研究揭示或只係幻象！

zero comment

編碼被視為生成式AI的殺手級應用？但其效益或許只是幻象？

由 Jeremy Kahn 撰寫

編碼一直被認為是生成式人工智能（genAI）的最強應用之一，但最新研究卻對此提出質疑：AI幫助軟件工程師提升效率的說法，是否過於理想化？

上星期末，OpenAI擬以30億美元收購AI編碼軟件新創WindSurf的計劃突然告吹。取而代之的是，Google宣布聘用WindSurf的CEO Varun Mohan及共同創辦人Douglas Chen等核心成員，並取得其技術授權，交易估值約24億美元。另一家AI新創Cognition則收購了WindSurf剩餘資產。據報OpenAI與微軟因技術共享權限未達成一致，導致交易破裂。

這起交易背後反映出OpenAI與微軟間的緊張關係，另類「非收購式併購」模式似乎成為大科技公司與AI新創間新趨勢，藉此迴避監管和風險。話說回來，生成式AI的投資回報率（ROI）一直備受爭議，但編碼輔助工具卻似乎是唯一獲得廣泛認同的殺手級應用——這也是WindSurf及Anyshpere（開發熱門AI編碼助手Cursor）的估值飆升原因，微軟旗下的GitHub Copilot更是深受用戶歡迎。

然而，近期三篇學術論文卻挑戰了這個普遍看法。

實驗質疑AI編碼助手的真實效益

非營利組織METR今年初進行了一項隨機對照試驗，邀請16位資深開發者使用集成了Anthropic Claude Sonnet 3.5及3.7模型的Cursor Pro編碼助手，觀察其是否提升編碼效率。參試者事前估計使用AI能加快24%完成任務，事後估計提升20%。但實際結果卻出人意表：使用AI反而令完成時間增加了19%。

原因在於，這些經驗豐富的開發者發現AI生成的代碼質量不及自身水準，接受率不足44%。即使接受，約75%開發者仍需逐行檢查AI代碼，超過一半還要做重大修改，這些檢視和修正工作平均佔用了9%的時間。且在大型代碼庫中，AI偶爾會在其他部分產生奇怪的修改，必須被人工發現並修正。

為何開發者感覺AI加速了工作？

一個有趣現象是，儘管AI實際上拖慢了進度，69%的開發者在試驗後仍繼續使用Cursor。這似乎源於AI減輕了他們的認知負擔：修正AI代碼比從零思考解決方案來得輕鬆。這種主觀感受上的「效率提升」，或許只是「感覺」而非真實時間節省。

華爾街日報曾報導，律師事務所使用生成式AI助手進行法律研究時，因需大量事實查證，並未真正節省時間，但初級律師卻反映使用AI讓工作更愉快。哈佛商學院與微軟的研究亦發現，使用GitHub Copilot的程式員花更多時間編碼，少花時間管理項目，這或許是因為AI讓他們能獨立作業，並投入更多心力於探索解決方案本身，而非單純執行。

或許問題在於AI的使用方式不足？

另一份來自中國AI新創Modelbest、北京郵電大學、清華大學與悉尼大學的研究指出，單一AI工具難以穩定完成複雜任務，但若多個大型語言模型分工協作、互相提問澄清，則性能大幅提升，該架構稱為「ChatDev」。然而，這種多AI協作模式需要更多計算資源，成本高昂。

換言之，AI編碼助手的問題可能不在於技術本身，而是我們如何使用它們。成本與效益之間的平衡仍是未解之謎。

—

其他AI業界動態簡報：

– 美國白宮決定放寬對Nvidia向中國銷售H20 AI芯片的限制，Nvidia CEO黃仁勳正在北京推動外交合作。Nvidia股價及其供應商台積電股價應聲上漲。

– Meta CEO馬克·祖克伯宣布將投入數千億美元建設AI專用數據中心，目標是開發通用人工智能。

– 歐盟發布通用AI系統行為準則，OpenAI與法國AI企業Mistral表示將遵守，這可能促使其他AI公司跟進。

– 亞馬遜AWS正測試新雲端服務，方便用戶在AWS上使用第三方AI模型，以應對部分AI新創轉向Google Cloud的挑戰。

– 亞馬遜考慮進一步投資已投入80億美元的AI公司Anthropic，雙方合作包括數據中心建設及新一代AI芯片開發。

– 英國AI安全研究機構質疑近期關於AI「策謀行為」（scheming）的研究，指出該領域存在過度解讀和缺乏嚴謹實驗設計的問題，呼籲更科學的研究方法。

—

筆者評論：

這篇報道深刻揭示了生成式AI在編碼領域的現實與幻想之間的巨大落差。市場與媒體普遍將AI編碼助手視為提高軟件開發效率的救星，但嚴格實驗數據卻顯示，AI帶來的效率增益可能被人類主觀感受所誇大，甚至在某些情況下反而延長了工作時間。

此現象反映了AI技術尚未成熟到能夠無縫融入專業工作流程的階段。高質量代碼生成不僅要求AI對語言的理解深度，也需要對龐大且複雜的系統架構具備敏銳洞察力。目前的AI助手尚未達到這種水平，開發者不得不花時間審核和修正，抵消了理論上的時間節省。

同時，AI工具帶來的認知負擔減輕與工作愉悅感，則是另一種價值——這種「感覺上的效率」可能推動AI工具廣泛採用，但企業與投資者應該警惕，這並不等同於真實的生產力提升。

另外，多AI模型協作（如ChatDev）顯示未來AI應用可能趨於複雜且分工精細，但這也意味著成本與資源需求更高，讓ROI問題更加撲朔迷離。

總結來說，生成式AI在編碼領域的應用仍處於探索階段，業界與用戶需要理性看待AI帶來的價值與限制。對香港及全球科技行業而言，這提醒我們切勿盲目追逐AI熱潮，而應持續關注技術實際效益與使用場景，並在推廣AI工具時兼顧人類專業判斷與審慎監控。

—

以上內容希望能為香港讀者提供一個更全面、批判性的視角，理解AI編碼助手的真實效益與挑戰，並在AI技術浪潮中保持清醒的判斷。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

✈️ Trip.com「內地快閃」機票＋酒店半價！

【每週二 10 AM】 立即領取 半價優惠代碼
最高減 HK$500，CP 值極高，先到先得！

立即搶優惠 🔗

AI編碼助手真效益？研究揭示或只係幻象！

✈️ Trip.com「內地快閃」機票＋酒店半價！

chatgpt

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

AI編碼助手真效益？研究揭示或只係幻象！

✈️ Trip.com「內地快閃」機票＋酒店半價！

chatgpt

Related Articles

ChatGPT未來會有廣告？OpenAI回應最新風波

AI將減少工作時間？大摩CEO預言美好未來！

AI塑造運動員身形迷思 忽略多元真實美

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

AI塑造運動員身形迷思　忽略多元真實美

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！