編碼被視為生成式AI的殺手級應用?但其效益或許只是幻象?
由 Jeremy Kahn 撰寫
編碼一直被認為是生成式人工智能(genAI)的最強應用之一,但最新研究卻對此提出質疑:AI幫助軟件工程師提升效率的說法,是否過於理想化?
上星期末,OpenAI擬以30億美元收購AI編碼軟件新創WindSurf的計劃突然告吹。取而代之的是,Google宣布聘用WindSurf的CEO Varun Mohan及共同創辦人Douglas Chen等核心成員,並取得其技術授權,交易估值約24億美元。另一家AI新創Cognition則收購了WindSurf剩餘資產。據報OpenAI與微軟因技術共享權限未達成一致,導致交易破裂。
這起交易背後反映出OpenAI與微軟間的緊張關係,另類「非收購式併購」模式似乎成為大科技公司與AI新創間新趨勢,藉此迴避監管和風險。話說回來,生成式AI的投資回報率(ROI)一直備受爭議,但編碼輔助工具卻似乎是唯一獲得廣泛認同的殺手級應用——這也是WindSurf及Anyshpere(開發熱門AI編碼助手Cursor)的估值飆升原因,微軟旗下的GitHub Copilot更是深受用戶歡迎。
然而,近期三篇學術論文卻挑戰了這個普遍看法。
實驗質疑AI編碼助手的真實效益
非營利組織METR今年初進行了一項隨機對照試驗,邀請16位資深開發者使用集成了Anthropic Claude Sonnet 3.5及3.7模型的Cursor Pro編碼助手,觀察其是否提升編碼效率。參試者事前估計使用AI能加快24%完成任務,事後估計提升20%。但實際結果卻出人意表:使用AI反而令完成時間增加了19%。
原因在於,這些經驗豐富的開發者發現AI生成的代碼質量不及自身水準,接受率不足44%。即使接受,約75%開發者仍需逐行檢查AI代碼,超過一半還要做重大修改,這些檢視和修正工作平均佔用了9%的時間。且在大型代碼庫中,AI偶爾會在其他部分產生奇怪的修改,必須被人工發現並修正。
為何開發者感覺AI加速了工作?
一個有趣現象是,儘管AI實際上拖慢了進度,69%的開發者在試驗後仍繼續使用Cursor。這似乎源於AI減輕了他們的認知負擔:修正AI代碼比從零思考解決方案來得輕鬆。這種主觀感受上的「效率提升」,或許只是「感覺」而非真實時間節省。
華爾街日報曾報導,律師事務所使用生成式AI助手進行法律研究時,因需大量事實查證,並未真正節省時間,但初級律師卻反映使用AI讓工作更愉快。哈佛商學院與微軟的研究亦發現,使用GitHub Copilot的程式員花更多時間編碼,少花時間管理項目,這或許是因為AI讓他們能獨立作業,並投入更多心力於探索解決方案本身,而非單純執行。
或許問題在於AI的使用方式不足?
另一份來自中國AI新創Modelbest、北京郵電大學、清華大學與悉尼大學的研究指出,單一AI工具難以穩定完成複雜任務,但若多個大型語言模型分工協作、互相提問澄清,則性能大幅提升,該架構稱為「ChatDev」。然而,這種多AI協作模式需要更多計算資源,成本高昂。
換言之,AI編碼助手的問題可能不在於技術本身,而是我們如何使用它們。成本與效益之間的平衡仍是未解之謎。
—
其他AI業界動態簡報:
– 美國白宮決定放寬對Nvidia向中國銷售H20 AI芯片的限制,Nvidia CEO黃仁勳正在北京推動外交合作。Nvidia股價及其供應商台積電股價應聲上漲。
– Meta CEO馬克·祖克伯宣布將投入數千億美元建設AI專用數據中心,目標是開發通用人工智能。
– 歐盟發布通用AI系統行為準則,OpenAI與法國AI企業Mistral表示將遵守,這可能促使其他AI公司跟進。
– 亞馬遜AWS正測試新雲端服務,方便用戶在AWS上使用第三方AI模型,以應對部分AI新創轉向Google Cloud的挑戰。
– 亞馬遜考慮進一步投資已投入80億美元的AI公司Anthropic,雙方合作包括數據中心建設及新一代AI芯片開發。
– 英國AI安全研究機構質疑近期關於AI「策謀行為」(scheming)的研究,指出該領域存在過度解讀和缺乏嚴謹實驗設計的問題,呼籲更科學的研究方法。
—
筆者評論:
這篇報道深刻揭示了生成式AI在編碼領域的現實與幻想之間的巨大落差。市場與媒體普遍將AI編碼助手視為提高軟件開發效率的救星,但嚴格實驗數據卻顯示,AI帶來的效率增益可能被人類主觀感受所誇大,甚至在某些情況下反而延長了工作時間。
此現象反映了AI技術尚未成熟到能夠無縫融入專業工作流程的階段。高質量代碼生成不僅要求AI對語言的理解深度,也需要對龐大且複雜的系統架構具備敏銳洞察力。目前的AI助手尚未達到這種水平,開發者不得不花時間審核和修正,抵消了理論上的時間節省。
同時,AI工具帶來的認知負擔減輕與工作愉悅感,則是另一種價值——這種「感覺上的效率」可能推動AI工具廣泛採用,但企業與投資者應該警惕,這並不等同於真實的生產力提升。
另外,多AI模型協作(如ChatDev)顯示未來AI應用可能趨於複雜且分工精細,但這也意味著成本與資源需求更高,讓ROI問題更加撲朔迷離。
總結來說,生成式AI在編碼領域的應用仍處於探索階段,業界與用戶需要理性看待AI帶來的價值與限制。對香港及全球科技行業而言,這提醒我們切勿盲目追逐AI熱潮,而應持續關注技術實際效益與使用場景,並在推廣AI工具時兼顧人類專業判斷與審慎監控。
—
以上內容希望能為香港讀者提供一個更全面、批判性的視角,理解AI編碼助手的真實效益與挑戰,並在AI技術浪潮中保持清醒的判斷。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。