2025最強AI寫Code攻略:邊個掂邊個唔掂?

Ai

明日屬於今天擁抱它的人

為何你可以信任ZDNET:我們的過程

在過去兩年,我一直在對聊天機器人進行一系列實際的編程測試。若你在尋找AI編程幫助,有兩款我強烈推薦,還有幾款則應避免使用。

最佳AI編程助手(2025年)

我接觸科技已久,對很多東西都不再感到興奮,甚至驚訝。但在Open AI的ChatGPT推出不久後,我要求它為我妻子的電子商務網站寫一個WordPress插件。當它成功地寫出了插件並運行時,我確實感到驚訝。

這是我深入探索聊天機器人和AI輔助編程的開始。此後,我對14個大型機器模型(LLMs)進行了四項實際測試。

不幸的是,並非所有聊天機器人都能同樣編程。距離我第一次測試已經快兩年了,即使到現在,我測試的14個LLMs中仍有五個無法創建有效的插件。

在這篇文章中,我將展示每個LLM在我的測試中的表現。我推薦兩款聊天機器人,但它們每月需要20美元的費用。這兩款聊天機器人的免費版本表現也足夠好,你可以不必付費。然而,其餘的,不論是免費還是付費,表現都不佳。我不會冒險使用它們進行編程項目,也不會建議你這樣做,直到它們的表現得到改善。

我已經寫過很多關於使用AI幫助編程的文章。除非是像我妻子的插件那樣的小型簡單項目,否則AI無法編寫完整的應用程序或程式。但它們在編寫幾行代碼和修復代碼方面表現出色。

讓我們開始比較這些聊天機器人的表現:

ChatGPT Plus
最佳整體AI編程助手

優點:
– 通過所有測試
– 穩定的編程結果
– Mac應用程序

缺點:
– 偶爾出現幻覺
– 尚無Windows應用
– 有時不合作

價格:每月20美元
LLM:GPT-4o, GPT-4, GPT-3.5
桌面瀏覽器界面:是
專用Mac應用程序:是
專用Windows應用程序:否
多重身份驗證:是
通過測試:4/4

ChatGPT Plus使用GPT-4和GPT-4o通過了我所有的測試。我最喜歡的一個特點是它有專用的應用程序。在進行網頁編程測試時,我的瀏覽器設置在一個地方,我的IDE打開,ChatGPT的Mac應用程序在另一個屏幕上運行。

此外,Logitech的Prompt Builder可以設置為使用升級版的GPT-4o,並連接到你的OpenAI帳戶,使得運行提示變得非常方便。

不過,我不太喜歡的是,在我的一次GPT-4o測試中出現了雙選答案,而其中一個答案是錯誤的。我更希望它直接給我正確的答案。儘管如此,快速測試確認了哪個答案是可行的,但這個問題有點煩人。我在GPT-4中沒有遇到這個問題,所以現在在編程時,我是使用ChatGPT的GPT-4設置。

Perplexity Pro
最佳AI編程助手

優點:
– 多個LLM
– 顯示搜索標準
– 資源良好

缺點:
– 只支持電子郵件登錄
– 無桌面應用

價格:每月20美元
LLM:GPT-4o, Claude 3.5 Sonnet, Sonar Large, Claude 3 Opus, Llama 3.1 405B
桌面瀏覽器界面:是
專用Mac應用程序:否
專用Windows應用程序:否
多重身份驗證:否
通過測試:4/4

我曾經考慮將Perplexity Pro列為最佳AI編程助手,但由於其登錄方式的缺陷,使其未能獲得第一名。Perplexity不使用用戶名/密碼或密碼密鑰,也不具備多重身份驗證。該工具只會通過電子郵件發送登錄PIN。其AI也沒有專用的桌面應用程序,這點不如ChatGPT。

Perplexity的優勢在於它可以運行多個LLM。雖然你無法為特定會話設置LLM,但你可以輕鬆進入設置並選擇活動模型。

在編程方面,你可能希望堅持使用GPT-4o,因為它通過了我們所有的測試。但對於不同的LLM進行交叉檢查代碼可能會很有趣。例如,如果你讓GPT-4o編寫一些正則表達式代碼,你可能會考慮切換到另一個LLM來看看該LLM對生成的代碼有何看法。

正如下面所見,大多數LLM都不可靠,因此不要將結果視為聖旨。然而,你可以利用這些結果來檢查原始代碼的其他方面,這有點像AI驅動的代碼審查。

記得切回GPT-4o。

Grok
最佳AI編程助手(X的粉絲)

優點:
– 不同於ChatGPT的LLM
– 描述良好
– 免費訪問

缺點:
– 僅可在瀏覽器模式下使用
– 免費訪問可能只是暫時的

價格:免費(目前)
LLM:Grok-1
桌面瀏覽器界面:是
專用Mac應用程序:否
專用Windows應用程序:否
多重身份驗證:是
通過測試:3/4

我必須說,Grok讓我驚訝。對於一個看似附加在前Twitter社交網絡上的LLM,我本來對它沒有太高的期望。但考慮到X現在由Elon Musk擁有,而Musk的兩家公司特斯拉和SpaceX擁有強大的AI能力,這就不奇怪了。

目前尚不清楚特斯拉和SpaceX的AI基因有多少進入了Grok,但我們可以合理地假設將來會有更多的工作。現在,Grok是唯一一個不基於OpenAI LLM的推薦名單中的LLM。

Grok確實犯了一個錯誤,但這是一個相對輕微的錯誤,可以通過稍微更全面的提示輕易修正。是的,它失敗了測試,但通過其他測試,並在一個測試中幾乎做得完美,這讓它贏得了競爭者的地位。

請持續關注。這是一個值得關注的選擇。

ChatGPT Free
最佳免費AI編程助手

優點:
– 免費
– 通過大多數測試

缺點:
– 提示限制
– 可能在你工作中途將你切斷

價格:免費
LLM:GPT-4o, GPT-3.5
桌面瀏覽器界面:是
專用Mac應用程序:是
專用Windows應用程序:否
多重身份驗證:是
通過測試:3/4(在GPT-3.5模式下)

ChatGPT對所有人免費提供。雖然Plus版和免費版都支持GPT-4o,且該版本通過了我所有的編程測試,但使用免費應用時有一些限制。

OpenAI將免費ChatGPT用戶視為低端用戶。如果流量高或服務器繁忙,免費ChatGPT將僅向免費用戶提供GPT-3.5。該工具還會限制你查詢的數量,然後降級或將你關閉。

我曾多次遇到免費版本的ChatGPT有效告訴我我問得太多問題。

ChatGPT是一個很好的工具,只要你不介意偶爾被關閉。即使是GPT-3.5在測試中的表現也超過了所有其他聊天機器人,而它失敗的測試對於一位在澳洲的獨立程序員開發的相對冷門的編程工具來說。

所以,如果預算對你來說很重要,並且你能忍受被中斷的情況,那麼選擇免費的ChatGPT。

Perplexity Free
最佳免費AI編程助手和研究助手

優點:
– 免費
– 通過大多數測試
– 多種研究工具

缺點:
– 僅限於GPT-3.5
– 限制提示結果

價格:免費
LLM:GPT-3.5
桌面瀏覽器界面:是
專用Mac應用程序:否
專用Windows應用程序:否
多重身份驗證:否
通過測試:3/4

我在這裡走了一條相當細的路,但因為Perplexity AI的免費版本基於GPT-3.5,所以測試結果明顯優於其他AI聊天機器人。

從編程的角度來看,這幾乎就是全部故事。但從研究和組織的角度來看,我的ZDNET同事Steven Vaughan-Nichols更喜歡Perplexity勝過其他AI。

他喜歡Perplexity為研究問題提供更完整的來源,引用其來源,組織回答,並提供進一步搜索的問題。

所以如果你在編程的同時還做其他研究,考慮使用Perplexity的免費版本。

DeepSeek V3
最佳開源聊天機器人(可正常運行)

優點:
– 免費
– 開源
– 高效的資源利用

缺點:
– 知識面弱
– 生態系統小
– 集成有限

價格:免費(聊天機器人),API需付費
LLM:DeepSeek MoE
桌面瀏覽器界面:是
專用Mac應用程序:否
專用Windows應用程序:否
多重身份驗證:否
通過測試:3/4

雖然DeepSeek R1是中國新推出的推理熱點,但根據我們的測試,目前真正的強大來自DeepSeek V3。這款聊天機器人幾乎通過了我們所有的編程測試,其表現不亞於(現在大多數已停止支持的)ChatGPT 3.5。

DeepSeek V3的不足之處在於它對某些相對冷門的編程環境的知識不足。不過,它在表現上超過了谷歌的Gemini、微軟的Copilot和Meta的Meta AI,這本身就是一個相當了不起的成就。我們會密切關注每個DeepSeek模型,請持續關注。

需要避免的聊天機器人
我測試了14個LLMs,其中七個通過了大多數測試。其他聊天機器人,包括一些被宣傳為適合編程的,僅通過了一項測試,而微軟的Copilot則沒有通過任何測試。

我提到它們是因為人們會問,而我也對它們進行了徹底測試。有些機器人對於其他工作表現良好,所以如果你只是對它們的功能感到好奇,我會指向它們的總體評價。

DeepSeek R1
與DeepSeek V3不同,進階推理版本DeepSeek R1在我們的編程測試中未能展示其推理能力。奇怪的是,新的失敗區域是對於一個相對簡單的AI來說並不難的領域——我們的字符串函數測試中的正則表達式代碼。

但這就是我們進行這些實際測試的原因。AI何時出現幻覺或直接失敗從來都不清楚,因此在你相信所有關於DeepSeek R1取代ChatGPT的炒作之前,先進行一些編程測試。到目前為止,儘管我對其大幅減少的資源利用率和開源特性印象深刻,但其編碼質量輸出仍然不穩定。

GitHub Copilot
GitHub的Copilot與VS Code無縫集成。它使得尋求編程幫助變得非常迅速和高效,尤其是在上下文中工作時。因此,令人失望的是,它編寫的代碼往往非常錯誤。

我無法良心推薦你使用GitHub Copilot的VS Code擴展。我擔心這樣會導致過於依賴插入代碼塊而不進行充分測試,而GitHub Copilot生成的代碼根本不適合生產環境。明年再試吧。

Meta AI
Meta AI是Facebook的通用AI。正如你在上面看到的,它在我們的四項測試中失敗了三項。

該AI生成了一個漂亮的用戶界面,但沒有任何功能。它確實找到了我煩人的錯誤,這是一個相當嚴重的挑戰。考慮到找到該錯誤所需的特定知識,我對它在一個簡單的正則表達式挑戰中失敗感到驚訝。

Meta Code Llama
Meta Code Llama是Facebook專為編程幫助設計的AI。你可以將其下載並安裝在服務器上。我在Hugging Face AI實例上進行了測試。

奇怪的是,儘管Meta AI和Meta Code Llama在我的四項測試中都失敗了,但它們失敗的問題卻不同。AI無法保證每次給出相同的答案,但這樣的結果讓我驚訝。我們會看看隨著時間的推移這是否會改變。

Claude 3.5 Sonnet
Anthropic聲稱其Claude AI聊天機器人的3.5 Sonnet版本非常適合編程。但在只通過一項測試後,我不太確定。

如果你不打算用於編程,Claude可能比免費版的ChatGPT更好。

我的ZDNET同事Maria Diaz報告說,Claude可以處理上傳的文件,處理的單詞數量超過免費版的ChatGPT,提供的資訊大約比GPT-3.5更新一年,並且可以訪問網站。

Gemini Advanced
Gemini Advanced是谷歌的20美元專業版Gemini(前身為Bard)聊天機器人。我原本期待這個工具在四項測試中表現得比一項好。有趣的是,它通過了唯一一項其他AI(除了GPT-4/4o)失敗的測試——對一種由一位澳大利亞程序員開發的相對冷門編程語言的知識。

所以,既然它知道那種語言,為什麼卻無法處理基本的正則表達式或其他一年級編程學生的問題呢?

Microsoft Copilot
你可能會認為這家擁有“開發者!開發者!開發者!”口號的公司會有一個在編程測試中表現更好的AI。微軟生產了一些全球最好的編程工具,但Copilot的表現卻不佳。

不過,微軟總是會從錯誤中學習。因此,我會稍後再檢查,看看這個結果是否會改善。

但我喜歡[插入名稱]。這是否意味著我必須使用不同的聊天機器人?
可能不需要。我將測試限制在日常編程任務上。沒有任何機器人被要求像海盜那樣說話、寫散文或畫畫。就像我們使用不同的生產力工具來完成特定任務一樣,隨意選擇幫助你完成手頭任務的AI。

唯一的問題是如果你在預算上有限且正在為專業版付費,則找到最符合你需求的AI,這樣你就不必為過多的AI附加功能付費。

只是時間問題
我的測試結果相當令人驚訝,尤其是考慮到微軟和谷歌的巨額投資。但這一創新領域正在以極快的速度發展,因此我們將隨著時間的推移回來更新測試和結果。請持續關注。

你是否曾使用過這些AI聊天機器人進行編程?你的經驗如何?請在下方評論告訴我們。

你可以在社交媒體上關注我日常項目的更新。請訂閱我的每周更新通訊,並在Twitter/X上關注我@DavidGewirtz,在Facebook上關注Facebook.com/DavidGewirtz,在Instagram上關注Instagram.com/DavidGewirtz,以及在YouTube上關注YouTube.com/DavidGewirtzTV。

在這篇文章中,作者詳細分析了多款AI編程助手的性能,並根據實際測試結果進行了排名。這不僅顯示了AI技術在編程領域的發展潛力,還提醒我們目前的技術仍然存在局限性。值得注意的是,雖然某些聊天機器人表現出色,但在特定場景下的可靠性仍需進一步驗證。

此外,文章也反映出在選擇AI工具時,使用者的需求和預算考量是至關重要的。未來,隨著技術的進步,這些AI助手的性能預計會有顯著提升,因此定期的測試和更新將有助於使用者做出更明智的選擇。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon