DeepSeek AI 寫 Code 大測試：中國開源 AI 勁過 Gemini？

zero comment

明日屬於今天擁抱它的人

我測試了DeepSeek AI的編程能力——這是它失敗的地方

DeepSeek會成為人工智能的新寵嗎？這款中國開源聊天機器人在編程測試中超越了一些知名的人工智能，儘管它所用的基礎設施遠少於競爭對手。

撰文：David Gewirtz，資深貢獻編輯
2025年1月28日早上5:24 PT

DeepSeek在上週末突如其來地進入了全球視野。它之所以引人注目有三個主要原因：

1. 它是一款來自中國的人工智能聊天機器人，而非美國的產品。
2. 它是開源的。
3. 它所需的基礎設施遠少於我們所熟悉的大型人工智能工具。

鑒於美國政府對TikTok及其可能涉及的中國政府代碼的擔憂，來自中國的新人工智能無疑會引起關注。ZDNET的Radhika Rajkumar在她的文章《為什麼中國的DeepSeek可能會破裂我們的人工智能泡沫》中深入探討了這些問題。

在這篇文章中，我們不討論政治，而是將DeepSeek置於我曾經對10個其他大型語言模型進行的同一套編程測試中。

簡單來說：表現令人印象深刻，但並不完美。我們來深入了解。

測試1：編寫WordPress插件
這個測試其實是我第一次測試ChatGPT編程能力的測試。當時，我的妻子需要一個WordPress插件，以幫助她為她的在線小組運行一個參與設備。

她的需求相當簡單。插件需要接受一個名字列表，每行一個名字。然後，它必須對名字進行排序，如果有重複的名字，則需要將它們分開，以免並排列出。

我當時沒有時間為她編寫代碼，所以我決定隨意挑戰AI。令我驚訝的是，它成功了。

從那時起，這就成為我評估AI編程能力的首個測試。這需要AI知道如何為WordPress框架設置代碼，並能夠清晰地遵循提示來創建用戶界面和程序邏輯。

大約只有一半的AI能完全通過這個測試。不過，現在我們可以把DeepSeek加入勝利者行列。

DeepSeek成功創建了用戶界面和程序邏輯，完全符合要求。目前為止，DeepSeek已經通過了四項測試中的一項。

測試2：重寫字符串函數
有用戶抱怨他無法在捐款輸入框中輸入美元和美分。原本的代碼僅允許輸入美元。因此，這次測試的內容是給AI提供我寫的例程，要求它重寫以允許同時輸入美元和美分。

通常，這會導致AI生成一些正則表達式驗證代碼。DeepSeek確實生成了有效的代碼，儘管還有改進的空間。DeepSeek寫的代碼過於冗長且重複。我最擔心的是，DeepSeek的驗證確保了最多兩位小數的驗證，但如果輸入一個非常大的數字（例如0.30000000000000004），則使用parseFloat不具備明確的四捨五入知識。

我會給DeepSeek這一項，因為這些問題並不會導致程序在用戶運行時崩潰，並且會生成預期的結果。

這讓DeepSeek的成績來到四項測試中的兩項勝利。

測試3：找出一個令人厭煩的錯誤
這是一個我曾經面對的一個非常煩人的錯誤，難以追蹤的測試。我再次決定看看ChatGPT是否能解決這個問題，它成功了。

挑戰在於答案並不明顯。實際上，挑戰的關鍵在於有一個明顯的答案，根據錯誤信息，但這個明顯的答案是錯誤的。這不僅讓我困惑，還經常讓一些AI困擾。

解決這個錯誤需要理解WordPress中具體API調用的工作原理，能夠超越錯誤信息查看代碼，然後找到錯誤所在。

DeepSeek也通過了這一項，讓我們的勝利數量來到三項，已經超過了Gemini、Copilot、Claude和Meta。

會不會DeepSeek一舉成功？讓我們來看看。

測試4：編寫腳本
又一個失敗。這是一個具有挑戰性的測試，因為它要求AI理解三個環境之間的相互作用：AppleScript、Chrome對象模型和一個名為Keyboard Maestro的Mac腳本工具。

我本來會認為這是一個不公平的測試，因為Keyboard Maestro並不是一個主流的編程工具。但ChatGPT輕鬆應對了這個測試，準確理解了每個工具處理問題的部分。

不幸的是，DeepSeek並沒有這種水平的知識。它不知道需要將任務拆分為對Keyboard Maestro和Chrome的指令。它對AppleScript的知識也相當薄弱，寫出的AppleScript自定義例程不符合語言的本土特性。

這讓DeepSeek的總成績為三項正確測試和一項失敗。

總結思考
我發現DeepSeek堅持使用像gmail.com這樣的公共雲電子郵件地址（而不是我正常的企業域名電子郵件地址）讓我感到不便。它的響應能力也有幾次失敗，導致進行測試的過程比我希望的要長。

在一天的時間裡，我一度不確定是否能寫這篇文章，因為我在註冊時遇到了這個錯誤：

DeepSeek的在線服務最近遭遇了大規模的惡意攻擊。為了確保服務的持續性，註冊暫時限制為+86的電話號碼。現有用戶可以正常登錄。感謝您的理解和支持。

然後，我成功進入並進行了測試。

DeepSeek似乎在生成的代碼上過於冗長。測試4中的AppleScript代碼既錯誤又過於冗長。測試2中的正則表達式代碼是正確的，但可以用更易於維護的方式來編寫。

我確實對DeepSeek超越Gemini、Copilot和Meta感到印象深刻。但它似乎仍然停留在舊版GPT-3.5的水平，這意味著還有很大的改進空間。

對於一個全新的工具，運行在比其他工具低得多的基礎設施上，這可能是一個值得關注的AI。

你怎麼看？你試過DeepSeek嗎？你在使用任何人工智能來支持編程嗎？請在下方評論告訴我們。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

DeepSeek AI 寫 Code 大測試：中國開源 AI 勁過 Gemini？

📣 即刻用 Google Workspace｜唔使vpn都能享用 Google AI Pro

chatgpt

DeepSeek AI 寫 Code 大測試：中國開源 AI 勁過 Gemini？

📣 即刻用 Google Workspace｜唔使vpn都能享用 Google AI Pro

chatgpt

Related Articles

芬蘭教細路識破AI深偽新聞秘訣！

芬蘭由細教AI識破假新聞秘技

換個遮陽板嚟修車？雪佛蘭Tahoe竟然唔郁！