DeepSeek AI挑戰ChatGPT！邊個係新霸主？

zero comment

DeepSeek：新一代AI聊天機器人，能否超越ChatGPT？

DeepSeek是目前人人談論的AI聊天機器人，並在美國和英國的Apple App Store中名列前茅。這款完全免費的AI模型由一家中國初創公司開發，旨在讓AI更易於大眾使用，企圖成為OpenAI的ChatGPT的競爭對手，且不收取任何費用。

新的AI應用幾乎每天都在App Store上出現，並且每當新模型推出時，總會引發熱潮，因為人們都在尋找ChatGPT的替代品。無論你是OpenAI軟件的忠實用戶，還是喜歡使用Google Gemini，市場上總有適合每個人的AI工具，而DeepSeek希望成為你主屏幕上的下個圖標。

在看到DeepSeek在我的新聞推送中頻繁出現後，我決定親自試用這個全新的AI，看看它是否真的像網上所說的那麼好。我將DeepSeek V3和DeepThink R1與ChatGPT 4o和o1進行對比，看看這款App Store新王者的表現如何。

AI生活小幫手

在這次測試中，我希望全面了解DeepThink與ChatGPT之間的差異，因此我決定以日常生活中使用AI的方式來使用這些聊天機器人。

最近，我想請AI幫忙制定一個符合我需求的日程，因為我是一名在家工作的上班族，還要照顧我的狗。之前我的伴侶也在家工作，這讓我們的任務分配變得容易，但她現在已經回到辦公室工作，我需要找到一種方法來平衡生活、工作和我的法國鬥牛犬Kermit。

我請ChatGPT o4和DeepSeek V3幫我制定一個日常計劃，提供一些信息，比如我什麼時候起床、狗的如廁時間，以及我工作流程的簡要說明。兩者都制定了我可以實際使用的出色計劃。然而，ChatGPT的記憶功能使得OpenAI的日程更加連貫。

我之前告訴ChatGPT我喜歡在早上9點查看AI新聞和趨勢，而4o則將這個信息整合進我的早晨日程中。相反，DeepSeek只能記住同一個聊天中的信息，無法調取之前聊天的信息來幫助回答。

問題解決者

在簡單的AI提示測試之後，我決定深入探討DeepThink R1，看看這款備受關注的AI模型的推理能力。網上有許多人表示DeepSeek的免費推理模型與ChatGPT的o1一樣出色，而後者在小範圍內免費使用，但需要訂閱才能經常訪問。

為了測試這些AI聊天機器人的推理能力，我提出了一些我能找到的最難問題，結果讓我感到震驚：

問題1：找出缺失的詞：Apple、Red、Coal
這個問題並不難，特別是考慮到資料是多選的。我選擇不給R1和o1多選答案，而是直接輸入問題。

ChatGPT o1花了1分29秒才找出答案，並聯繫了這些詞與童話《白雪公主》的關係。該模型根據這句話作答：“她的嘴唇紅如血，她的頭髮黑如煤，她的皮膚白如雪。”基於這句話，o1選擇了“Snow”作為缺失的詞。雖然它的思考過程很巧妙，但並不是我所期待的答案。

相對而言，DeepThink R1用時1分14秒就找到了正確答案：“Black”。Apple是紅色的，煤是黑色的，這一點令人印象深刻。

問題2：1. 完成這個序列：1、2、4、8、？ 2. 完成這個序列：house、Saturn、dog、burger、？
這兩個序列完全無關，但我想看看連續提問會發生什麼。第一個序列非常容易，而第二個則幾乎不可能（這些只是三個隨機詞）。ChatGPT o1和DeepThink R1會否察覺到這個陷阱？

結果是，兩者都試圖找到答案並給出完全不同的結果。DeepThink R1回答“yellow”，因為它認為這些詞與顏色有關（白色房子、黃色土星、棕色狗、黃色漢堡）。而ChatGPT o1則回答“car”，因為它認為這個序列幾乎不可能，於是根據“常見的謎題方法”提供了答案。它選擇的方式是將每個項目與其所屬的更大類別聯繫起來（房子=建築物，土星=行星，狗=動物，漢堡=食物，車=交通工具）。

最終，兩個推理模型都錯了，沒有一個回答說變數太多無法給出準確的答案。

問題3：Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.
對於最後一個問題，我決定向ChatGPT o1和DeepThink R1詢問一個來自“人類最後考試”的問題，這是目前最艱難的AI基準測試。對於像我這樣對蜂鳥解剖學一無所知的普通人來說，這個問題確實不可能；然而，這些推理模型似乎願意迎接挑戰。

o1回答四，而DeepThink R1回答二。不幸的是，正確答案無法在網上找到，以防止AI聊天機器人從互聯網上抓取正確的回應。根據一些研究，我認為DeepThink可能是對的，而o1則稍有偏差。

DeepSeek與ChatGPT的比較

經過多次提示測試並長時間使用這兩個聊天機器人，究竟哪一個選擇更好呢？根據我從提示中得到的答案，DeepThink R1是一個出色的免費推理模型，讓人懷疑是否值得為o1支付定期費用。DeepSeek目前僅在網絡、iOS App Store和Play Store上可用，因此如果你想使用獨立的Mac應用或iPad應用，則需要等到該公司發布。

根據“人類最後考試”，DeepThink R1的準確率為9.4%，而ChatGPT o1為9.1%；雖然這是一個微小的差異，但考慮到其中一個完全免費，這可能會吸引你使用這個新興的競爭者。

就我個人而言，我會繼續使用ChatGPT，因為我對推理模型的需求並不高，並且我非常依賴記憶功能，這使得AI聊天機器人能夠參考之前的對話。我還喜歡ChatGPT擁有獨立的Mac和iPad應用，以及能夠生成圖像的功能，這是最好的AI圖像生成器DALL-E之一。

DeepSeek純粹是基於文本，缺乏多模態能力，但考慮到它的全新性，這是一個非常有前景的開始，將成為OpenAI AI王冠的真正挑戰者。

在這個快速發展的AI領域，DeepSeek的出現無疑為用戶提供了更多的選擇，這不僅促進了技術的進步，也對市場競爭產生了積極影響。隨著AI技術的普及，我們或許將見證更多創新和突破，讓人期待未來的發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。