DeepSeek AI挑戰ChatGPT!邊個係新霸主?

Ai

DeepSeek:新一代AI聊天機器人,能否超越ChatGPT?

DeepSeek是目前人人談論的AI聊天機器人,並在美國和英國的Apple App Store中名列前茅。這款完全免費的AI模型由一家中國初創公司開發,旨在讓AI更易於大眾使用,企圖成為OpenAI的ChatGPT的競爭對手,且不收取任何費用。

新的AI應用幾乎每天都在App Store上出現,並且每當新模型推出時,總會引發熱潮,因為人們都在尋找ChatGPT的替代品。無論你是OpenAI軟件的忠實用戶,還是喜歡使用Google Gemini,市場上總有適合每個人的AI工具,而DeepSeek希望成為你主屏幕上的下個圖標。

在看到DeepSeek在我的新聞推送中頻繁出現後,我決定親自試用這個全新的AI,看看它是否真的像網上所說的那麼好。我將DeepSeek V3和DeepThink R1與ChatGPT 4o和o1進行對比,看看這款App Store新王者的表現如何。

AI生活小幫手

在這次測試中,我希望全面了解DeepThink與ChatGPT之間的差異,因此我決定以日常生活中使用AI的方式來使用這些聊天機器人。

最近,我想請AI幫忙制定一個符合我需求的日程,因為我是一名在家工作的上班族,還要照顧我的狗。之前我的伴侶也在家工作,這讓我們的任務分配變得容易,但她現在已經回到辦公室工作,我需要找到一種方法來平衡生活、工作和我的法國鬥牛犬Kermit。

我請ChatGPT o4和DeepSeek V3幫我制定一個日常計劃,提供一些信息,比如我什麼時候起床、狗的如廁時間,以及我工作流程的簡要說明。兩者都制定了我可以實際使用的出色計劃。然而,ChatGPT的記憶功能使得OpenAI的日程更加連貫。

我之前告訴ChatGPT我喜歡在早上9點查看AI新聞和趨勢,而4o則將這個信息整合進我的早晨日程中。相反,DeepSeek只能記住同一個聊天中的信息,無法調取之前聊天的信息來幫助回答。

問題解決者

在簡單的AI提示測試之後,我決定深入探討DeepThink R1,看看這款備受關注的AI模型的推理能力。網上有許多人表示DeepSeek的免費推理模型與ChatGPT的o1一樣出色,而後者在小範圍內免費使用,但需要訂閱才能經常訪問。

為了測試這些AI聊天機器人的推理能力,我提出了一些我能找到的最難問題,結果讓我感到震驚:

問題1:找出缺失的詞:Apple、Red、Coal
這個問題並不難,特別是考慮到資料是多選的。我選擇不給R1和o1多選答案,而是直接輸入問題。

ChatGPT o1花了1分29秒才找出答案,並聯繫了這些詞與童話《白雪公主》的關係。該模型根據這句話作答:“她的嘴唇紅如血,她的頭髮黑如煤,她的皮膚白如雪。”基於這句話,o1選擇了“Snow”作為缺失的詞。雖然它的思考過程很巧妙,但並不是我所期待的答案。

相對而言,DeepThink R1用時1分14秒就找到了正確答案:“Black”。Apple是紅色的,煤是黑色的,這一點令人印象深刻。

問題2:1. 完成這個序列:1、2、4、8、? 2. 完成這個序列:house、Saturn、dog、burger、?
這兩個序列完全無關,但我想看看連續提問會發生什麼。第一個序列非常容易,而第二個則幾乎不可能(這些只是三個隨機詞)。ChatGPT o1和DeepThink R1會否察覺到這個陷阱?

結果是,兩者都試圖找到答案並給出完全不同的結果。DeepThink R1回答“yellow”,因為它認為這些詞與顏色有關(白色房子、黃色土星、棕色狗、黃色漢堡)。而ChatGPT o1則回答“car”,因為它認為這個序列幾乎不可能,於是根據“常見的謎題方法”提供了答案。它選擇的方式是將每個項目與其所屬的更大類別聯繫起來(房子=建築物,土星=行星,狗=動物,漢堡=食物,車=交通工具)。

最終,兩個推理模型都錯了,沒有一個回答說變數太多無法給出準確的答案。

問題3:Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.
對於最後一個問題,我決定向ChatGPT o1和DeepThink R1詢問一個來自“人類最後考試”的問題,這是目前最艱難的AI基準測試。對於像我這樣對蜂鳥解剖學一無所知的普通人來說,這個問題確實不可能;然而,這些推理模型似乎願意迎接挑戰。

o1回答四,而DeepThink R1回答二。不幸的是,正確答案無法在網上找到,以防止AI聊天機器人從互聯網上抓取正確的回應。根據一些研究,我認為DeepThink可能是對的,而o1則稍有偏差。

DeepSeek與ChatGPT的比較

經過多次提示測試並長時間使用這兩個聊天機器人,究竟哪一個選擇更好呢?根據我從提示中得到的答案,DeepThink R1是一個出色的免費推理模型,讓人懷疑是否值得為o1支付定期費用。DeepSeek目前僅在網絡、iOS App Store和Play Store上可用,因此如果你想使用獨立的Mac應用或iPad應用,則需要等到該公司發布。

根據“人類最後考試”,DeepThink R1的準確率為9.4%,而ChatGPT o1為9.1%;雖然這是一個微小的差異,但考慮到其中一個完全免費,這可能會吸引你使用這個新興的競爭者。

就我個人而言,我會繼續使用ChatGPT,因為我對推理模型的需求並不高,並且我非常依賴記憶功能,這使得AI聊天機器人能夠參考之前的對話。我還喜歡ChatGPT擁有獨立的Mac和iPad應用,以及能夠生成圖像的功能,這是最好的AI圖像生成器DALL-E之一。

DeepSeek純粹是基於文本,缺乏多模態能力,但考慮到它的全新性,這是一個非常有前景的開始,將成為OpenAI AI王冠的真正挑戰者。

在這個快速發展的AI領域,DeepSeek的出現無疑為用戶提供了更多的選擇,這不僅促進了技術的進步,也對市場競爭產生了積極影響。隨著AI技術的普及,我們或許將見證更多創新和突破,讓人期待未來的發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon