Elon Musk的Grok 3與ChatGPT及DeepSeek:現今最佳AI聊天機器人是誰?
Elon Musk的xAI終於推出了其新AI模型Grok 3,聲稱其性能超越了OpenAI、DeepSeek等競爭對手。但這是否真的成立?
Grok 3擁有全新的推理功能及更強大的計算能力,雖然其進步顯著,但AI專家對其前景仍有疑慮。我們來看看它與目前市場上最優秀的AI模型相比如何。
Grok 3是否在AI推理上取得突破?
Musk在X平台的直播中介紹了Grok 3系列,推出了Grok 3推理(beta)和Grok 3迷你推理。與傳統的生成式AI模型不同,基於推理的AI能夠「思考」問題,從而減少錯誤信息或幻覺的可能性。這是提升AI可靠性和準確性的重要里程碑。
xAI聲稱Grok 3在關鍵基準測試中超越了OpenAI的o1和DeepSeek-R1。在Chatbot Arena的盲測中,Grok 3以代號「巧克力」獲得了高排名,證明其儘管晚進入市場,仍然能夠與行業領先者相媲美。
ChatGPT會被取代嗎?
AI先驅Andrej Karpathy,一位OpenAI的創始成員和前Tesla AI總監,測試了Grok 3並分享了他的見解。
他表示:「我今天早些時候獲得了Grok 3的早期訪問權限,讓我成為少數幾個能進行快速檢查的人之一。Grok 3顯然擁有最先進的思考模型(「思考」按鈕),在我的Settler’s of Catan測試中表現出色。」
根據他的評價,Grok 3的深度搜索推理功能與OpenAI的高端模型如o1-pro(每月200美元)具有競爭力,並且略微超越了DeepSeek-R1。
儘管如此,Karpathy認為Grok 3不足以讓用戶取消ChatGPT的訂閱。
AI教授Ethan Mollick也表達了類似的看法,指出「Grok 3的表現符合預期」,並補充說計算能力和速度仍然是AI發展的關鍵區別因素。
xAI的基準爭議:他們是否過度炒作Grok 3?
Grok 3的性能圖表迅速走紅,顯示其超越了主要競爭對手。然而,OpenAI的Rex Asabor對這些聲明提出了質疑,分享了一個「更新」的圖表,顯示OpenAI的o3模型在數學和科學基準測試中擊敗了Grok 3。
雖然OpenAI的o3尚未公開,但這一比較為xAI的聲明增添了一層懷疑的色彩。
公正地說,xAI在進行測試時可能未能獲得OpenAI最新的基準分數。然而,這提醒我們AI競賽遠未結束。
Grok 3的指數增長:冰山一角?
儘管存在懷疑,但Mashable指出Grok 3的快速發展是不可否認的。Google和OpenAI在發展上享有多年的先機——分別是13年和8年,而xAI是在2023年才推出。不過,Grok 3已經在討論中成為一個領先的AI模型。
Musk還表示,Grok 3的訓練計算能力是Grok 2的10倍,使用了200,000個GPU。這再次證實了計算量的增加會提升AI性能的普遍規則。
不過,研究者Gary Marcus質疑,隨著計算能力的擴大,AI智力是否會在某一閾值之後不再增長。
Grok 3的局限性:仍在進步中
儘管Grok 3已經取得了很大進展,但它仍然存在許多與其他AI模型相似的問題:
– **幽默能力不足**:與許多AI模型相似,Grok 3在產生幽默方面表現不佳,經常使用平淡的爸爸笑話。
– **SVG圖像生成挑戰**:AI模型常常難以正確定位複雜的視覺元素。Grok 3在這方面的表現超過了Gemini 1.5 Flash,但仍然存在空間關係的問題。
– **政治偏見問題**:Musk將Grok形容為對抗被批評的政治正確AI模型的「反覺醒」選擇。但Karpathy發現,Grok 3不會討論一些倫理挑戰,這可能使其變得比Musk的受眾更「過於敏感」。Musk過去提到早期的Grok模型因公開可用的訓練材料而偏向左派。他承諾未來的更新將使Grok在政治上更加中立。
最佳選擇是什麼?
Grok 3目前僅對X Premium+訂閱者開放,該計劃最近的費用已提升至每月50美元。儘管該模型取得了顯著進展,但可能仍不足以取代OpenAI的ChatGPT和DeepSeek(在澳大利亞被禁止)的地位。
對於AI和Musk的粉絲而言,Grok 3是AI領域的一個受歡迎的補充。然而,對於任何尋求最佳AI模型的人來說,Grok 3目前可能還不足以驅使用戶從頂級行業參與者那裡轉換。
在Decrypt的另一篇評論中指出,Grok-3比其他AI聊天機器人更能容納「言論自由」。在編程方面,它的表現「更好」,但在數學推理上,OpenAI和DeepSeek仍然是更優秀的選擇。
評論:
Grok 3的推出無疑為AI聊天機器人市場注入了新鮮血液,尤其是在推理能力的提升方面,這對於提升AI的可靠性和準確性至關重要。然而,市場的競爭依然激烈,尤其是OpenAI的持續創新和DeepSeek的穩固地位。在未來的發展中,Grok 3需要不斷克服目前存在的局限性,包括幽默和政治偏見等問題,才能真正贏得用戶的青睞。Musk的承諾和未來的更新將是關鍵,值得我們持續關注。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
