六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

Grok-3挑戰OpenAI o1 Pro!馬斯克xAI新作勁到震?

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

Grok-3在推理方面超越DeepSeek-R1,與OpenAI的o1 Pro同樣強大:Karpathy

xAI,即由Elon Musk領導的人工智能模型製造商,最近推出了其最新系列模型Grok-3。

根據基準測試,Grok-3在多個競爭模型中表現優越,並且成為首個在Chatbot Arena平台上得分超過1400的模型,該平台專門用於比較和評估人工智能模型。

Grok-3還提供推理(Think)能力,並擁有一個名為DeepSearch的深度研究功能。

Eureka Labs的創始人Andrej Karpathy,曾是OpenAI和Tesla的研究人員,獲得了Grok-3的提前使用權。他在X平台上分享了他的使用體驗,指出該模型在執行複雜任務時表現出色,例如為流行棋盤遊戲《卡坦島的開拓者》創建六邊形網格。

他表示:「很少有模型能穩定地做到這一點。OpenAI的頂級思考模型(例如o1-pro,每月200美元)也能做到,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude都無法做到。」

Karpathy還上傳了OpenAI的GPT-2技術文檔,以估算訓練該模型所需的計算量。他指出,儘管Grok-3和GPT-4o在這項任務中表現不佳,但Grok-3在推理方面卻表現「非常好」,甚至OpenAI的o1 Pro也未能完成。

他補充道:「我總體的印象是,這個模型的能力大約在o1-pro的水平之間,並且超越了DeepSeek-R1,不過我們仍然需要實際的評估來進行比較。」

Karpathy還測試了Grok-3的DeepSearch能力,他發現其表現與Perplexity的深度研究相當,但尚未達到OpenAI提供的水平。他發現該模型出現了虛構的網址,並報告了錯誤的事實,且未提供引用來源。

他提到:「當我要求它創建一份有關主要大型語言模型實驗室及其總資金和員工數量的報告時,它列出了12個主要實驗室,但卻沒有包括自己(xAI)。」

在使用該模型約兩小時後,他總結道:「Grok 3 + 推理感覺大約在OpenAI最強模型(o1-pro,每月200美元)的最前沿境界,並且稍微好於DeepSeek-R1和Gemini 2.0 Flash Thinking。」

其他像Lex Fridman一樣也獲得了這個模型的提前使用權,他在X平台上表示:「我的思維被震撼了,這是一個非常令人印象深刻的模型。」

這篇報導清楚地展示了Grok-3的強大性能,特別是在複雜推理任務中的優越性,這對於人工智能技術的發展無疑是一個重要的里程碑。Karpathy的評價提供了對這一模型的深入見解,並且指出了當前模型在資料準確性和引用方面的不足,這讓我們反思在推動人工智能進步的同時,如何更好地保證數據的可靠性和準確性。未來,隨著技術的持續進步,這些模型將如何進一步完善,並在真實世界中發揮更大的作用,無疑是值得關注的焦點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

✈️ Mastercard 尊享優惠|預訂機票+酒店減高達 HK$200

2025 年 7 月 4 日 至 10 月 2 日
逢星期五於 Trip.com 使用 Mastercard 預訂機票或酒店,
輸入指定優惠代碼即可享折扣。數量有限,先到先得!

即刻搶代碼 🔗