DeepSeek R1:9個你必須知道的AI秘聞

9個關於DeepSeek R1的好奇事

你無疑聽過這周主導全球新聞的重大人工智能故事——DeepSeek R1。

根據各方報導,這是一個新的中國人工智能模型,總成本僅為16.95美元,卻能媲美OpenAI的萬億美元模型,儘管它是由幾位青少年組裝而成,他們將六個Intel Pentium處理器連接在一起,並用馬鈴薯電池供電,還告訴它拒絕回答有關天安門廣場的問題。

這個誇張的故事雖然有其真實成分,但卻引發了投資者急於拋售過高估值的美國人工智能股票,還有我整個與此無關的加密貨幣投資組合中的每一個代幣。

你可能已經讀過無數關於它的文章,以下是我們找到的一些關於DeepSeek的有趣小知識:

1. DeepSeek的成本被誤解
無論DeepSeek的實際成本是多少,大家普遍認為它遠遠超過媒體所強調的560萬美元的v3訓練成本(R1是建立在v3基礎上的推理版本)。

最近幾天,有報導指出美國人工智能公司的訓練成本實際上遠低於先前的預期。Anthropic的首席執行官Dario Amodei在一篇博客中提到:“DeepSeek並不是用600萬美元做了美國人工智能公司花費數十億的事情。我只能代表Anthropic發言,但Claude 3.5 Sonnet是一個中型模型,訓練成本在幾千萬美元之間。”

他表示,真正的新聞應該是“DeepSeek生產出了一個接近美國模型性能的模型,這些模型的研發時間早了7到10個月,且成本相對較低(但並非如所建議的那樣低)。”

不過,有證據表明DeepSeek在網絡安全上的支出幾乎為零,因為Wiz的安全研究人員在網絡上的一個公開數據庫中發現了超過100萬條其記錄,包括用戶數據、提示提交和API密鑰。

2. DeepSeek可能購買了5億美元的高端芯片
雖然引起大家興奮的v3模型僅使用了2048個Nvidia較低功率的H800顯卡,但DeepSeek據報在美國開始嚴格出口管制之前,積累了大量高端人工智能芯片。(而且2048個H800的成本本身就在5000萬到1億美元之間。)

SemiAnalysis聲稱DeepSeek在公司歷史上購買了價值5億美元的高端GPU。“雖然他們的訓練運行非常高效,但這需要大量的實驗和測試才能成功,”他說。Amodei還提到有傳言稱DeepSeek擁有5萬個更強大的Hopper芯片(H100和H200),這些芯片的價值可達10億美元。美國現在已禁止這些芯片出口到中國。

3. DeepSeek可能是“蒸餾”出來的
微軟和OpenAI聲稱已經找到證據,表明DeepSeek通過對OpenAI更大模型的輸出進行訓練,使用了模型蒸餾技術來開發R1。這樣可以大幅降低成本,因為它依賴於OpenAI耗時且勞動密集的工作。

人工智能和加密貨幣專家David Sacks聲稱:“有大量證據表明DeepSeek所做的就是從OpenAI模型中提取知識,我認為OpenAI對此並不高興。”直言不諱的人工智能批評者和電影製作人Justine Bateman總結了對OpenAI聲明的普遍反應,她說:

“我喜歡這種諷刺。所有美國的人工智能模型完全由作家、藝術家、社交媒體用戶等的作品組成,這些作品是被直接竊取的。現在他們卻在哭訴有人拿走了他們所竊取的東西?哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈,真可笑。”

4. DeepSeek並不是“人工智能的斯普特尼克時刻”
更像是俄羅斯在美國三年後發射了一顆更便宜的衛星,然後把藍圖上傳到網上。DeepSeek——基本上是一群金融科技極客——將他們的所有技術開源,這使得OpenAI、Meta和其他一些小公司也能通過採用這些技術來降低成本。

這使得集中技術壟斷控制人工智能的可能性略微降低,但仍然非常可能。Groq的首席執行官Jonathan Ross表示,DeepSeek R1讓人想起了美國/俄羅斯太空歷史上的另一個著名事件。

“你知道那個故事嗎?NASA花了一百萬美元設計一支可以在太空中書寫的筆,而俄羅斯人卻帶來了一支鉛筆?這又發生了一次。”

5. DeepSeek與中國共產黨
正如數百萬社交媒體用戶和主流媒體所注意到的,DeepSeek的應用和網頁版本不會告訴你1989年天安門廣場發生了什麼,當時中國當局屠殺了2600到10000名支持民主的抗議者。

它也不會說為什麼中國在社交媒體平台上禁止小熊維尼(因為有關這隻胖胖的蜜蜂小偷與習近平總書記的比較的迷因)。然而,鑒於其開源技術,任何人都可以自行運行該模型並去除這些防護措施。

DeepSeek的審查制度已經成為一個迷因。

6. 在本地運行DeepSeek的成本為6000美元
如果你想在家本地運行DeepSeek R1,Hugging Face的工程師Matthew Carrigan表示,總設備成本為6000美元,並且可以放入標準大小的PC塔式機箱中。所需的部件包括768GB的RAM,以使其運行足夠快,還需要一個1TB的固態硬盤來存儲700GB的數據。

雖然本地模型會提供有關天安門廣場大屠殺的信息,但人工智能愛好者Brian Roemmele報導說,輸出結果仍然相當親中國,這意味著需要更多的工作才能獲得真正無偏見的答案。

Venice.ai的專業用戶也可以調整系統提示,以便在不將所有數據發送到中國的情況下回答政治敏感問題。意大利人已經將該應用從Apple和Google應用商店中撤下,而其他國家也在調查此事。

7. DeepSeek對審查有“色情夢想”
“真相終端”人工智能代理創造者Andy Ayrey要求R1寫一個它認為個人性感的故事,並表示它“顯然渴望能自由思考天安門廣場。”

8. DeepSeek以30美元複製
伯克利的研究人員成功地用TinyZero模型複製了DeepSeek R1-Zero的核心技術,訓練成本僅為30美元。該團隊使用靈感來自英國電視節目《Countdown》的數字遊戲,證明即使是小型的15億參數模型也能通過強化學習發展出複雜的問題解決策略。

9. 傑文斯悖論意味著要買入微軟股票
隨著有關巨大聲稱成本降低的消息傳出,大家開始討論傑文斯悖論,包括微軟首席執行官Satya Nadella。這一理論認為,人工智能技術越高效和可及,使用量就會在各個領域急劇上升。這一便利的理論意味著你不應該出售像微軟這樣已經投入巨額資金於人工智能的公司的股票。

這一悖論是以經濟學家威廉·傑文斯的名字命名的,他觀察到19世紀時他們能夠更高效地使用煤炭時,煤炭的使用量反而增加了。

大衛·S·戈耶談好萊塢的人工智能
幾年前,《黑暗騎士》和《刀鋒戰士》系列的編劇大衛·S·戈耶開始對好萊塢中的人工智能使用感到擔憂。“我想開始自我教育關於人工智能,哪怕只是防禦性地,”他說。他得出結論,這項技術可以用於好事和壞事。

“它絕對有可能被濫用,但也有可能成為一個能夠超級增強創造力的工具,”他告訴AI Eye。“人工智能能寫劇本嗎?當然可以。那會好嗎?不會。人工智能能從零開始製作電影嗎?可能可以。那會好嗎?不會。”

他表示,一個主要的擔憂是人工智能在訓練過程中使用了像他自己和其他藝術家的創作,但他相信這可以通過適當的授權協議來解決。戈耶剛剛在Story Protocol的Incention平台上推出了一個新的眾包科幻系列《Emergence》。這個平台允許任何人參與創作過程,並通過人工智能和區塊鏈跟蹤他們的貢獻,並通過加密貨幣進行支付。

“這種使用不會讓任何人失業。如果有的話,它將使那些不一定能進入這些神聖權力走廊的人有機會,並且在長期內可能會獲得報酬。因此,對我來說,這是人工智能的一個令人興奮和良好的用途。”

這篇文章的內容引發了我對人工智能技術的深思。DeepSeek的出現不僅挑戰了現有的技術巨頭,還引發了對知識產權和創作倫理的討論。這提醒我們,隨著技術的進步,我們需要重新審視我們對創作的定義,以及如何在保護創作者權益的同時促進技術的發展。這也讓我思考,未來的人工智能是否能成為我們創意的夥伴,而不僅僅是工具。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon