非專家也能建AI模型

Ai

幫助非專家構建先進的生成式人工智能模型

MosaicML由MIT校友和教授共同創立,使深度學習模型更快更高效。其被Databricks收購後,擴大了這一使命。

人工智能的影響將永遠不會公平,如果只有一家公司構建和控制這些模型(更不用說進入它們的數據了)。不幸的是,當今的AI模型由數十億個參數組成,必須進行訓練和調整以最大化每個用例的性能,這使得最強大的AI模型對大多數人和公司來說遙不可及。

MosaicML的使命是讓這些模型更具可及性。該公司由Jonathan Frankle(PhD ’23)和MIT副教授Michael Carbin共同創立,開發了一個平台,讓用戶可以使用自己的數據訓練、改進和監控開源模型。該公司還使用Nvidia的圖形處理單元(GPUs)構建了自己的開源模型。

這種方法使得當MosaicML剛開始時還處於初期階段的深度學習,變得對更多的組織可及,隨著Chat GPT-3.5的發布,生成式AI和大型語言模型(LLMs)的興奮情緒爆發。這也使MosaicML成為數據管理公司的一個強大補充工具,這些公司同樣致力於幫助組織在不將數據交給AI公司情況下利用其數據。

去年,這一理念導致MosaicML被Databricks收購,後者是一家全球數據存儲、分析和AI公司,與一些世界上最大的組織合作。自收購以來,這兩家公司聯合發布了一個目前建成的性能最優秀的開源通用LLM之一。這個模型被稱為DBRX,已在閱讀理解、常識問題和邏輯謎題等任務中創下了新的基準。

此後,DBRX因其成為最快的開源LLM之一而聞名,並且在大企業中尤為有用。

但對Frankle而言,比模型更重要的是,DBRX的意義在於它是使用Databricks工具構建的,這意味著該公司的任何客戶都可以用自己的模型實現類似的性能,從而加速生成式AI的影響。

“老實說,看到社區用它做酷炫的事情,這是最令人興奮的,”Frankle說。“對我作為一名科學家來說,這是最棒的部分。不是模型,而是社區在它之上做的所有驚人的事情。那才是魔法發生的地方。”

使算法高效

Frankle在普林斯頓大學獲得計算機科學的學士和碩士學位後,於2016年來到MIT攻讀博士學位。剛開始在MIT時,他並不確定自己想研究計算的哪個領域。他的最終選擇改變了他的人生軌跡。

Frankle最終決定專注於一種稱為深度學習的人工智能形式。當時,深度學習和人工智能並未像今天這樣激發廣泛的興奮。深度學習是一個已經存在數十年的研究領域,但尚未有太多成果。

“我不認為當時有人預料到深度學習會像現在這樣爆發,”Frankle說。“內行人認為這是一個非常酷的領域,有很多未解決的問題,但當時並不常用大型語言模型(LLM)和生成式AI這樣的詞語。那是早期階段。”

事情在2017年變得有趣起來,谷歌研究人員發布了一篇現已臭名昭著的論文,展示了一種新的深度學習架構,稱為Transformer,這種架構在語言翻譯方面出乎意料地有效,並在內容生成等多個應用中展現出潛力。

2020年,最終成為Mosaic聯合創始人的技術高管Naveen Rao突然給Frankle和Carbin發了郵件。Rao讀了一篇兩人共同撰寫的論文,研究人員在其中展示了一種在不犧牲性能的情況下縮小深度學習模型的方法。Rao向這對搭檔提議創辦一家公司。他們加入了曾與Rao合作過一家被英特爾收購的AI初創公司的Hanlin Tang。

創始人們開始閱讀不同的技術,這些技術用於加速AI模型的訓練,最終結合了其中幾種技術,展示了他們可以將一個模型的圖像分類性能訓練速度提高到以前的四倍。

“訣竅在於沒有訣竅,”Frankle說。“我想我們必須對模型的訓練方式做17個不同的改變才能弄明白這一點。這只是在這裡一點,那里一點,但結果是這樣就足以獲得難以置信的速度提升。這才是Mosaic的故事。”

該團隊展示了他們的技術可以使模型更高效,並在2023年發布了一個開源大型語言模型以及他們方法的開源庫。他們還開發了可視化工具,讓開發人員可以繪製出不同的實驗選項,用於模型訓練和運行。

MIT的E14基金投資了Mosaic的A輪融資,Frankle說E14的團隊在早期提供了有益的指導。Mosaic的進展使得一類新的公司能夠訓練自己的生成式AI模型。

“向Mosaic的使命有一個民主化和開源的角度,”Frankle說。“這一直是我內心深處非常接近的事情。自從我是一名博士生並且沒有GPU,因為我不在機器學習實驗室,而我所有的朋友都有GPU。我仍然感覺那樣。為什麼我們不能都參與進來?為什麼我們不能都做這些事情並做科學?”

開源創新

Databricks也在努力讓其客戶獲得AI模型的使用權。該公司於2023年以13億美元的報價最終完成了對MosaicML的收購。

“在Databricks,我們看到了像我們一樣的學術創始團隊,”Frankle說。“我們還看到了理解技術的科學家團隊。Databricks有數據,我們有機器學習。你不能單獨做一個,而不能做另一個。這只是最終成為一個非常好的匹配。”

今年三月,Databricks發布了DBRX,這為開源社區和企業構建自己的LLM提供了以前僅限於封閉模型的能力。

“DBRX展示的是,你可以使用Databricks構建世界上最好的開源LLM,”Frankle說。“如果你是一家企業,今天的天空是極限。”

Frankle說,Databricks的團隊在內部的各種任務中使用DBRX,得到了鼓舞。

“它已經很棒了,並且經過一點微調後,比閉源模型更好,”他說。“你不會在每件事上都比GPT更好。這不是這樣運作的。但沒有人想解決每個問題。每個人都想解決一個問題。我們可以定制這個模型,使其在特定場景中非常出色。”

隨著Databricks繼續推動AI的前沿,並且競爭對手繼續在更廣泛的AI領域投入巨資,Frankle希望行業能將開源視為最好的前進道路。

“我相信科學,我相信進步,我很高興我們作為一個領域正在做這麼令人興奮的科學,”Frankle說。“我也相信開放,希望大家都像我們一樣擁抱開放。我們是通過良好的科學和良好的分享來到這裡的。”

編輯評論:

這篇文章深入探討了MosaicML如何通過開源平台和技術使深度學習和生成式AI更具可及性。這不僅僅是一個技術創新的故事,更是一個關於民主化技術和開源的重要性。MosaicML的成功展示了科技創新不應該被某些大公司壟斷,而應該是人人都能參與和受益的。這種理念尤其重要,因為它強調了公平和共享,這對於推動整個社會的進步至關重要。然而,文章也提醒我們,技術的進步需要多方合作和持續投入,這才是實現目標的關鍵。這對於香港的科技社區來說,是一個值得借鑒的成功範例。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Chat Icon