如何一位固執的計算機科學家意外地啟動了深度學習的繁榮
在我於普林斯頓大學的計算機科學研究生第一學期,我選修了COS 402:人工智能。學期末的一次講座中,主題是神經網絡。那是2008年秋天,我深刻感受到—根據講座和教科書的內容,神經網絡似乎已經變得不再受重視。
神經網絡在1980年代和1990年代早期曾取得了一些令人印象深刻的成果,但隨後進展停滯。到2008年,許多研究者已經轉向了數學上更優雅的方法,例如支持向量機。
我當時並不知道,普林斯頓的一個團隊—就在我上課的同一棟計算機科學大樓裡—正在進行一個將顛覆傳統觀念並展示神經網絡潛力的項目。這個團隊由李飛飛教授領導,他們並不是在尋找更好的神經網絡版本,甚至幾乎沒有考慮到神經網絡。
相反,他們正在創建一個全新的圖像數據集,這個數據集的規模遠超以往:1400萬張圖像,每張都標記為近22000個類別中的一個。
李飛飛在她最近的回憶錄《我所見的世界》中講述了ImageNet的故事。在她進行這項工作的過程中,她面臨了來自朋友和同事的許多懷疑。
“一位導師在2007年項目開始幾個月後告訴她:‘我覺得你把這個想法推得太遠了。關鍵是隨著你的領域一起成長,而不是跳得太遠。’”
建立這樣一個大型數據集不僅是巨大的後勤挑戰,還有人們質疑當時的機器學習算法是否能從如此龐大的圖像集合中受益。
“在ImageNet之前,人們不相信數據,”李飛飛在九月於計算機歷史博物館的訪談中表示。“每個人都在用微小數據的完全不同範式進行AI研究。”
李飛飛無視了負面反饋,堅持這個項目超過兩年。這對她的研究預算和研究生的耐心都是一種考驗。當她在2009年轉職到斯坦福大學時,她帶走了幾位研究生和ImageNet項目。
ImageNet在2009年發布的頭幾年內幾乎沒有受到關注。但在2012年,來自多倫多大學的一個團隊在ImageNet數據集上訓練了一個神經網絡,實現了前所未有的圖像識別性能。這個突破性的AI模型被稱為AlexNet,以首席作者亞歷克斯·克里茲赫夫斯基命名,開啟了至今仍在持續的深度學習繁榮。
沒有ImageNet數據集,AlexNet無法成功。而且,沒有CUDA這個平台,Nvidia的圖形處理單元(GPU)無法應用於非圖形應用。當Nvidia在2006年宣布CUDA時,許多人對此持懷疑態度。
因此,過去12年的AI繁榮是由三位在面對廣泛批評時追求非正統想法的先驅者促成的。第一位是多倫多大學的計算機科學家Geoffrey Hinton,他花了幾十年時間推廣神經網絡,儘管幾乎所有人都持懷疑態度。第二位是Nvidia的首席執行官Jensen Huang,他早早認識到GPU不僅可以用於圖形處理。
第三位是李飛飛。她創建了一個對於大多數同事來說似乎荒謬的大型圖像數據集,但這對於展示基於GPU訓練的神經網絡的潛力至關重要。
神經網絡的運作原理
神經網絡是由數千、數百萬甚至數十億個神經元組成的網絡。每個神經元都是一個數學函數,根據其輸入的加權平均值生成輸出。
假設你想創建一個能夠識別手寫數字的網絡,比如上面紅框中的數字2。這樣的網絡將接收圖像中每個像素的強度值,並輸出對十個可能數字(0、1、2等)的概率分佈。
要訓練這樣的網絡,首先用隨機權重初始化它。然後在一系列示例圖像上運行它。對於每個圖像,你通過加強推動網絡朝正確答案(在這個例子中,對“2”的輸出高概率值)的連接,並削弱推向錯誤答案(對“2”的低概率值和對其他數字的高概率值)的連接來訓練網絡。如果在足夠多的示例圖像上進行訓練,模型應該會在看到數字2時開始預測高概率,而不是其他情況。
在1950年代末,科學家們開始嘗試基本的單層神經網絡。然而,隨著他們意識到這些簡單網絡缺乏執行複雜計算所需的表達能力,他們最初的熱情冷卻了。
更深層的網絡—即具有多個層的網絡—有潛力變得更具多樣性。但在1960年代,沒有人知道如何有效地訓練它們。因為改變多層網絡中間某個參數可能對輸出產生複雜和不可預測的影響。
因此,當Hinton在1970年代開始他的職業生涯時,神經網絡已經失寵。Hinton希望研究它們,但他很難找到一個合適的學術場所。1976年至1986年間,Hinton在四個不同的研究機構工作:薩塞克斯大學、加州大學聖地亞哥分校、英國醫學研究委員會的一個分支,以及最終在1982年成為卡內基梅隆的教授。
在一篇具有里程碑意義的1986年論文中,Hinton與他在UCSD的兩位前同事David Rumelhart和Ronald Williams合作,描述了一種名為反向傳播的技術,用於有效訓練深度神經網絡。
他們的想法是從網絡的最後一層開始,向後推進。對於最後一層的每個連接,算法計算一個梯度—這是一種數學估計,用於判斷增強該連接的強度是否會將網絡推向正確答案。根據這些梯度,算法調整模型最後一層的每個參數。
然後算法將這些梯度向後傳播到倒數第二層。這裡的一個關鍵創新是基於高中微積分的鏈式法則的公式,用於根據下一層的梯度計算一層中的梯度。利用這些新梯度,算法更新模型倒數第二層的每個參數。梯度隨後再次向後傳播到第三層,整個過程重複進行。
算法在每一輪訓練中只對模型進行小的改變。但隨著這一過程在數千、數百萬、甚至數十億或數萬億的訓練示例上重複進行,模型逐漸變得更準確。
Hinton和他的同事們並不是第一個發現反向傳播基本思想的人。但他們的論文使這一方法流行化。隨著人們意識到現在可以訓練更深的網絡,對神經網絡的熱情重新高漲。
Hinton於1987年轉到多倫多大學,開始吸引那些希望研究神經網絡的年輕研究者。其中一位是法國計算機科學家Yann LeCun,他在Hinton那裡做了一年的博士後研究,然後在1988年轉到貝爾實驗室。
Hinton的反向傳播算法使LeCun能夠訓練足夠深的模型,以便在手寫識別等現實任務中表現良好。到1990年代中期,LeCun的技術運行得如此順利,以至於銀行開始使用它來處理支票。
“在某個時候,LeCun的創作讀取了美國超過10%的所有存入支票,”Cade Metz在他2022年的書《天才製造者》中寫道。
但當LeCun和其他研究者試圖將神經網絡應用於更大和更複雜的圖像時,情況並不理想。神經網絡再次失寵,而一些專注於神經網絡的研究者則轉向其他項目。
Hinton從未停止相信神經網絡可以超越其他機器學習方法。但在他獲得足夠的數據和計算能力來證明他的觀點之前,還需要很多年。
Jensen Huang的遠見
Jensen Huang在丹麥的演講。
Nvidia於1999年發明了GPU,並自此在市場上占據主導地位。到2000年代中期,Nvidia首席執行官Jensen Huang懷疑GPU內部的巨大計算能力對於超出遊戲的應用也會有用。他希望科學家們能將其用於計算密集型任務,如氣象模擬或石油勘探。
因此,Nvidia在2006年宣布了CUDA平台。CUDA允許程序員編寫“內核”,這是設計用於在單個執行單元上運行的短程序。內核允許將大型計算任務拆分為可以並行處理的小塊。這使某些類型的計算能夠比僅用CPU更快地完成。
但在CUDA首次推出時,幾乎沒有人感興趣,Steven Witt在《紐約客》中寫道:
當CUDA在2006年底發布時,華爾街反應不佳。Huang將超級計算帶給大眾,但大眾並未表現出對此的需求。
“他們在這種新芯片架構上花費了巨額資金,”流行的硅谷播客“Acquired”的聯合主持人Ben Gilbert說。“他們花了數十億美元針對一個不知名的學術和科學計算角落,當時這並不是一個大市場—當然也不如他們投入的數十億多。”
Huang認為,CUDA的存在將擴大超級計算的市場。這一觀點並未得到廣泛認同,到2008年底,Nvidia的股價下跌了70%。
CUDA的下載量在2009年達到高峰,然後下降了三年。董事會擔心Nvidia的低迷股價會使其成為企業掠奪者的目標。
Huang在創建CUDA平台時並未特別考慮AI或神經網絡。但事實證明,Hinton的反向傳播算法可以輕易地拆分為小塊。因此,訓練神經網絡成為CUDA的一個殺手級應用。
根據Witt的說法,Hinton迅速認識到CUDA的潛力:
在2009年,Hinton的研究小組利用Nvidia的CUDA平台訓練了一個神經網絡來識別人類語音。當他看到結果的質量時感到驚訝,並在當年晚些時候在會議上展示了這一成果。隨後他聯繫了Nvidia。“我發了一封電子郵件說,‘我剛告訴了一千名機器學習研究者,他們應該去購買Nvidia顯卡。你能給我發一個免費的嗎?’”Hinton告訴我。“他們說不。”
儘管遭到拒絕,Hinton和他的研究生亞歷克斯·克里茲赫夫斯基及伊利亞·蘇茲克維爾獲得了一對Nvidia GTX 580 GPU,用於AlexNet項目。每個GPU擁有512個執行單元,這使得克里茲赫夫斯基和蘇茲克維爾能夠比僅用CPU快數百倍地訓練神經網絡。這種速度使他們能夠訓練一個更大的模型,並在更多的訓練圖像上進行訓練。而他們需要所有這些額外的計算能力來處理龐大的ImageNet數據集。
李飛飛的創新
李飛飛在2018年SXSW大會上。
李飛飛在2007年1月開始新工作,成為普林斯頓的計算機科學教授時,並未考慮神經網絡或GPU。在加州理工學院獲得博士學位時,她建立了一個名為Caltech 101的數據集,該數據集包含9000張圖像,涵蓋101個類別。
這段經歷讓她明白,計算機視覺算法在使用更大和更多樣化的訓練數據集時表現更好。李飛飛發現她自己的算法在Caltech 101上表現得更好,而其他研究者也開始使用她的數據集來訓練他們的模型並比較性能。這使Caltech 101成為計算機視覺領域的一個基準。
因此,當她來到普林斯頓時,李飛飛決定要做得更大。她對視覺科學家Irving Biederman的估計產生了濃厚的興趣,他認為普通人能識別大約30000種不同的物體。李飛飛開始思考是否有可能構建一個真正全面的圖像數據集—一個包含人們在物理世界中常見的每一種物體的數據集。
一位普林斯頓的同事告訴李飛飛有關WordNet的事情,這是一個試圖編目和組織140000個單詞的大型數據庫。李飛飛將她的新數據集命名為ImageNet,並使用WordNet作為選擇類別的起點。她刪除了動詞和形容詞,以及“真理”等無形名詞。這樣就剩下了22000個可計數的物體,從“救護車”到“西葫蘆”。
她計劃採取與Caltech 101數據集相同的方法:使用谷歌的圖像搜索來查找候選圖像,然後讓人工驗證它們。對於Caltech 101數據集,李飛飛在幾個月內親自完成了這項工作。這次她需要更多的幫助。她計劃雇用數十名普林斯頓的本科生來幫助她選擇和標記圖像。
但即使在大幅優化標記過程後—例如預先下載候選圖像,以便讓學生瞬間查看—李飛飛和她的研究生賈登計算出,選擇和標記數百萬張圖像需要超過18年。
這一項目得以拯救,當李飛飛了解到亞馬遜的機械土耳其人(Amazon Mechanical Turk)這個眾包平台時。AMT的國際勞動力不僅比普林斯頓的本科生更具成本效益,而且該平台還更靈活和可擴展。李飛飛的團隊可以根據需要按需雇用人員,並僅在有工作可用時支付他們。
AMT將完成ImageNet所需的時間從18年縮短到兩年。李飛飛寫道,她的實驗室在兩年的時間裡“處於財務的刀尖上”,因為團隊努力完成ImageNet項目。但他們有足夠的資金支付三人來查看最終數據集中每張1400萬張圖像。
ImageNet於2009年準備出版,李飛飛將其提交給當年在邁阿密舉行的計算機視覺與模式識別會議。他們的論文被接受,但並未獲得李飛飛所希望的那種認可。
“ImageNet被 relegated 到了一個海報會議,”李飛飛寫道。“這意味著我們不會在講堂中向預定時間的觀眾展示我們的工作,而是會在會議現場提供空間,支撐一個大型格式的印刷品,總結該項目,希望路過的人能停下來提問……經過這麼多年的努力,這真的讓人感到失落。”
為了引起公眾的興趣,李飛飛將ImageNet變成了一場競賽。意識到完整數據集可能對於數十個參賽者來說過於繁瑣,她創建了一個更小(但仍然龐大)的數據集,包含1000類別和140萬張圖像。
第一年的競賽在2010年引起了相當的興趣,參加的隊伍有11個。獲勝的條目基於支持向量機。不幸的是,李飛飛寫道,這“只比我們領域其他地方的尖端工作略有改進。”
第二年的ImageNet競賽吸引的參賽者比第一年少。2011年的獲勝條目又是一個支持向量機,僅稍微改善了2010年獲勝者的性能。李飛飛開始懷疑批評者是否是對的。也許“ImageNet對於大多數算法來說太過於龐大。”
“連續兩年,老舊算法僅展現了能力的微小增長,而真正的進展似乎幾乎不存在,”李飛飛寫道。“如果ImageNet是一場賭注,那麼是時候開始懷疑我們是否輸了。”
但當李飛飛不情願地在2012年舉行第三次競賽時,結果卻完全不同。Geoff Hinton的團隊是第一個提交基於深度神經網絡模型的參賽者。它的前五名準確率達到85%—比2011年的獲勝者高出10個百分點。
李飛飛的初步反應是難以置信:“我們中的大多數人把神經網絡視為一個塵封的文物,被玻璃包裹並用絲絨繩保護。”
這是證明
Yann LeCun在九月份向美國參議院作證。
ImageNet的獲勝者定於在意大利佛羅倫斯的歐洲計算機視覺會議上宣布。李飛飛在加利福尼亞的家中有一個嬰兒,原本打算缺席這個活動。但當她看到AlexNet在她的數據集上表現如此優異時,她意識到這一時刻太重要了,無法錯過:“我勉強決定忍受二十小時的睡眠不足和擁擠的肘部空間。”
在佛羅倫斯的一個十月日子,亞歷克斯·克里茲赫夫斯基向一個滿座的計算機視覺研究者觀眾展示了他的結果。李飛飛在觀眾中。Yann LeCun也在場。
Cade Metz報導,在演講結束後,LeCun站起來稱讚AlexNet是“計算機視覺歷史上的一個明確轉折點。這就是證明。”
AlexNet的成功證明了Hinton對神經網絡的信心,但對LeCun來說這可能是一個更大的證明。
AlexNet是一種卷積神經網絡,這是一種類型的神經網絡,LeCun在20年前開發出來,用於識別支票上的手寫數字。事實上,AlexNet和LeCun在1990年代的圖像識別網絡之間幾乎沒有結構上的區別。
AlexNet只是規模更大。在1998年的一篇論文中,LeCun描述了一個具有七層和60000個可訓練參數的文檔識別網絡。AlexNet擁有八層,但這些層擁有6000萬個可訓練參數。
LeCun在1990年代早期無法訓練這麼大的模型,因為當時沒有擁有2012年級別GPU的計算能力的計算機芯片。即使LeCun設法構建了一個足夠大的超級計算機,他也沒有足夠的圖像來正確訓練它。收集這些圖像在谷歌和亞馬遜機械土耳其人出現之前將是巨大的開支。
這就是為什麼李飛飛對ImageNet的工作如此重要。她並未發明卷積網絡或找到如何有效地在GPU上運行它們的方法。但她提供了大型神經網絡達到其全部潛力所需的訓練數據。
科技界立即認識到AlexNet的重要性。Hinton和他的學生成立了一家殼公司,目標是被大型科技公司“收購”。幾個月之內,谷歌以4400萬美元收購了這家公司。Hinton在接下來的十年裡在谷歌工作,同時保留了他在多倫多的學術職位。伊利亞·蘇茲克維爾在谷歌工作幾年後成為OpenAI的共同創始人。
AlexNet還使Nvidia的GPU成為訓練神經網絡的行業標準。2012年,Nvidia的市場估值不到100億美元。如今,Nvidia是全球最有價值的公司之一,市值超過3萬億美元。這一高估值主要是由於對像H100這樣專為訓練神經網絡而優化的GPU的需求旺盛。
有時傳統智慧是錯誤的
“那一刻對AI世界來說是非常具有象徵意義的,因為現代AI的三個基本元素首次匯聚在一起,”李飛飛在九月的計算機歷史博物館的訪談中表示。“第一個元素是神經網絡。第二個元素是使用ImageNet的大數據。第三個元素是GPU計算。”
今天,領先的AI實驗室認為,AI進步的關鍵是對龐大的數據集進行大型模型的訓練。大型科技公司急於建設所需的數據中心,以便訓練更大的模型,甚至開始租用整個核電廠來提供所需的電力。
你可以將這視為AlexNet的教訓的簡單應用。但我想知道,是否應該從AlexNet中得出相反的教訓:對於傳統智慧過於依賴是一個錯誤。
在AlexNet之後的12年裡,“擴展法則”表現出色,也許我們會看到一兩代的出色結果,因為領先的實驗室進一步擴大其基礎模型。
但我們應該小心不讓AlexNet的教訓變得僵化成教條。我認為,在接下來的幾年裡,擴展法則可能會遇到瓶頸。如果發生這種情況,我們將需要新一代固執的非從眾者來注意舊方法不起作用並嘗試不同的東西。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。