ODI對數據中心AI的願景
在2024年10月,來自各個領域的四十五位領袖齊聚一堂,進行了一場關於數據和人工智能基礎及未來的深入討論。
在2023年11月,開放數據研究所(ODI)啟動了其數據中心人工智能(AI)計劃,以回應自2022年ChatGPT推出以來,關於人工智能的研究、發展和政策制定的前所未有的浪潮。正如我們在數據中心AI的白皮書中所概述的,我們正處於人工智能創新和部署的重要時刻,這一時刻將由我們如何治理、管理和分享高質量數據而深刻影響。
這個由Patrick J. McGovern基金會、DSIT、Omidyar等支持的數據中心AI計劃,針對當前人工智能話語中的一個關鍵機會:儘管有關人工智能能力、安全性和風險的討論佔據了頭條,但數據才是釋放人工智能全部潛力的關鍵。
在2024年10月,四十五位來自各行各業的領袖,包括公務員、學者、行業先驅和民間社會專家,參加了一個下午的密集討論,圍繞我們的白皮書展開。這次活動分為三個不同但相互關聯的會議,每個會議都提供了對數據中心AI挑戰和機遇的獨特見解,特別強調了強有力的數據治理、穩健的數據基礎設施和有意義的透明度在實現數據價值方面的重要性。這些討論直接為我們與全球政策制定者的持續合作提供了信息,幫助塑造負責任的人工智能發展的立法議程,以實現數據在人工智能中的重要性。
利用良好治理的數據實現人工智能的機會
下午的討論以一個強有力的提醒開始,讓與會者意識到人工智能革命中所面臨的風險。我們的全球政策和企業事務總監Emma Thwaites主持了一場討論,專家們描繪了數據治理——即數據的收集、使用和共享決策如何影響人工智能的現實影響。來自英國Smart Data Research的Joe Cuddeford、Mozilla數據未來實驗室的Kasia Odrozek,以及對抗AMD的Dr. Wen Hwa Lee,討論了對AI強有力的數據治理投資的重要性。小組討論中引用了實際案例,例如Common Voice,一個由社區生成的訓練大型語言模型的代表性語言數據集,以及INSIGHT Hub,一個用於訓練AI模型的眼部掃描數據庫,通過參與性數據訪問小組來決定數據的訪問權限。
實現AI利益和減輕危害的基礎設施:Croissant元數據標準
接下來,Google的Omar Benjelloun介紹了Croissant,一種創新的AI數據集元數據格式,承諾使數據文檔機器可讀且標準化。他的報告引發了熱烈的討論,關於技術標準和治理原則如何協同工作,以促進負責任的AI發展。Omar用引人入勝的術語框定了挑戰:如果我們將數據視為代碼,那麼我們缺乏軟件開發人員所習以為常的強大工具生態系統。隨著AI系統變得愈加複雜,這一差距變得尤為突出,因為它們通常涉及多種形式的結構化和非結構化數據。與會者提出了在大規模實施Croissant時所面臨的挑戰和成本。然而,讓政府數據集更具“AI準備性”的潛力,同時保持透明性和問責制,成為了一個關鍵機會。
優先考慮信任和賦能:AI數據透明度
ODI在數據透明度方面的工作長期以來強調需要實用的、可實施的解決方案,將技術能力與治理需求相結合。在此基礎上,包括一些近期的ODI研究,以及我們之前會議的豐富討論,本次研討會將不同利益相關者聚集在一起,共同塑造我們的AI數據透明度指數(AIDTI)的發展,該指數將於2024年12月推出——這是一個旨在衡量和促進AI系統中更好透明度實踐的工具。研討會揭示了傳統透明度方法往往無法滿足用戶需求的問題。關於訓練數據的標準數據指標——如樣本大小或基本統計指標——是重要的基礎,但不能單獨實現透明度的目的。參與者強調了理解決策過程的重要性:為什麼某些數據被納入或排除,如何處理,以及考慮了什麼替代方案。研討會還突出了我們透明度指數的一個關鍵挑戰:在保持實用性的同時,滿足多個受眾的需求。類似於環境影響評估如何發展以服務於監管和公眾信息需求,AI透明度必須平衡技術嚴謹性與可及性。通過同時解決文檔和可解釋性問題,並專注於實踐實施,我們的目標是創建一個框架,幫助組織超越單純的合規,實現有意義的透明度,以服務於公共利益。
未來展望:數據中心的方式
隨著人工智能發展的加速,專注於數據基礎設施、治理和利益相關者參與至關重要。ODI將繼續召開這些重要的對話,並與我們的合作夥伴在各個行業共同開發實用的解決方案。我們即將推出的AI數據透明度指數代表了朝著更好治理邁出的具體一步,但仍有許多工作需要完成。
我們正處於英國科技政策的一個重要時刻。隨著政府展開新的立法議程,我們將繼續倡導數據和人工智能為所有人服務的必要性。通過數據中心的AI研究計劃、此次活動及我們更廣泛的工作,我們看到政府需要關注的幾個領域:
我們需要加強AI準備數據基礎設施的基礎,這需要一個穩健的立法和監管體系。
計劃中的國家數據庫為設立良好的數據基礎設施新標準提供了機會,並使政府能夠成為AI準備數據的提供者。
新通過的數據(使用和訪問)法案專注於加強數據治理,以“利用數據的力量促進經濟增長,支持現代數字政府,改善人們的生活”。該法案在這方面提供了一些積極的步驟,但對於AI數據仍需更多具體的工作。
信任和透明度對於公共利益中人工智能的安全和有效推廣至關重要。提高對於訓練特別高風險AI模型所使用的數據的透明度將是必不可少的,我們必須朝著制定世界領先的AI保證和審計標準的方向努力。
最後,展望即將到來的AI法案,數據應在立法中與模型同樣突出,包括對不同類型AI數據的清晰透明報告。我們已經開始考慮如何在我們的AI數據分類法中實現這一點。
通過專注於強大的數據基礎設施、有效的數據治理和有意義的透明度,結合開放數據原則、信任、公平訪問和技能發展,我們可以建立一個蓬勃發展、倫理和創新的數據生態系統,以服務於英國的經濟和社會目標。
我們邀請政策制定者、行業領袖和民間社會組織參與這一重要工作。讓我們共同塑造一個不僅創新而且值得信賴、包容和有益於所有人的數據驅動未來。如果您想與我們合作或了解更多有關我們在數據中心AI工作的信息,請通過Research@theodi.org與我們聯繫。
—
在這篇文章中,ODI強調了數據治理在人工智能發展中的重要性,並提出了一系列具體的政策建議,這不僅對英國的科技政策有深遠影響,對全球的數據治理和人工智能發展也具有借鑒意義。文章中提到的Croissant元數據標準和AI數據透明度指數(AIDTI)等具體措施,展示了如何將技術與治理結合,以促進負責任的人工智能發展。作為一個不斷發展的領域,數據和人工智能的結合需要持續的監管和透明度,這對於增進公眾信任和確保技術的可持續發展至關重要。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。