生成AI助你輕鬆分析數據

Ai

麻省理工學院研究人員推出適用於數據庫的生成式人工智能

這款新工具為人們提供了一種更簡單的方法來分析複雜的表格數據。

亞當·澤維 | MIT新聞

出版日期:2024年7月8日

新工具使數據庫用戶能夠在不需要了解背後運作的情況下,進行複雜的統計分析。

GenSQL是一個適用於數據庫的生成式人工智能系統,能夠幫助用戶僅需幾個按鍵就能進行預測,檢測異常,猜測缺失值,修復錯誤,或生成合成數據。

例如,如果該系統用於分析一個一直有高血壓患者的醫療數據,它可以捕捉到一個對於該患者來說異常低的血壓讀數,儘管這個讀數在正常範圍內。

GenSQL自動整合了一個表格數據集和生成式概率人工智能模型,該模型可以考慮不確定性並根據新數據調整其決策。

此外,GenSQL還可以用來生成和分析模擬真實數據的合成數據。這在無法共享敏感數據(如患者健康記錄)或真實數據稀少的情況下特別有用。

這款新工具是基於SQL(結構化查詢語言)之上的,SQL是一種用於創建和操作數據庫的編程語言,於1970年代後期問世,全球有數百萬開發者使用。

“歷史上,SQL教會了商業世界計算機能做什麼。他們不需要編寫自定義程序,只需要用高級語言向數據庫提問。我們認為,當我們從僅僅查詢數據轉向向模型和數據提問時,我們需要一種類似的語言,教會人們可以向擁有數據概率模型的計算機提出哪些連貫的問題,”MIT腦與認知科學系概率計算項目負責人、GenSQL論文的主要作者Vikash Mansinghka說。

研究人員在將GenSQL與流行的基於人工智能的數據分析方法進行比較時發現,它不僅速度更快,而且產生了更準確的結果。重要的是,GenSQL所使用的概率模型是可解釋的,用戶可以閱讀和編輯它們。

“僅使用一些簡單的統計規則來查看數據並試圖找到一些有意義的模式,可能會錯過重要的交互關係。你真的需要在模型中捕捉變量的相關性和依賴性,這可能相當複雜。通過GenSQL,我們希望讓大量用戶能夠在不需要了解所有細節的情況下查詢他們的數據和模型,”論文的主要作者、腦與認知科學系的研究科學家Mathieu Huot補充道。

他們在論文中還提到Matin Ghavami和Alexander Lew,這兩位是MIT的研究生;研究科學家Cameron Freer;Digital Garage的Ulrich Schaechtle和Zane Shelby;MIT電機工程和計算機科學系教授、計算機科學與人工智能實驗室成員Martin Rinard;以及卡內基梅隆大學助理教授Feras Saad。這項研究最近在ACM編程語言設計與實現會議上發表。

結合模型和數據庫

SQL(結構化查詢語言)是一種用於存儲和操作數據庫中信息的編程語言。在SQL中,人們可以使用關鍵詞來詢問有關數據的問題,例如通過總結、篩選或分組數據庫記錄。

然而,查詢模型可以提供更深入的見解,因為模型可以捕捉數據對個體的暗示。例如,一位女性開發者如果想知道自己是否被低估薪酬,她更感興趣的是薪酬數據對她個人的意義,而不是數據庫記錄中的趨勢。

研究人員注意到,SQL無法有效地結合概率人工智能模型,但同時,使用概率模型進行推理的方法也不支持複雜的數據庫查詢。

他們構建了GenSQL來填補這一空白,使人們可以使用一種簡單而強大的正式編程語言來查詢數據集和概率模型。

GenSQL用戶上傳他們的數據和概率模型,系統會自動整合這些數據。然後,用戶可以運行查詢,這些查詢也會從背後運行的概率模型中獲取輸入。這不僅使查詢更加複雜,也能提供更準確的答案。

例如,GenSQL中的查詢可能是:“一位來自西雅圖的開發者知道Rust編程語言的可能性有多大?”僅僅看數據庫中列與列之間的相關性可能會錯過微妙的依賴關係。結合概率模型可以捕捉更複雜的交互關係。

此外,GenSQL使用的概率模型是可審計的,人們可以看到模型用於決策的數據。此外,這些模型還提供了每個答案的校準不確定性測量結果。

例如,通過這種校準不確定性,如果查詢模型預測某種癌症治療方案對一名少數族裔患者的效果,GenSQL會告訴用戶它是不確定的以及有多不確定,而不是過於自信地推薦錯誤的治療方案。

更快且更準確的結果

為了評估GenSQL,研究人員將他們的系統與使用神經網絡的流行基線方法進行了比較。結果顯示,GenSQL比這些方法快1.7到6.8倍,大多數查詢在幾毫秒內執行完畢,同時提供了更準確的結果。

他們還在兩個案例研究中應用了GenSQL:一個是該系統識別出臨床試驗數據中的標籤錯誤,另一個是它生成了捕捉基因組學中複雜關係的準確合成數據。

接下來,研究人員希望更廣泛地應用GenSQL來進行大規模的人口建模。通過GenSQL,他們可以生成合成數據,對健康和薪酬等問題進行推斷,同時控制分析中使用的信息。

他們還希望通過添加新的優化和自動化功能,使GenSQL更易於使用和更強大。從長遠來看,研究人員希望能夠讓用戶在GenSQL中進行自然語言查詢。他們的目標是最終開發出一個類似ChatGPT的人工智能專家,可以與任何數據庫進行對話,並使用GenSQL查詢來支持其答案。

這項研究部分由美國國防高等研究計劃署(DARPA)、谷歌和Siegel Family Foundation資助。

編輯評論:

這篇文章介紹了麻省理工學院最新的研究成果——GenSQL,這是一款結合生成式AI與數據庫查詢的工具。GenSQL的誕生為數據庫用戶提供了一個強大的工具,能夠進行複雜的統計分析,並結合概率模型來提供更精確的答案。

這項技術的革新之處在於其簡化了用戶的操作過程,讓那些不具備數據科學背景的人也能輕鬆地從複雜的數據中獲得深層次的見解。這不僅提高了數據分析的效率,也大大增加了數據的可解釋性和透明度。

然而,這項技術的應用也引發了一些思考。首先,雖然GenSQL能夠提高數據分析的準確性,但其結果的可靠性仍然依賴於輸入數據的質量。如果數據本身存在偏差或不完整,模型的預測結果可能會受到影響。此外,雖然GenSQL能夠生成合成數據來彌補數據不足的問題,但這些合成數據是否能完全替代真實數據,仍需進一步驗證。

總的來說,GenSQL為數據分析帶來了新的可能性,其簡便性和高效性無疑將對各行各業產生深遠的影響。然而,在實際應用中,我們仍需謹慎對待,確保數據的質量和模型的準確性,才能充分發揮這項技術的潛力。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *