🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放
人工合成數據於人工智能的利與弊
人工合成數據係透過算法人為生成,模擬真實數據嘅統計特性,但唔包含任何真實世界嘅資料。雖然具體數字難以確定,但有估計指出,2024年用於 AI 應用嘅數據中,超過六成係合成數據,未來喺唔同行業嘅應用預計會繼續增加。
由於合成數據唔包含真實信息,佢哋有望保障用戶私隱,同時降低成本,加快新 AI 模型開發速度。不過,使用合成數據需要謹慎評估、周詳規劃,以及建立監控機制,以避免 AI 模型部署後性能下降。
為咗深入了解合成數據嘅優缺點,MIT新聞採訪咗資訊與決策系統實驗室嘅首席研究科學家、DataCebo 聯合創辦人 Kalyan Veeramachaneni,佢哋開發嘅開源平台 Synthetic Data Vault 幫助用戶生成及測試合成數據。
問:合成數據點樣產生?
答:合成數據係通過算法生成,唔係來自真實事件。佢嘅價值在於同真實數據嘅統計相似度。例如語言合成數據,讀落去好似人類寫嘅句子咁真實。雖然研究人員早已創造合成數據,但近年來進步係因為我哋可以由少量真實數據建立生成模型,之後無限量生成合成數據。呢啲模型能捕捉底層規律同無限模式。
合成數據主要有四種形式:語言、影片/圖像、聲音,以及表格數據。每種形式有不同嘅生成模型。大型語言模型(LLM)就係一種生成模型,當你問佢問題時,佢就係喺產生合成數據。
語言及圖像數據多數公開喺互聯網,但表格數據通常鎖喺企業防火牆後面,好多係敏感或私隱數據,例如銀行客戶交易紀錄。Synthetic Data Vault 呢類平台就提供軟件建立生成模型,透過模型產生保護私隱、可廣泛分享嘅合成數據。
生成模型嘅強大之處係,企業可以為自己嘅數據建立本地定制模型,自動化傳統手動嘅數據生成流程。
問:使用合成數據有咩好處?邊啲應用最適合?
答:過去十年,合成數據用於軟件測試增長迅速。好多軟件背後有數據驅動邏輯,需要數據測試功能。以前人手造數據,但依家用生成模型可以大量製造所需數據。
用戶仲可以按需求生成特定數據。例如電商公司可生成模擬住喺俄亥俄州、二三月買特定產品嘅顧客交易數據。
合成數據唔來自真實事件,因而保護私隱。軟件測試時往往難以使用敏感真實數據做非正式環境測試,合成數據就解決咗呢個問題。另一個好處係性能測試,可以生成十億條交易,測試系統處理速度。
合成數據亦適合用於訓練機器學習模型。舉例,一啲罕見事件,例如銀行詐騙交易,真實例子太少,難以訓練準確模型。合成數據可以做數據增強,生成大量相似例子,大幅提升模型準確度。
另外,有時用戶冇足夠時間或財力收集所有數據,例如調查顧客意向需大量問卷。有限數據訓練出嘅模型表現差,加入合成數據可以改善。
問:使用合成數據有咩風險?點樣避免?
答:最大疑問係,合成數據既然係人造,點解要信佢?信唔信要看整個系統點用數據。
我哋有好多評估合成數據嘅方法,例如測量佢同真實數據嘅相似度、質量、私隱保護等。但如果用合成數據訓練機器學習模型,點確保模型能作出正確判斷?新嘅效能指標開始出現,重點係針對特定任務嘅效能。用戶要深入工作流程,確保加入嘅合成數據能維持模型判斷有效。呢啲評估要按應用場景逐個嚴格執行。
偏見亦係風險。合成數據源自少量真實數據,真實數據中嘅偏見可能會帶到合成數據。用戶需透過不同抽樣技術,有意識咁消除偏見,製造平衡數據集。雖然需要細心規劃,但可以校準生成過程,避免偏見擴散。
為咗幫助評估,我哋開發咗 Synthetic Data Metrics Library(合成數據指標庫),提供一套指標同評估工具,確保合成數據喺實際應用中有監控和平衡。機器學習社群一直面對模型泛化問題,合成數據嘅出現,令呢個挑戰更複雜。
我預計隨住生成模型技術日趨成熟,傳統數據處理模式將會大幅變革。好多以前唔可能嘅事情,將會變成可能。
—
編輯評論:合成數據喺人工智能發展中扮演住越嚟越重要嘅角色,尤其喺私隱保護同成本效益方面展現出巨大潛力。Kalyan Veeramachaneni 提及嘅生成模型技術,令企業能夠根據自身需求生成大量數據,突破咗傳統數據獲取嘅限制。
不過,合成數據嘅質量與可靠性問題,特別係偏見與泛化能力,係唔容忽視嘅挑戰。如何在保護私隱同保持數據真實性之間取得平衡,將會係未來技術發展嘅關鍵。Synthetic Data Metrics Library 呢啲工具嘅出現,為業界提供咗重要嘅監管及評估手段,係一大進步。
值得留意嘅係,合成數據不應該被視為「真實數據嘅替代品」,而係輔助工具。企業同研究者必須詳細了解合成數據嘅局限,並且針對每個應用場景建立嚴謹嘅驗證流程,確保AI模型嘅穩健性。
未來,隨住生成模型嘅演進,合成數據有望推動更多創新應用,例如模擬極端稀有事件、跨界多模態數據融合等。香港嘅科技界亦應密切關注呢啲趨勢,積極培育相關技術和人才,為本地人工智能發展注入活力。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。