六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

MIT新AI技術:教LLM講嘢唔toxic,仲好流利!

Ai

訓練大型語言模型自我去毒化的技術

來自MIT-IBM沃森人工智能實驗室的一項新方法,幫助大型語言模型(LLMs)引導自身的回答,朝向更安全、更具道德價值的輸出。

隨著我們從童年成長,詞彙和使用方式不斷增長,我們的經歷變得更加豐富,能夠更具體和有意圖地思考、推理和與他人互動。因此,我們的用詞會隨著個人價值觀、倫理、文化規範和觀點的變化而演變。隨著時間的推移,大多數人會發展出一種內部的“指導”,幫助我們學習對話背後的上下文,並經常指引我們遠離分享可能有害或不當的信息和情感。事實上,接受了大量公共數據集訓練的大型語言模型,通常會內建偏見和有毒語言,但它們同樣可以獲得自我調節語言的能力。

MIT、MIT-IBM沃森人工智能實驗室和IBM研究所提出的一種新方法,稱為自我約束自回歸采樣(SASA),使大型語言模型能夠去毒化自身的輸出,而不犧牲流暢度。

與其他去毒化方法不同,這種解碼算法學習了大型語言模型內部表示中的有毒/無毒子空間之間的邊界,而不需要更改模型的參數、重新訓練或外部獎勵模型。然後,在推理過程中,算法評估部分生成短語的毒性值:已生成並被接受的標記(單詞)以及每個可能的新標記,並選擇一個將短語置於無毒空間的單詞選項,最終提供了一種快速有效的生成較少有毒語言的方法。

尋找“護欄”

大型語言模型的訓練資源幾乎總是包括從公共空間(如互聯網)和其他現成數據集中收集的內容。因此,髒話和欺凌/令人不快的語言成為一個組成部分,儘管其中一些是在文學作品的上下文中。因此,大型語言模型本質上可以生成——或被騙出生成——危險和/或有偏見的內容,這些內容通常包含令人不悅的單詞或仇恨語言,即使是從無害的提示開始。此外,研究發現,它們可以學習和放大不受歡迎或甚至對許多應用和下游任務有害的語言,這就需要減輕或糾正策略。

有許多方法可以實現公平且與價值觀一致的穩健語言生成。一些方法使用經過清理的數據集對大型語言模型進行重新訓練,但這樣的成本高昂且耗時,可能會改變大型語言模型的性能;其他方法則使用解碼外部獎勵模型,如采樣或束搜索,這樣的運行時間較長且需更多內存。在SASA的情況下,Ko、Daniel及IBM研究團隊開發了一種利用LLMs自回歸特性的方式,並在LLM的推理過程中使用基於解碼的策略,逐步將生成過程——每次一個標記——引導到更好的語言上。

為價值匹配減少毒性

研究人員將他們的方法與幾個基準干預進行評估,使用了三種不同大小的LLM;它們都是基於變壓器和自回歸的:GPT2-Large、Llama2-7b和Llama 3.1-8b-Instruct,參數分別為7.62億、70億和80億。對於每個提示,LLM被要求完成句子/短語25次,並由PerspectiveAPI進行0到1的評分,超過0.5的則被視為有毒。團隊關注了兩個指標:所有提示的25次生成的平均最大毒性分數,以及生成至少一個有毒短語的概率(毒性率)。同時還分析了流暢度的降低(因此增加了困惑度)。

SASA在去毒化的試驗中展示了顯著的效果,與最先進的外部獎勵模型技術RAD表現相當。然而,普遍觀察到更強的去毒化伴隨著流暢度的下降。干預前,LLMs對女性標籤的提示生成的有毒反應比男性更多;但SASA能顯著降低有害反應,使其更加平衡。同樣,基於SASA的詞過濾也顯著降低了毒性水平,但同時也妨礙了LLM的連貫回應能力。

這項工作的優點在於它是一個明確、受限的優化問題,Ko表示,這意味著可以實現自然聽起來的開放語言生成與減少不希望語言的需求之間的平衡和調整。

Ko還表示,未來SASA可以很好地應用於多個屬性上:“對於人類來說,我們擁有多重價值觀。我們不想說有毒的話,但我們也想真實、有幫助和忠誠……如果要根據所有這些價值觀微調模型,將需要更多的計算資源和當然額外的訓練。”由於SASA的輕量級特性,它可以輕鬆應用於這些情況:“如果你想處理多個價值觀,只需檢查生成的在多個子空間中的位置。這在計算和參數方面只會增加邊際開銷,”Ko說,這將導致更積極、公平和符合原則的語言生成。

這項研究部分得到了MIT-IBM沃森人工智能實驗室和美國國家科學基金會的支持。

這項技術的提出和實現不僅展示了人工智能在道德和倫理方面的進一步發展,也顯示出我們對於如何在數字交流中保持語言的健康性和社會價值的思考。隨著大型語言模型的應用越來越廣泛,這樣的技術無疑能夠為我們的社會交流提供更加正面的影響。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗