🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放
## **本地人工智能語言模型的建設意義**
作者:Elina Noor
自從 OpenAI 在 2022 年 11 月公開展示 ChatGPT 後,人工智能大型語言模型(LLMs)似乎被認定為西方、工業化、富裕、教育和民主的代名詞。大家都認為,如果 LLMs 使用某種語言並反映某種世界觀,那麼它一定是西方的。OpenAI 甚至承認 ChatGPT 對西方觀點和英語的偏見。
然而,就在 OpenAI 的美國競爭對手(谷歌和 Anthropic)於次年發布自己的 LLMs 之前,東南亞的開發人員已經認識到需要能夠以該地區的多種語言來溝通的人工智能工具——這並不是一項簡單的任務,因為該地區有超過 1200 種語言被使用。
而且,在一個遠古文明記憶經常與當代後殖民歷史碰撞的地區,語言具有深厚的政治意義。即使是看似單一語言的國家也隱含著顯著的多樣性:柬埔寨人使用約 30 種語言;泰國人使用約 70 種語言;越南人使用超過 100 種語言。這也是一個社區語言混合使用、非語言提示具有重要意義、口頭傳統有時比文字更普遍的地區,這些都承載著語言中深厚的文化和歷史細微差別。
毫不意外的是,那些試圖為語言如此多樣化的地區建立真正本地化的人工智能模型的開發人員面臨著許多障礙,從高質量、高數量的註釋數據不足,到缺乏建立和訓練模型所需的計算能力。在某些情況下,挑戰甚至更加基礎,反映出母語者不足、標準化正字法或頻繁的電力供應中斷。
面對這些限制,該地區的許多人工智能開發人員選擇對外國公司開發的成熟模型進行微調。這涉及採用一個預訓練模型,該模型已被輸入大量數據,並在一個較小的數據集上訓練,以完成特定任務或技能。2020 年至 2023 年間,東南亞的語言模型,如 PhoBERT(越南語)、IndoBERT(印尼語)和 Typhoon(泰語),都是基於谷歌的 BERT、Meta 的 RoBERTa(後來的 LLaMA)和法國的 Mistral 等更大規模的模型衍生而來。甚至阿里巴巴 DAMO 學院發布的針對區域語言優化的 SeaLLM 系列模型的早期版本,也是基於 Meta、Mistral 和谷歌的架構。
然而,去年阿里巴巴雲的 Qwen 打破了這種西方主導的局面,為東南亞提供了更廣泛的選擇。卡內基國際和平獎學會的研究發現,該年發布的 21 個區域模型中,有 5 個是基於 Qwen 構建的。
儘管如此,就像東南亞的開發人員此前必須考慮到現有基礎模型中潛在的西方偏見一樣,現在他們也必須注意預訓練的中國模型中嵌入的意識形態過濾視角。諷刺的是,本地化人工智能以確保東南亞社區有更大主導權的努力,可能會加深開發人員對更大規模玩家的依賴,至少在初始階段是如此。
然而,東南亞的開發人員也開始解決這個問題。多個模型,包括 SEA-LION(一種集合了 11 種官方區域語言)、PhoGPT(越南語)和 MaLLaM(馬來語),都是從頭開始在每種語言的大型通用數據集上進行預訓練的。這在機器學習過程中是一個關鍵步驟,允許這些模型進一步微調以完成特定任務。
雖然 SEA-LION 仍然依賴谷歌的架構進行預訓練,但使用區域語言數據集促進了 Sahabat-AI 等本地模型的開發,Sahabat-AI 可以用印尼語、巽他語、爪哇語、巴厘語和巴塔克語進行溝通。Sahabat-AI自豪地將自己描述為「印尼人工智能主導權的見證」。
然而,代表本地觀點也需要堅實的本地知識基礎。如果不理解語言政治、傳統思維方式和歷史動態,我們就無法忠實地呈現東南亞的觀點和價值。舉例來說,在許多原住民社區中,時間和空間在現代背景下被理解為線性、可分割和可測量的,以最大化生產力,但這種理解與傳統觀念不同。巴厘島的歷史記載挑戰了傳統的時間軸,在西方看來可能是神話或傳說,但它們繼續塑造這些社區對世界的理解。
該地區的歷史學家警告說,將西方觀點套用於本地文本會增加誤解原住民觀點的風險。從 18 世紀到 19 世紀,印尼的殖民管理者經常將他們對爪哇編年史的理解套用到翻譯文本中。結果,許多有偏見的英國和歐洲對東南亞的觀察被視為有效的歷史記載,官方文件的種族分類和刻板印象也被內化。如果人工智能在這些數據上進行訓練,這些偏見可能會進一步強化。
數據並不等同於知識。由於語言本質上是社會和政治的,反映了使用者的關係經驗,因此在人工智能時代主張主導權必須超越技術上足夠的本地語言模型的構建。它需要有意識地過濾遺留偏見,質疑身份假設,並重新發現語言中的原住民知識庫。如果我們對自己的文化理解甚淺,就無法通過技術忠實地呈現它們。
—
作為編輯,我對這篇文章有以下想法:
這篇文章深入探討了東南亞地區本地人工智能語言模型的建設意義。作者 Elina Noor 強調了語言在東南亞地區的複雜性和多樣性,以及建設本地化人工智能模型的挑戰和重要性。她指出,本地化人工智能模型的開發不僅需要技術上的進步,還需要對本地知識、文化和歷史有深入的理解。
文章也提出了一些值得思考的問題。例如,如何在建設本地化人工智能模型的同時,避免西方偏見和殖民歷史的影響?如何確保人工智能模型能夠忠實地代表本地觀點和價值?這些問題需要我們深入思考和探討。
總的來說,這篇文章提供了對本地人工智能語言模型建設的重要性和挑戰的深刻見解,對於人工智能和東南亞研究領域的讀者來說,具有很高的參考價值。