Google 研究人員能夠在僅僅兩小時的訪談後,創建一個與你思考方式相似的 AI
根據斯坦福大學和谷歌的研究人員,在平均 6,000 字的對話後,他們可以生成一個行為與你非常相似的生成式代理。
斯坦福大學的研究人員支付了 1,052 人每人 60 美元,讓他們向一個應用程式朗讀《了不起的蓋茨比》的前兩行。完成後,一個看起來像是 SNES 時代《最終幻想》遊戲中的 2D 像素角色的 AI,要求參與者講述自己的生活故事。科學家將這些訪談整理成一個 AI,據稱能以 85% 的準確率複製參與者的行為。
這項名為《1,000 人的生成式代理模擬》的研究是斯坦福大學和谷歌 DeepMind AI 研究實驗室科學家之間的聯合項目。其目的是通過基於隨機個體創建 AI 代理,幫助政策制定者和商業人士更好地理解公眾。為什麼要使用焦點小組或進行民意調查,當你可以與他們交談一次,根據那次對話生成一個大型語言模型(LLM),然後永久擁有他們的思想和意見呢?或者,至少,這些思想和感受的近似值,因為 LLM 的重建能力有限。
“這項工作為新工具的開發奠定了基礎,這些工具可以幫助研究個體和集體行為,”論文摘要中提到。
“例如,一組多樣化的個體如何回應新的公共衛生政策和信息,對產品發布作出反應,或對重大衝擊做出反應?”論文中進一步指出。“當模擬的個體被組合成集體時,這些模擬可以幫助試點干預措施,發展捕捉細微因果和上下文互動的複雜理論,並擴展我們對經濟學、社會學、組織和政治科學等領域中機構和網絡等結構的理解。”
所有這些可能性都是基於一次兩小時的訪談,並輸入到一個大型語言模型中,使得 AI 能夠以類似於真實生活中的對應者的方式回答問題。
這一過程大部分是自動化的。研究人員委託市場研究公司 Bovitz 收集參與者。目標是獲取盡可能廣泛的美國人口樣本,雖然限制在 1,000 人內。為了完成研究,用戶需在專門設計的界面上註冊帳戶,創建一個 2D 像素角色,然後開始與 AI 訪談者交談。
每次訪談以參與者朗讀《了不起的蓋茨比》的前兩行開始,這是一種用來校準音頻的方式。
根據論文,“訪談界面在中央顯示代表訪談者代理的 2D 像素角色,參與者的角色則在底部顯示,朝著一個目標移動以表示進度。當 AI 訪談者代理在講話時,中心圓圈的脈動動畫會提示。”
平均而言,這些兩小時的訪談生成的文字紀錄長達 6,491 字。訪談內容涵蓋種族、性別、政治、收入、社交媒體使用、工作壓力和家庭結構等問題。研究人員發布了訪談腳本和 AI 提問的問題。
這些文字紀錄,每份少於 10,000 字,然後被輸入到另一個大型語言模型中,以生成旨在複製參與者的代理。接著,研究人員將參與者和 AI 複製品進行了更多問題和經濟遊戲的對比測試。“當一個代理被查詢時,整個訪談文字紀錄會被注入模型提示中,指示模型根據其訪談數據模仿該人,”論文中提到。
這一過程的控制程度盡可能高。研究人員使用了全國社會調查(GSS)和大五人格測試(BFI)來測試 LLM 與其靈感來源的匹配程度。然後,研究人員讓參與者和 LLM 參加五個經濟遊戲,以比較他們的表現。
結果是混合的。AI 代理在 GSS 中的回答與現實參與者一致的比例約為 85%。在 BFI 中,這一比例為 80%。然而,當代理進行經濟遊戲時,這些數字大幅下降。研究人員為真實參與者提供現金獎勵以參加囚徒困境和獨裁者遊戲等遊戲。
在囚徒困境中,參與者可以選擇合作以共同獲利,或背叛夥伴以獲取更高的獎勵。在獨裁者遊戲中,參與者需要決定如何分配資源給其他參與者。真實參與者在這些遊戲中賺取的金額超過了原本的 60 美元。
面對這些經濟遊戲,AI 複製品未能如實複製其現實對應者。“平均而言,生成式代理達到的標準化相關性為 0.66”,約為 60%。
如果你對學者們如何看待 AI 代理和公眾的關係感興趣,整篇文件值得一讀。研究人員迅速將人類的個性簡化為一個能夠相似行為的 LLM。隨著時間和精力的投入,他們可能會使兩者之間的距離更近。
這讓我感到擔憂。並不是因為我不想看到無法言喻的人類精神被簡化為電子表格,而是因為我知道這類技術將被用於不當的用途。我們已經看到一些較低級的 LLM 被訓練在公共錄音上,誘騙祖母在短短的電話通話中向一個 AI 親屬泄露銀行信息。當這些機器擁有腳本時會發生什麼?當它們能根據社交媒體活動和其他公共信息訪問特定的個性時又會如何?
當一家公司或一位政治家根據公眾的需求和願望,而不是基於他們的真實意願的近似值來決定公眾所需的東西時,會發生什麼?
在科技不斷進步的今天,我們必須更加謹慎地考慮這些新技術的潛在影響。這不僅是關於 AI 的發展,也是關於我們如何理解和利用這些技術的倫理和社會責任。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。