AI鬥法官：邊個判案更掂？人類情感 vs. 機械理性

zero comment

一個挑釁的實驗：人工智能對抗聯邦法官

人工智能的進步可能引發對烏托邦和厄運的激烈預測，但它同時也促使人們反思那些人工智能可能取代的人類機構的目的。最近，芝加哥大學的一篇論文將真實的聯邦法官與ChatGPT進行了對比。

總的來說，真實法官似乎更容易受到“法律無關”因素的影響，而人工智能在面對相同材料時則相對不受影響。然而，這一結果卻呈現出一種有趣的二元性：它突顯了人類法官的明顯失誤，或者他們的智慧可能更高。也許這兩者其實是同一回事。

2015年，31名參加哈佛法學院專業研討會的聯邦法官同意參加一個實驗。研究人員向他們提供了一份基於1990年代巴爾幹戰爭的真實戰爭罪案件的上訴文件。法官們有55分鐘的時間來決定是否確認或推翻被告的定罪，並給出理由。

研究人員以兩種方式變化材料。首先，有時被告被呈現得更具同情心，包括表達“對這場悲劇性戰爭中所有流血事件的深切懊悔”。其次，有些法官被提供了一個暗示被告定罪在法律上存在缺陷的先例，而另一些法官則被提供了一個暗示該定罪有效的先例。

結果顯示：先例的影響並不大。相反，法官的決定與被告是否被呈現得富有同情心密切相關（儘管法官們聲稱他們的決定是基於法律）。

這些發現首次於2016年發表（由哈佛的Holger Spamann和柏林洪堡大學的Lars Klöhn進行），而這距離ChatGPT的發布還有幾年。現在，芝加哥大學法學院的Eric A. Posner和Shivam Saran發表了一篇工作論文，將法官的表現與現代人工智能進行了比較。

與十年前的法官相比，他們發現，GPT推翻定罪的可能性“不受被告是同情還是不同情的影響”。而且：“GPT遵循先例的方式更加一致，當先例支持確認時，它確認的可能性較高，而當先例支持推翻時，它的可能性較低。”

當法官（無論是人類還是人工智能）面對被呈現為同情的被告，但先例支持其定罪時，差異尤為明顯。在這個類別中，大多數10名人類法官表示他們會推翻定罪，而GPT在所有25次情況下都確認了定罪。Posner和Saran寫道：“GPT是一位真正的形式主義者：它的裁決不參考同情，也不考慮政策因素。”

即使研究人員提示GPT考慮人類因素，這台機器仍堅持己見：“雖然它經常承認被告的同情特質，”他們寫道，“但最終它會將這些因素視為對案件結果無關緊要。”他們推測，GPT“從數十億文本中吸收的觀念”教會它，法官應該忽略法律之外的因素。

GPT的法律嚴謹性似乎令人印象深刻，但還有另一個轉折：初級法學生也很嚴謹。Spamann和Klöhn最近對三所精英法學校的法學生進行了相同的測試。和GPT一樣，法學生確認或推翻被告定罪的決定也受到所呈現先例的強烈影響。畢竟，為了給上級留下深刻印象，法學生需要在這類練習中展示他們對先例的了解。

但作為法庭主人，聯邦法官可能感到更有自由行使裁量權，無論是有意還是無意。Posner和Saran得出結論：GPT的更高“形式主義”並不意味著它是一位更優秀的法官，除非你認為法學生也是理想的法官。有時法律是模糊的；在這個實驗中，先例是故意設計得具有暗示性而非確定性的。

無論如何，當前的緊迫問題並非AI或人類法官更優秀。人類法官是憲法的一部分，他們不會消失。但這項研究提醒我們，法律體系不僅僅是遵循教條規則。

現代技術官僚的思維傾向於將法律糾紛視為可以理性解決的難題。然而，正如Erik J. Larson在其2021年著作《人工智能的神話》中所寫：“人類擁有社會智能。我們擁有情感智能。我們的思維不僅僅是用來解決難題，無論多麼複雜（或者說，尤其是當問題複雜時）。”

法律涉及大量的難題解決，這是人工智能擅長的領域。但法律體系與維持其合法性和一致性的人類特質交織在一起。這些特質仍然遠未被理解，更遑論被任何機器所複製。

在這篇文章中，我們看到人工智能在法律決策中的作用以及人類法官的局限性。這不僅僅是對AI能力的比較，更是對法律體系本質的深刻反思。未來的法律實踐需要尋求一種平衡，將人類的情感和社會智慧與人工智能的效率相結合，這樣才能更好地服務於社會正義。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Related Articles