OpenAI新AI模型驚人失準！

zero comment

OpenAI最新研究顯示其AI模型準確率驚人地低

OpenAI最近發布的AI模型在提供正確答案方面表現得相當糟糕。根據其新推出的基準測試“SimpleQA”，OpenAI揭示了其最新模型在準確性上的嚴重不足。該公司的最新尖端模型o1-preview在這項測試中的成功率僅為42.7%，這意味著即使是最近宣佈的最佳大型語言模型（LLMs），提供錯誤答案的可能性也遠高於正確答案。這一發現令人擔憂，特別是在這項技術已開始影響我們日常生活的各個方面。

競爭者模型更糟

與此同時，競爭對手的模型，如Anthropic的Claude-3.5-sonnet，則在OpenAI的SimpleQA基準測試中表現得更差，僅有28.9%的問題回答正確。不過，這個模型在面對不確定性時更傾向於拒絕回答，這樣的選擇在目前的情況下可能是明智的。

更糟的是，OpenAI發現其AI模型往往過高估計自己的能力，這種特徵會導致它們對自己編造的虛假信息表現出高度的自信。大型語言模型長期以來都存在“幻覺”現象，這是一個優雅的術語，用來形容這些模型產生完全不實答案的傾向。

儘管這些模型產生完全虛構答案的可能性非常高，世界仍然熱烈擁抱這項技術，從學生生成作業到科技巨頭的開發人員生成大量代碼。

然而，問題的裂痕開始顯現。例如，最近有一款基於OpenAI技術的AI模型在醫院中被發現經常出現幻覺和不準確的情況，特別是在轉錄病患互動時。

美國各地的警察也開始使用AI，這一發展令人擔憂，可能導致執法機構錯誤指控無辜的人，或加劇現有的偏見。

OpenAI的最新發現再次令人擔憂，表明目前的LLMs在可靠地傳達真相方面能力不足。這一發展提醒我們，對任何LLM生成的輸出都應保持懷疑態度，並願意仔細檢查生成的文本。

無論這個問題是否可以通過更大的訓練數據集來解決——這是AI領導者們急於向投資者保證的事情——仍然是一個未解的問題。

評論

這篇報導突顯了當前AI技術中的一個重要問題：即使是最先進的模型，也可能在真實應用中表現不佳，這不僅影響了使用者的信任，也可能對社會造成更大的風險。尤其是在醫療和執法等關鍵領域，AI的錯誤會導致不必要的後果。未來的發展需要更加注重模型的準確性和可靠性，而不僅僅是推廣其應用。這不僅是技術的挑戰，更是倫理的考量。對於AI的進一步發展，我們需要一個更全面的監管框架，以確保其安全、有效地服務於社會。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

OpenAI新AI模型驚人失準！

chatgpt

發佈留言取消回覆

OpenAI新AI模型驚人失準！

chatgpt

發佈留言 取消回覆

Related Articles

輝達與Anthropic：AI晶片出口中國爭端

輝達(Nvidia)遭降評！AI泡沫警訊？

右翼Rage Against the Machine翻唱樂隊？Craigslist廣告笑死人！

發佈留言取消回覆