Gemini評測準確性成疑：非專家把關？

zero comment

非專家對Google Gemini輸出進行的專家評估引發質疑

根據報導，Google Gemini可能面臨準確性問題，而這並非源於其生成的內容出現幻覺。像其他生成式人工智慧模型一樣，Google Gemini的回應有時會不準確，但這次的問題或許是因為測試者缺乏必要的專業知識來進行事實核查。

據TechCrunch報導，為了提升Gemini的準確性，Google聘請的公司目前要求測試者在缺乏“領域知識”的情況下評估回應。這引發了對Google所聲稱的測試標準和嚴謹性的質疑。在Gemini 2.0的公告中，Google提到其正在“與可信的測試者和外部專家合作，並進行廣泛的風險評估、安全和保障評估。”雖然對於敏感和有害內容的評估有合理的重視，但對於那些並非危險但僅僅是不準確的回應卻缺乏足夠的關注。

Google似乎通過簡單地添加一個免責聲明來忽略幻覺和錯誤問題，聲明中提到“Gemini可能會犯錯，所以請進行雙重檢查”，這有效地使其免於任何責任。但這並未考慮到在背後執行工作的人的情況。

此前，Hitachi的子公司GlobalLogic指示其提示工程師和分析師跳過那些他們不完全理解的Gemini回應。該報導中查看的指導方針指出：“如果你沒有關鍵專業知識（例如編程、數學）來評估此提示，請跳過此任務。”

然而，上週GlobalLogic改變了指示，表示“你不應該跳過需要專業領域知識的提示”，而是應該“評估你理解的提示部分”，並在分析中註明他們缺乏所需的專業知識。換句話說，專業知識不再被視為這項工作的先決條件。

根據TechCrunch的報導，承包商現在只能跳過“完全缺失信息”的提示，或包含需要同意書的敏感內容的提示。

評論與反思

這一情況反映出科技公司在推進人工智慧技術時，對測試和評估的專業性重視不夠。當測試者缺乏必要的領域知識時，如何確保生成內容的準確性成為一個重要的挑戰。隨著AI技術的快速發展，這種對專業知識的忽視可能會導致更多的不準確和誤導性信息。

此外，Google的免責聲明可能會使其在面對用戶質疑時逃避責任，這不僅影響了用戶的信任，也可能對整個行業的發展造成負面影響。未來，科技公司應該更加重視專業知識的引入，並建立更嚴謹的測試標準，以確保AI生成內容的準確性和可靠性。只有這樣，才能在推進技術創新的同時，保護用戶的利益和信息安全。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。