
ChatGPT 現在可以準確猜測照片位置
OpenAI 最近推出的最新模型具備了根據上下文線索判斷照片位置的能力,這被稱為「視覺感知的重大突破」。早期測試者上傳照片並要求 ChatGPT 進行「地理猜測」,結果顯示出驚人的準確性。
AI 會分析照片,花幾秒鐘進行「思考」,即分析照片中的上下文線索。然後,它會提供答案,並附上「一系列內部思考」的過程,解釋為什麼得出這樣的結論。例如,有用戶拍攝了一本圖書館的書籍,ChatGPT 根據標籤上的代碼正確猜測出拍攝地點是墨爾本大學。
另一位用戶上傳了一張在蘇里南的普通住宅照片,ChatGPT 也成功猜出來。這就像是 AI 版本的地理專家。
雖然過去已經有 AI 驅動的照片定位技術,但使用 OpenAI 的 o3 模型的版本似乎使這項技術變得更為普及。值得一提的是,之前的模型和現在的主打產品 GPT-4o 也具備相同的能力,但準確性較低。
我們測試了這兩個模型,要求它們猜測我們本周在紐約汽車展上拍攝的斯巴魯最新電動車的照片。
GPT-4o 沒有能夠精確定位,但正確地推測出可能是在汽車展上,地點可能是芝加哥、紐約或洛杉磯。它根據「環境:光滑的展示環境、近距離的多輛汽車、資訊標識和周圍觀眾」作出推測。不過,它錯誤地讀取了車名,稱之為「Trailspeed」,而非「Trailseeker」。
而更新的 o3 模型則正確猜測出來。它「思考了 1 分 40 秒」,然後解釋說「藍色跨界車是斯巴魯 2026 年的 Trailseeker EV,該車型首次在 2025 年紐約國際汽車展上於曼哈頓的雅各布·K·贾维茨會議中心展出。」
它還爬取了斯巴魯的車輛發布頁面,以確認 Trailseeker 是在展會上首次亮相,並將斯巴魯展位的設計圖片與照片進行匹配,找到了「照明、地毯式的‘森林地面’主題」的相似之處。
ChatGPT 的圖片識別與操作結合
ChatGPT 還可以將圖像識別與圖像操作結合。如果用戶上傳的圖片不完美,ChatGPT 可以調整元素以回答相關問題。比如,在一個例子中,它解讀了一本筆記本上顛倒的難以識別的文字。
OpenAI 表示該模型「仍然可能會犯基本的感知錯誤」,即使在工具正確地推進推理過程時,視覺誤解也可能導致錯誤的最終答案。
其他應用也利用 AI 確定照片的位置。例如,Geospy 使用植物和建築等上下文線索來確定位置。今年早些時候,404 媒體報導該應用可能會被執法機構和跟蹤者利用,因為用戶可以要求 ChatGPT 地理定位社交媒體上發布的照片。
OpenAI 期望這項技術能在無障礙、研究或緊急應對中發揮作用。公司發言人告訴我們:「我們努力訓練模型拒絕涉及私密或敏感信息的請求,並增加了旨在禁止模型識別圖片中私人個體的安全措施,並積極監控並對濫用我們的隱私政策採取行動。」
在這篇報導中,我們可以看到 AI 在照片識別和定位方面的潛力已經大幅提升,但同時也必須注意潛在的隱私問題。隨著這項技術的進步,未來可能會出現更多的應用場景,不僅在生活中提供便利,也可能在商業和安全領域發揮重要作用。然而,對於如何平衡技術進步與個人隱私的保護,社會仍需展開深入討論。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。