加入Bluesky前請三思!數據爭議引發用戶擔憂

Ai

在加入Bluesky之前請三思

自從美國選舉日以來,Bluesky作為X(前身為Twitter)的微型博客替代平台,迅速受到關注。到11月20日,平台的用戶數自9月以來已經翻倍,達到2000萬。

該平台正與埃隆·馬斯克的X競爭,後者擁有約6.11億的每月活躍用戶,而Meta的Threads則擁有2.75億的每月活躍用戶。

馬斯克對X的擁有權以及與當選總統唐納德·特朗普的密切關係,使許多用戶感到不安,這可能是用戶流失的原因之一。有報告估計,在投票日之後的第二天,約有115,000個X帳戶在美國被停用。

據報導,特朗普正在考慮在馬斯克的指導下任命一位AI專員,以監督聯邦政策及政府對人工智能的使用。

然而,與X不同的是,Bluesky提供了一個開放的API,允許其數據用於訓練AI模型。Hugging Face的機器學習工程師丹尼爾·范斯特林最近發布了一個包含100萬條來自Bluesky Firehose API的公共帖子數據集。該數據集包括文本、元數據和語言預測。

但他因缺乏用戶同意而遭到反對。

“嗨,我不同意我的帖子或內容以任何方式被用於AI目的,出於道德原因。請將我的帳戶從你的數據抓取中撤除。”一位Bluesky用戶這樣發布。另一位用戶則表示:“你們已經開始了一種社會趨勢,讓壞行為者利用API故意創建對立的bsky數據集在Hugging Face上(例如,‘two-million-bluesky-posts’倉庫)。”這只是眾多此類帖子中的幾個。

范斯特林最終刪除了該數據集並公開道歉。他在Bluesky上表示:“我已經從倉庫中移除了Bluesky數據。雖然我的目的是幫助平台的工具開發,但我明白這違反了透明性和同意的原則。我為這個錯誤真心道歉。”

隨著事態的升級,Hugging Face的首席執行官克萊姆·德朗格在X上回應:“令人驚訝(或者說並不驚訝),Bluesky上似乎有很多有毒用戶。我們的一名團隊成員犯了錯誤,而我們所獲得的反應實在糟糕(但說實話,也有點搞笑)。也許我們應該繼續努力創造更積極的公共對話空間?”

然而,Bluesky本身並不使用用戶內容來訓練其模型。該公司在一則帖子中表示:“有許多藝術家和創作者在Bluesky上安家,我們聽到了他們對其他平台使用他們數據的擔憂。我們不會使用你們的任何內容來訓練生成性AI,也沒有這樣的打算。”

在Hugging Face事件之後,Bluesky澄清道,它是一個開放和公共的社交網絡,與互聯網上的網站類似。然而,網站可以通過robots.txt文件指定是否同意外部公司抓取其數據。Bluesky表示,他們正在嘗試引入類似的做法。

數據抓取和用戶同意的爭議

在11月15日,X更新了其服務條款。新條款指出,當用戶上傳內容(如文本、圖片等)時,即表示允許X用於分析,包括使用用戶內容來幫助訓練機器學習和人工智能模型。

這一變更是導致用戶轉向Bluesky的因素之一。值得注意的是,馬斯克的xAI計劃在12月推出自己的Grok獨立應用。

同樣,Meta的更新隱私政策明確指出,Meta使用用戶的帖子、照片和說明來訓練其模型。“我們不會使用你與朋友和家人的私人消息內容來訓練我們的AI,除非你或聊天中的某人選擇與我們的AI共享這些消息。”該公司表示。

微軟擁有的LinkedIn最近引入了一項新的隱私設置,自動將用戶註冊為AI模型訓練的一部分。9月18日,LinkedIn更新了其隱私政策,指出用戶數據可以用於開發和訓練AI模型。

不過,用戶可以通過進入帳戶設置中的數據隱私選項,禁用“數據用於生成性AI改進”的切換來選擇退出。這一選擇僅適用於未來的數據使用,而不影響已經進行的任何訓練。

這重要嗎?

像OpenAI和Anthropic這樣的初創公司已經耗盡了人類生成的內容來訓練其模型,現在依賴合成數據來開發他們即將推出的前沿模型。然而,在使用用戶數據時請求用戶同意仍然至關重要,繞過這一點是不可接受的。例如,在印度,Sarvam AI正在使用Meta的Llama 3.1 405B生成的合成數據來訓練其模型。

據報導,OpenAI使用Strawberry(o1)生成GPT-5的合成數據。這建立了一個“遞歸改進循環”,每個GPT版本(例如,GPT-5或GPT-6)都在由前一模型創建的更高質量的合成數據上進行訓練。

這一事件引發了對數據隱私和用戶權利的廣泛討論,尤其是在當前社交媒體生態系統中。用戶的數據是平台運營的基石,然而,許多平台在使用這些數據時卻未能充分尊重用戶的同意。Bluesky的情況正好反映出這一矛盾:在追求技術創新和用戶隱私之間,平台應如何找到平衡?這不僅是技術問題,更是道德問題。

在當前的科技環境中,企業必須更加謹慎地處理用戶數據,並建立透明的數據使用政策,以贏得用戶的信任和支持。用戶對數據隱私的關注將影響未來社交平台的發展方向,這是值得所有科技公司深思的課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *