小說用於訓練ChatGPT OpenAI遭罰30億(圖)


OpenAI研發的ChatGPT需要接受大量的文本資料訓練,才能夠根據書面提示自動生成文本。(圖片来源: LIONEL BONAVENTURE/AFP via Getty Images)

【看中國2023年7月8日訊】(看中国记者程帆编译综合报道)人工智能研究實驗所OpenAI因利用大量網路數據,訓練ChatGPT聊天機器人,近日被多人提訴,並面臨30億美元以上的罰金,微軟公司也在被告之列。

侵犯作家版權

據CNBC的報導,知名小說作家崔佈雷(Paul Tremblay)和阿瓦德(Mona Awad)7月5日在舊金山聯邦法院起訴OpenAI,指控該機構在未經許可的情況下,拿了他們上千本書籍數據用來訓練AI工具,侵犯了作者的版權。

訴狀中引用了ChatGPT生成的部分摘要,儘管出現了一些錯誤,但聊天機器人對原告作品的摘要大多是「非常準確的」。兩位作家認為,「ChatGPT保留了訓練資料集中特定作品的知識」,即精準的摘要只有在使用這些小說對生成式AI模型進行訓練時,「才有可能」生成。

據悉,崔佈雷被盜用的作品有「世界盡頭的小屋」(The Cabin at the End of the World),阿瓦德則著有「兔子」(Bunny)和「看一個胖女孩的13種方式」(13 Ways of Looking at aFat Girl)等。

由OpenAI研發的ChatGPT需要接受大量的文本資料訓練,才能夠根據書面提示自動生成文本。它比矽谷科技企業過去的聊天機器人更加先進且具創造力,也因此獲得了微軟等企業的資助。

儘管該機構未透露過訓練ChatGPT過程中確切使用哪些資料,但表示通常在網路上抓取資料,包括使用檔案圖書和維基百科等。

目前,尚不清楚OpenAI如何回應法庭。

16位匿名者状告OpenAI

事實上,上月底,OpenAI與其合作夥伴微軟公司被16位匿名人士指控稱,系統性地從網上書籍、文章和發帖中收集了3000億個單詞。「OpenAI這麼做是秘密進行的,並沒有按照適用法律的要求註冊為一家數據經紀商。」

除此之外,被告的兩家公司還通過AI工具「搜索、存儲、跟蹤、共享和披露」了數百萬人的訊息,包括產品、賬戶、郵件、支付信息、交易記錄、聊天日誌、cookie等其他在線活動。這些信息反映了人们的「愛好、宗教信仰、政治觀點、投票記錄、團體成員身份、性取向及工作經歷、家庭照片、朋友等數據。」

在這份長達157頁訴狀中稱,「就個人信息而言,被告未能將其從被訓練模型中全部過濾掉,使得上百萬人蒙受著信息立即或以其他方式向世界各地陌生人披露的風險。」

《華盛頓郵報》的報導稱,不僅直接使用ChatGPT會使信息被泄露,那些集成了ChatGPT應用程序的用戶也遭到波及,例如使用Snapchat、Stripe、Spotify、Microsoft Teams和Slack的用戶,也存在信息被泄露的風險。

原告認為,「被告為獲取豐厚的利潤,沒有考量其行為所帶來的安全隱患。」為此,他們向微軟和OpenAI索賠30億美元。加州舊金山聯邦法院現正在受理此案。

本文留言

相關文章


近期讀者推薦