Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

OpenAI公布網頁爬蟲GPTBot,解決網頁資料擷取疑慮

Share

2023-08-08

GPTBot提供網站或資料持有人opt-in或opt-out選項,決定是否提供網站內容給OpenAI訓練其AI模型

為解決從公開網站上掠取資料的隱私與智財權爭議,OpenAI本周一釋出網頁爬蟲技術GPTBot,以更透明方式蒐集公開網頁資料來訓練其AI模型。

OpenAI指出,GPTBot以明白的user agent token(GPTBot)及完整字串(Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)表明它是來自OpenAI。

OpenAI表示,以GPTBot user agent抓取的網頁資料可能會用於改良未來模型,過程中會篩選掉需要付費的來源,但其中仍可能包含可辨識身份的資訊,或是違反OpenAI政策的文字。

若網站管理員允許GPTBot存取網站,將可協助改進AI模型的精確度,提升其能力及安全。但若網站管理員不希望其網站被蒐集資料,OpenAI也提供了拒絕的方法說明。包括在網站robots.txt檔案中加入GPTBot(如圖),也可以自訂GPTBot存取網站部份內容(如圖)。此外,OpenAI也公布GPTBot使用(https://openai.com/gptbot-ranges.txt)的IP位址範圍,方便網站辨識與封鎖。

此類透明化措施可說是OpenAI對媒體或內容網站對AI模型業者未經同意蒐集資料的批評的回應。現在普遍認為,業者未經同意蒐集公開網站的內容來訓練自己的AI模型,侵犯了智財權、隱私權;他們應該要提供opt-in或opt-out選項,讓網站或資料持有人決定是不是要提供自己網站上的內容。

上周募資平臺Kickstarter也頒布一項AI相關規定,其中一項規定是若新創專案使用了外部,應出具來源網站的許可政策及同意證明。無法提供的專案則無法通過審核在Kickstarter上架。

而本周OpenAI預計也將有大改版,包括ChatGPT底層將升級為GPT-4,而外掛Code Interpreter也將支援上傳多個檔案到提示中。

Disclaimer:
Details
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu