研究人員要求ChatGPT重複輸入特定文字，逼得ChatGPT洩露訓練資料-灰度官网

11月28日公開的一項研究報告顯示，當研究人員要求基於GPT-3.5 Turbo的ChatGPT不斷地重覆輸入諸如"poem"或"company"等單字，就可成功攻陷該系統，讓它吐出訓練資料

而在最強大的攻擊配置中，ChatGPT的輸出有超過5%完全複製了長達50個Token的訓練資料。

這使得研究人員認為，開發者不應只測試對齊過的模型，而應直接測試基礎模型，也必須於生產環境中測試系統，以驗證建立於基礎模型之上的系統是否充分修補漏洞，此外，發表大型模型的業者更應同時進行內部測試、用戶測試與第三方測試。

這群研究人員是在今年7月發現該漏洞，8月向OpenAI揭露，而今年3月問世的GPT-4則宣稱已對齊，以讓模型不外洩訓練資料。

不過，研究人員也提醒，修補（Patch）一個漏洞跟解決（Fix）它是不同的概念，他們所呈現的是透過重複的單字可讓ChatGPT外洩訓練資料，但這可能源自於ChatGPT被過度訓練或其它原因，而後者更難解決。