Anthropic在其API服務中推出提示詞快取(Prompt Caching)功能,該功能讓開發者可以快取經常使用的上下文,使得每次呼叫模型時,不再需要重新提供大量重複的背景資料,官方提到,在長提示詞應用場景中,甚至可降低達90%成本,並使延遲減少85%。
提示詞快取的概念,是將開發者經常使用的大量提示詞上下文進行快取,只要開發者在第一次呼叫API時上傳完整背景資料,在後續呼叫時,系統便可直接使用這些快取內容。當使用者發送請求時,系統會檢查提示詞前綴是否已在最近的查詢中被快取,是則直接使用快取版本,否則處理完整的提示詞並且快取前綴供後續使用。
該功能的優勢在於大幅減少重複性資料傳輸需求,降低呼叫API的成本和延遲,因此特別適合處理大量資料和多次互動的應用程式,諸如長時間的對話代理、程式開發助理、大型文件或多輪對話處理,以及知識庫查詢等。
藉由提示詞快取功能,開發者可以將完整的知識庫或是樣本嵌入到提示中,並且在後續請求中重複使用這些資料,達到低成本和快速回應的效果。寫入快取的成本比基礎輸入Token的價格高25%,但在使用快取內容時便宜許多,僅為基本輸入Token的10%,這代表當頻繁使用快取,則仍可大幅節省成本。
依照定價官方給出提示詞快取在不同情境的效益參考,在10萬Token提示快取的書籍聊天,延遲從11.5秒減少至2.4秒,同時成本降低了90%,而1萬Token的多樣本提示,延遲從1.6秒減少到1.1秒,成本也降低86%,而對於具有長系統提示的多輪對話,延遲從10秒減少至2.5秒,成本節省53%。
目前提示詞快取已經先在Claude 3.5 Sonnet、Claude 3 Haiku模型上開始公開測試,而Claude 3 Opus模型則會在稍晚的時候支援。
除了Anthropic Claude的提示詞快取,市場上也有其他人工智慧服務提供類似的功能,像是OpenAI也有在文件中提到類似的技術,開發者可大量共享提示詞前綴,把RAG結果或是歷史紀錄等動態的部分放在提示的後半部分,就可以使得請求更具鍵值快取友善(Key-Value Cache Friendly),減少每次請求處理輸入的Token數量,進而降低延遲。