Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

AI趨勢周報第222期: 一次可處理8千個Token,MosaicML開源新語言模型還可商用

Share

2023-07-25

生成式AI新創MosaicML開源70億參數語言模型,可處理的文長達8千個Token;Meta和微軟聯手發表可免費商用的大型語言模型Llama 2;Meta發表通用生成模型,文生圖、圖生文都可以;Hugging Face推出AI WebTV平臺,幫你測試影片、音樂生成AI的表現;3秒就能合成完美人聲,Google推高效能音檔生成模型

生成式AI新創MosaicML最近開源70億參數語言模型MPT-7B-8K,可處理的文長達8k Token。

MosaicML

重點新聞(0714~0720)

MosaicLM     文長     MPT-7B-8k  

一次可處理8千個Token,MosaicML開源新語言模型還可商用

生成式AI新創公司MosaicML最近開源一款70億參數的語言模型MPT-7B-8K,且一次可消化的文長達到8千個Token,擅長處理長文重點摘要和問答,還能在MosaicML平臺上根據特定任務,進一步微調。

進一步來說,該模型用1.5兆個Token(通常指單字或單位更小的詞根、詞綴)訓練而成,並以256個H100 GPU花3天完成模型訓練。這次釋出的模型有3個版本,包括MPT-7B-8k、MPT-7B-8k-Instruct和MPT-7B-8k-Chat,其中,第一個版本是以Transformer解碼器為基礎,並以FlashAttention和FasterTransformer機制來加速訓練與推論,能處理上下文長8千個Token的輸入,目前開源、允許商用。第2個版本是以第1個微調而成,可處理長篇指令,特別是摘要和問答,一樣開源且可商用。第3個版本則是Chatbot類的生成式模型,是額外用15億個聊天數據Token微調第1版模型而成,開源但不允許商用。(詳全文)

  Llama 2     微軟     Meta  

Meta和微軟聯手發表可免費商用的大型語言模型Llama 2

最近,Meta開源可免費商用大型語言模型Llama 2,並找來微軟當作首批發表合作夥伴。用戶現能在Azure和Windows上部署Llama 2模型,可降低企業開發AI應用的成本和障礙。

今年2月,Meta發表第一代LLaMA,僅開放AI研究社群申請使用。LLaMA以大量未標註的資料訓練而成,有70億、130億、330億及650億個參數等版本,用戶可針對各種任務進行微調。現在,Meta開源Llama 2不限研究用途,免費提供商用,但若用戶開發的應用程式月活躍使用者超過7億人,就得另外取得Meta的模型使用同意授權。Llama 2的訓練資料量比第一代多出40%,共使用2兆Token,且其文章上下文長度(即模型生成文本時參考的文章長度)是第一代的2倍,可生成更長的回覆。此外,Llama 2經調校的版本,使用了超過100萬個人類標註的資料訓練。Llama 2開源內容包括預訓練模型、經調校模型的權重和起始訓練程式碼,並有70億、130億和700億參數等版本。(詳全文)

  電腦視覺    CM3Leon     生成式AI  

Meta發表通用生成模型,文生圖、圖生文都可以

Meta日前發表可同時支援文字和圖像生成的通用模型CM3Leon,是一款由純文字語言模型配方所訓練的多模態模型,號稱圖像生成所使用的訓練運算資源是其它方法的1/5,就能達到進階表現,但Meta並未開源該模型。

CM3Leon是個基於Token、檢索增強和解碼器的模型,它採用因果隱蔽混合模態(CM3)架構,也就是模型可以只關注之前的元素,來生成輸出序列,確保生成內容的連貫性,還能在訓練過程中忽視或隱蔽某些元件,來產出更好的結果,還能同時處理文字和圖像的輸入。該模型只用了30億個Token文字資料訓練而成,比現有同類模型OpenFlamingo的400億個Token與Flamingo的1,000億個Token要少,還能執行更多任務。

Meta強調CM3Leon是個通用模型,單一模型就能處理多種任務,如以文字描述來生成圖像、以文字描述來編輯圖像,或是要求該模型替圖像生成圖說等,比如替《戴珍珠耳環的少女》戴上墨鏡,或輸入文字調整圖片天空的顏色。(詳全文)

  Google     音訊合成     SoundStorm  

3秒就能合成完美人聲,Google推高效能音檔生成模型

Google日前發表一項音檔合成模型SoundStorm,用2種方法來解決生成冗長音訊Token序列的問題,與現有主流的自回歸模型AudioLM相比,生成速度快了100倍,且只需3秒範本音檔,模型就能快速生成栩栩如生的人聲或音樂等音訊。

進一步來說,大多數音訊生成方法採用自回歸解碼器,會一一產生Token,雖然能保證音訊品質,但運算速度很慢,尤其是處理長序列。而SoundStorm採用的新方法,包含一個為SoundStream神經編碼器(用來生成音訊Token)量身打造的架構,以及根據自家圖像生成模型MaskGIT而改良的解碼方法,用來更有效率處理音訊Token。因為這些改良方法,SoundStorm可以平行生成音訊Token,也因此,SoundStorm推論長序列的速度比AudioLM快上100倍,還能產出相同品質的音檔,其語音和聲學還有更高的一致性。此外,團隊還將SoundStorm與文字轉語音模型SPEAR-TTS結合,能產出更高品質、更自然的對話。(詳全文)

/MosaicML、Meta、GitHub、微軟、Hugging Face

  AI近期新聞 

1. ChatGPT推出可客製化的指令,先供付費用戶試用

2. Meta AI推出ImageBind專案,可整合圖像、聲音、文字、影片、熱、深度和慣性等6種模態來訓練更智慧的AI模型

:iThome整理,2023年7月

Disclaimer:
Details
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu