登入

會員權益

獲取需求

查看名片

專屬客服

尊貴標識

VIP低至1.5U/天

微軟公布具視覺能力的Phi-3-vision多模態模型,可跑在行動裝置上

分享

2024-05-22

微軟釋出小語言模型Phi-3家族第一個多模態模型Phi-3-vision,同時具備文字以及圖片識別能力,能根據用戶要求產出洞見與回答問題

/微軟

Phi-3-vision現在已以預覽版公開於Hugging Face平臺上。

最新公布的Phi-3-vision為指令調校過的Phi-3-128K-Instruct模型,包括Phi-3-mini語言模型、圖片編碼器、連接器(connector)與投影器(projector)。其脈絡長度為128k token,訓練期間為2024年2月到4月。

資料集方面,Phi-3-vision是以500B token的多種類型圖片及文字資料來訓練,包括嚴選公開內容、高品質教育資料與程式碼、高品質的圖文整合資料、新的「教科書等級」合成資料(主要是數學、程式、常識理解、真實世界知識如科學、日常活動、心靈理論)與圖表圖片,以及高品質的監督式聊天格式資料,後者涵括多種人類偏好如遵從指令、真實、誠實、助益等主題。為了確保隱私,資料蒐集過程中已篩選掉包含個資的資料。

微軟也提供了Phi-3-vision相較於字節跳動Llama3-Llava-Next(8B)及(微軟研究院和威斯康辛大學、哥倫比亞大學合作的)LlaVA-1.6(7B)、阿里巴巴通義千問QWEN-VL-Chat模型在效能比較,顯示最新模型在多個項目上表現優異。

/微軟

免責聲明:
詳情
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu