免費(fèi)、SOTA、中文,微軟卷出了新高度
出品 | 虎嗅科技組作者 | 杜鈺君編輯 | 王一鵬頭圖 | 攝圖網(wǎng)碾壓谷歌的GeminiPro和阿里的Qwen-VL-Plus,與GPT-4V正面硬剛,這個有著SOTA級別性能的多模態(tài)大模型真正做到了“人無我有,人有我優(yōu)”。繼2023年4月的初級版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微軟研究院又聯(lián)合威斯康星大學(xué)麥迪遜分校和哥倫比亞大學(xué)的研究者共同發(fā)布了多模態(tài)大模型LLaVa(LargeLanguageandVisionAssistant)的1.6版本。與GPT-4V只提供API接口的閉源經(jīng)營理念不同,LLaVA1.6的代碼、模型與訓(xùn)練數(shù)據(jù)全開源,且在標(biāo)準(zhǔn)評測數(shù)據(jù)集上跑出了較為亮眼的成績。一、LLaVA1.6:卷上加卷LLaVA是一種端到端訓(xùn)練的大型多模態(tài)模型,又被稱為“大型語言和視覺助手”。LLaVa-1.6是微軟LLaVa系列的第三個迭代版本。升級后的LLaVa-1.6可謂buff疊滿:SOTA級別的性能,低訓(xùn)練花銷,多模態(tài)的內(nèi)容生成能力和再一次將開源大模型卷上了新高度。根據(jù)LLaVa-1.6官網(wǎng)的標(biāo)準(zhǔn)評測數(shù)據(jù)集,該模型的表現(xiàn)超越了Qwen-VL-Plus、CogVLM和Yi-VL等一眾模型,在大部分?jǐn)?shù)據(jù)集上的表現(xiàn)都優(yōu)于GeminiPro,在Math-Vista、MMB-ENG等部分?jǐn)?shù)據(jù)集上的表現(xiàn)甚至勝于GPT-4V,成為了開源模型中的“性能王者“。圖片來源:LLaVA-1.6官網(wǎng)的標(biāo)準(zhǔn)評測數(shù)據(jù)在不拘泥于單一模態(tài)的內(nèi)容生成,具有Text-to-Text和Image-to-Text兩種模式的同時,LLaVa-1.6的過人之處還在于更低的訓(xùn)練數(shù)據(jù)成本。LLaVA-1.6能用32個GPU在一天之內(nèi)完成訓(xùn)練,僅需1.3M條訓(xùn)練數(shù)據(jù),其計(jì)算和訓(xùn)練數(shù)據(jù)比其他模型小100到1000倍。除了通過對話式AI生成文本外,LLaVA-1.6還可以識別圖片信息并轉(zhuǎn)化成文字答案。升級后的LLaVa-1.6對輸入圖像的分辨率提升到原來的4倍以上,使得模型能夠抓住圖片的更多細(xì)節(jié)。目前支持的圖像分辨率有672x672、336x1344以及1344x336三種。LLaVA模型架構(gòu)基于大量的圖像-文本配對的數(shù)據(jù)集,將預(yù)訓(xùn)練的CLIP視覺編碼器與大型語言模型(Vicuna)通過映射矩陣相連接,來實(shí)現(xiàn)視覺和語言特征的匹配。根據(jù)該模型的研發(fā)團(tuán)隊(duì)成員HaotianLiu在X平臺的介紹,此增強(qiáng)版本建立在其前身的簡約設(shè)計(jì)和數(shù)據(jù)效率基礎(chǔ)上,并通過改進(jìn)視覺指令數(shù)據(jù)集和SGLang,提升了“推理、OCR等方面的性能”,意味著人類向AGI(通用人工智能)探索的道路上又邁進(jìn)了一步。LLaVA-1.6的研發(fā)團(tuán)隊(duì)成員HaotianLiu在X平臺發(fā)文原文二、更適合中國人體質(zhì)的GPT-4V在奮力追平GPT-4V的同時,LLaVa-1.6也展現(xiàn)出強(qiáng)大的零樣本中文能力。LLaVa-1.6不需要額外訓(xùn)練便具備杰出的中文理解和運(yùn)用能力,其在中文多模態(tài)場景下表現(xiàn)優(yōu)異,使得用戶不必學(xué)習(xí)復(fù)雜的“prompt”便可以輕松上手,這對于執(zhí)行“免費(fèi)(限制文本長度、使用次數(shù)等)+付費(fèi)會員”制的文心一言們而言無疑提出了新的挑戰(zhàn)。筆者在對LLaVa-1.6模型的demo進(jìn)行嘗試時發(fā)現(xiàn),LLaVa-1.6對古詩詞等具有中文語言特色的文本內(nèi)容理解也較為到位,且能給出中上水平的答案。因而對于有圖生文或文生文需求的用戶而言,LLaVa-1.6模型不失為更適合中國人體質(zhì)的GPT-4V。圖片來源:筆者在文心一格平臺的使用截圖更強(qiáng)的視覺對話能力使得LLaVa-1.6的智能服務(wù)可以覆蓋更多元的場景、具有更強(qiáng)的常識和邏輯推理能力。圖片來源:用戶在X平臺對LLaVA-1.6的試用截圖在上圖的應(yīng)用場景中,用戶發(fā)給LLaVA-1.6一張機(jī)票,詢問與之相關(guān)的接機(jī)和日程安排。LLaVA-1.6不僅準(zhǔn)確的估計(jì)了駕駛時間,還考慮到了可能堵車的情況,頗具一個“智能管家”的自我修養(yǎng)。圖片來源:用戶在X平臺對LLaVA-1.6的試用截圖為了促進(jìn)多模態(tài)大模型社區(qū)的發(fā)展,開發(fā)者們開源了LLaVa-1.6的全部代碼、訓(xùn)練數(shù)據(jù)和模型。這無疑有益于人工智能開發(fā)的透明度和協(xié)作。在較小訓(xùn)練樣本和開源的前提下,如果可以基于本地數(shù)據(jù)訓(xùn)練專業(yè)模型,推動解決當(dāng)前大模型基于云的產(chǎn)品的責(zé)任和隱私問題。不難發(fā)現(xiàn),輕量化的訓(xùn)練數(shù)據(jù)是LLaVa-1.6與其他多模態(tài)大模型不同的關(guān)鍵一點(diǎn)。一直以來,成本的高企便是橫亙在大模型訓(xùn)練面前的一大難題。隨著大模型賽道越來越卷,研發(fā)者們開始將關(guān)注點(diǎn)從性能轉(zhuǎn)向成本,在關(guān)注大規(guī)模參數(shù)量的同時著力降低模型的運(yùn)算和推理成本,實(shí)現(xiàn)模型壓縮化和計(jì)算高效化。