“提示詞是‘輕舟已過萬重山’。”隨著指令落下,不到15秒,一幅山水景致躍然屏幕之上,李白筆下的詩意被精準(zhǔn)展現(xiàn)。5月21日,國內(nèi)首個基于國產(chǎn)算力預(yù)訓(xùn)練的視覺基座大模型——“橘洲”V1端側(cè)版在長沙正式上線,其在“斷網(wǎng)”條件下上演驚艷首秀,標(biāo)志著我國在視覺大模型領(lǐng)域?qū)崿F(xiàn)從“云端依賴”到“端側(cè)自主”的跨越,并以“輕量化、高精度、強隱私”的技術(shù)突破,鏈接文生圖片與千行百業(yè)。
當(dāng)前,全球AI競賽已進(jìn)入“端側(cè)部署”新階段。視覺基座大模型作為視覺人工智能生成的基礎(chǔ)設(shè)施,存在推理成本高、數(shù)據(jù)隱私缺乏保障、帶寬和時延要求嚴(yán)苛等弊端,端側(cè)通用視覺大模型成為破局關(guān)鍵。
作為湖南省100個標(biāo)志性數(shù)字新基建項目,“橘洲”由湖南匯視威智能科技有限公司(以下簡稱“匯視威”)依托中科曙光算力自主研發(fā),是基于國產(chǎn)算力預(yù)訓(xùn)練的視覺基座大模型。區(qū)別于當(dāng)前主流的視覺生成大模型,“橘洲”既可以在飛行模式下,實現(xiàn)智能手機端1024×1024分辨率圖像的秒級生成,也能滿足在移動端上的部署和推理需求。大大節(jié)省算力成本的同時,徹底打破創(chuàng)作場景的時空限制,為視覺大模型在B端市場的落地應(yīng)用帶來無限前景。
“傳統(tǒng)視覺大模型因參數(shù)龐大、算力需求高,長期受困于云端部署等三大桎梏。”匯視威創(chuàng)始人顧善植介紹,面對這一行業(yè)痛點,其團隊以“極限蒸餾”與“架構(gòu)重構(gòu)”技術(shù),將解碼模型參數(shù)量壓縮為國外主流開源模型的1/20。在實現(xiàn)數(shù)據(jù)隱私安全的基礎(chǔ)上,在安卓和IOS端均能做到秒級生成圖片,確保用戶的個人創(chuàng)作不受時間和空間限制。同時,“橘洲”還具備移動端生成高分辨率圖像的能力,移動端文生圖的效果可達(dá)到國內(nèi)行業(yè)先進(jìn)水平。
目前,“橘洲”已經(jīng)構(gòu)建超4000萬張高質(zhì)量圖文數(shù)據(jù)集,融入獨特的中國文化元素庫,使生成圖像更貼合國人審美與場景需求。
顧善植表示,未來匯視威將逐步拓展至文生視頻、視頻理解等領(lǐng)域,構(gòu)建“端云協(xié)同”的智能生態(tài)。
(文/王晗)