新闻资讯

<<返回上一页

仅1.3B!Janus 统一多模态理解和生成

发布时间:2024-11-15 00:53:13点击:

Janus 是一个统一的多模态理解和生成的大型语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建,该模型训练时使用了大约5000亿个文本token的语料库。在多模态理解方面,它使用 SigLIP-L 作为视觉编码器,支持384 x 384像素的图像输入。在图像生成方面,Janus 使用了LlamaGen的tokenizer,并且具有16倍的下采样率。

Janus的训练过程是分阶段进行的,以确保模型在多模态理解和生成任务上都能达到高性能:

第一阶段:训练Adpater和图像Head

第二阶段:统一预训练

第三阶段:监督微调(SFT)

训练细节:

作为一个next token prediction的图像生成模型,生成效果相当不错:

同时作为一个多模态理解模型,仅1.3B且只有384的输入分辨率,效果也超出预期。比如带有文字的meme图的理解,甚至也还行:

可以看出,多模态大模型生成和理解,越卷越统一;模型尺寸也有着越卷越小的趋势。

原文链接:​ ​​ ​​

免责声明:凡未注明来自本站的稿件和图片作品,系转载自其它网站,及网友投稿,转载目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如若涉及侵权违规可向站长举报 。