DeepSeek开源多模态大模型Janus-Pro：性能超越DALL-E 3，具备本地运行潜力

author 阅读：123 2025-02-04 16:22:37 评论：2

春节前夕，中国人工智能公司DeepSeek悄然发布了其最新的多模态大模型Janus-Pro，并在图像生成基准测试中超越了OpenAI的DALL-E 3和Stability AI的Stable Diffusion 3-Meduim等模型。更引人注目的是，Janus-Pro 7B和1.5B模型以MIT许可证开源，并具备在消费级电脑上本地运行的潜力，这为国内外开发者提供了强大的工具，也降低了AI应用的门槛。

Janus-Pro是DeepSeek对去年10月发布的Janus模型的升级，其核心创新在于采用了一种新颖的自回归框架，将视觉编码分离为“理解”和“生成”两条路径。这种设计巧妙地解决了以往多模态模型中视觉编码器角色冲突的问题，提升了模型的灵活性和性能。通过7200万张高质量合成图像的训练数据补充，以及对真实数据的1:1比例融合，Janus-Pro在图像生成方面取得了显著的进步，展现出更具视觉吸引力和稳定性的图像输出。此外，在多模态理解方面，Janus-Pro参考了DeepSeek VL2，并增加了约9000万个样本，进一步增强了其理解能力。

Janus-Pro的功能不仅限于“文生图”，它还可以进行图片描述、地标识别（例如识别杭州西湖）、图像文字识别，以及对图像中知识的介绍（例如识别图片中的“猫和老鼠”蛋糕）。这种多功能性使其在图像理解和内容生成领域都具有广泛的应用前景。

虽然Janus-Pro目前只能生成384 x 384规格的图像，并且DALL-E 3是2023年发布的相对“老”模型，但DeepSeek在如此紧凑的模型尺寸下依然能够实现超越DALL-E 3的性能，这充分展现了其技术实力。Janus-Pro的开源特性，也为学术界和产业界提供了宝贵的资源，有望加速多模态人工智能技术的创新和发展。这对于中国人工智能产业发展，以及全球人工智能领域的开源生态建设都具有重要意义。未来，我们可以期待Janus-Pro在更多场景下的应用，以及DeepSeek在人工智能领域取得更多突破性的进展。

本文 timi45.com 原创，转载保留链接！网址：https://timi45.com/post/1279.html

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。