阿里云推出大规模视觉语言模型Qwen-VL

(资料图片仅供参考)

8月25日消息，阿里云推出大规模视觉语言模型Qwen-VL，一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，支持图文输入，具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中，Qwen-VL取得了远超同等规模通用模型的表现。Qwen-VL是支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区，开源、免费、可商用。用户可从魔搭社区直接下载模型，也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat，阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

关键词：