1 月 16 日消息,面壁智能公众号今日宣布推出小钢炮 MiniCPM-o2.6 端侧全模态模型。这个参数高达 8B 的新型模型号称性能比肩 GPT-4o、Claude-3.5-Sonnet。它采用端到端多模态架构,可同时处理文本、图像、音频和视频等多种类型的数据,生成高质量文本和语音输出。
官方表示,MiniCPM-o2.6-202405、Gemini1.5Pro 和 Claude3.5Sonnet 等主流商用闭源多模态大模型。
模型特点
MiniCPM-o2.6 具有以下特点:
- 参数量为 8B
- 端到端多模态架构
- 可同时处理文本、图像、音频和视频等多种类型的数据
- 生成高质量文本和语音输出
- 支持可配置声音的中英双语语音对话
- 具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力
- 支持在端侧设备上进行多模态实时流式交互
意义
MiniCPM-o2.6 的推出标志着端侧多模态 AI 技术发展迈入了新阶段。它将推动多模态技术在端侧设备上的广泛应用,为用户带来更加智能化的交互体验。
开源地址
MiniCPM-o2.6 模型已开源,地址如下:
关于面壁智能
面壁智能是一家专注于大语言模型研发和应用的 AI 公司。公司拥有业内领先的大语言模型训练技术和算法平台,致力于打造世界级的大语言模型,推动 AI 技术的进步。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...