NEO – 商汤联合南洋理工开源的全新多模态模型架构

AI项目 2025-12-03

NEO是什么

NEO是商汤科技与南洋理工大学合作研发的全新多模态模型架构,作为首个原生多模态架构(Native VLM),NEO通过底层架构的深度创新,打破了传统多模态模型的局限。核心创新包括原生图块嵌入(Native Patch Embedding),能更精细地捕捉图像细节;原生三维旋转位置编码(Native-RoPE),完美适配图像和文本的自然结构;以及原生多头注意力(Native Multi-Head Attention),提升模型对复杂图文关系的理解能力。NEO在数据效率、性能和推理性价比方面表现出色,仅需较少数据即可达到顶尖视觉感知能力,在多项权威评测中取得优异成绩。商汤已开源2B和9B两种规格的NEO模型,推动原生多模态技术的产业化应用,构建下一代多模态技术标准。

NEO

NEO的主要功能

  • 原生多模态融合:NEO通过底层架构设计,实现了图像和文本的深度融合,突破了传统多模态模型的模块化限制,能更自然地处理图文混合内容。
  • 高效数据利用:仅需较少的数据量(如3.9亿图像文本示例),NEO就达到顶尖的视觉感知能力,显著提高了数据利用效率,降低了训练成本。
  • 卓越性能表现:在多项权威评测中,NEO展现了优异的性能,无论是图像理解、文本生成还是图文推理任务,能提供高质量的输出。
  • 高推理性价比:特别是在中小参数规模(如0.6B-8B)下,NEO在边缘部署和推理效率方面表现出色,适合广泛的实际应用场景。
  • 开源协作与扩展:商汤已开源2B和9B两种规格的NEO模型,鼓励开发者和研究者基于此架构进行进一步开发和应用,推动多模态技术的产业化落地。

NEO的技术原理

  • 原生图块嵌入(Native Patch Embedding):通过自底向上的连续映射,将图像像素直接嵌入到模型中,避免了传统图像tokenizer的离散化处理,更精细地捕捉图像细节,提升图像建模能力。
  • 原生三维旋转位置编码(Native-RoPE):创新性地解耦了图像和文本的三维时空频率分配,为图像分配高频编码,为文本分配低频编码,更好地适配两种模态的自然结构,支持复杂场景下的空间结构关联。
  • 原生多头注意力(Native Multi-Head Attention):在统一框架下,同时实现文本的自回归注意力和视觉的双向注意力,提升模型对图文关系的理解能力,支持复杂的图文混合理解与推理任务。
  • 底层架构创新:从底层架构出发,实现多模态的深度融合,而非简单的模块化拼接,从根本上突破了传统多模态模型的性能瓶颈,提升了模型的整体效能。
  • 高效训练与推理:通过优化的架构设计,NEO在训练和推理过程中展现出更高的效率,特别是在中小参数规模下,能够实现更低的计算成本和更高的推理速度,适合广泛的实际应用。

NEO的项目地址

  • Github仓库:https://github.com/EvolvingLMMs-Lab/NEO
  • arXiv技术论文:https://arxiv.org/pdf/2510.14979

NEO的应用场景

  • 图像与文本生成:NEO能根据文本描述生成高质量的图像,或者根据图像内容生成准确的文本描述,适用于创意设计、内容创作等领域。
  • 智能搜索与推荐:通过理解图像和文本的深层语义,NEO可以为用户提供更精准的搜索结果和个性化推荐,提升用户体验。
  • 多模态问答:NEO能处理图文混合的问答任务,结合图像和文本信息提供更准确的答案,适用于教育、客服等场景。
  • 智能驾驶与机器人视觉:NEO的高效图像理解能力可用于智能驾驶中的场景感知、物体识别,以及机器人视觉中的环境理解与导航。
  • 工业检测与监控:NEO能快速准确地识别图像中的异常和缺陷,适用于工业生产中的质量检测和监控系统。
  • 医疗影像分析:NEO可以辅助医生进行医学影像的分析和诊断,结合病历文本信息提供更全面的诊断建议。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章