AI框架_AI导航

Alpamayo-R1 – 英伟达推出带推理的视觉-语言-动作模型

Alpamayo-R1（AR1）是英伟达推出的视觉-语言-动作（VLA）模型，通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括：构建因果链（CoC）数据集，通过“人机协同+自动标注”生成高质量的推理轨迹

AI框架

2025-12-02

GELab-Zero – 阶跃星辰开源的 GUI Agent 模型

GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型，专注于移动设备的自动化交互和任务执行。具备本地可部署能力，支持在消费级硬件上运行 4B 模型，确保低延迟和隐私保护。GELab-Zero 提供一键多终端部署，自动处理环境依赖和设备管理，支持分布式任务编排和多模态 Agent 模式，能灵活处理复杂任务。

AI框架

2025-11-30

HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构，仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构，单指令单推理即可输出最优结果，相比传统级联方案更便捷高效。

AI框架

2025-11-25

Fara-7B – 微软开源的小型计算机Agentic模型

Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型（SLM）。模型通过视觉感知网页，操作鼠标、键盘等界面元素来帮助用户完成任务，如填写表单、搜索信息或预订行程。

AI框架

2025-11-25

Teammates – 育碧推出的可交互生成式AI游戏项目

Teammates是育碧基于生成式AI技术推出的AI队友项目，能为玩家提供更具沉浸感和真实感的游戏体验。玩家能通过语音实时指挥AI队友，如“帕布罗，掩护我”或“索菲亚，攻击敌人”，AI队友根据指令和战场环境做出相应行动，如射击、掩护、跟随等。

AI框架

2025-11-25

GPT-5.1-Codex-Max – OpenAI推出的智能编程模型

GPT-5.1-Codex-Max 是 OpenAI 推出的智能编程模型，专为复杂、长周期的开发任务设计。模型基于更新的推理架构，通过“压缩”技术跨越多个上下文窗口，能处理数百万 tokens 的大规模任务，如项目级重构和深度调试。

AI框架

2025-11-20

OpenNof1 – 开源的AI自主交易系统，实时交易监控

OpenNof1 是 AI 自主交易系统，支持为用户提供自动化交易决策和风险管理。OpenNof1支持多种 AI 提供商（如 OpenAI、DeepSeek 等），能通过实时市场数据处理和极简主义界面，帮助用户在币安合约等平台上进行交易。

AI框架

2025-11-14

KaLM-Embedding – 腾讯推出的文本嵌入模型系列

KaLM-Embedding 是腾讯团队推出的一系列高性能文本嵌入模型，通过先进的训练技术和高质量数据提升文本嵌入的性能。最新版本 KaLM-Embedding-V2 在架构和训练方法上进行了多项创新，例如移除因果注意力掩码以实现双向表示学习

AI框架

2025-11-12

NocoBase – 开源AI无代码开发平台，通过配置完成应用开发

NocoBase 是开源、数据优先的AI无代码或低代码平台。以微内核+插件化为核心，所有功能（权限、工作流、API、主题等）均可按需插拔，支持 Node.js 与主流数据库。开发者先建模，系统自动生成表结构与接口；再配合可视化页面设计器，拖拽区块即可搭出复杂后台。

AI框架

2025-11-10

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embedding Grouping机制解决时序同步问题，采用Constrained Rotary Time Embedding优化时间感知能力。

AI框架

2025-11-06

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足，通过高质量、多样化的数据构建，精准衡量模型的单模态与全模态能力。

AI框架

2025-11-06

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos 是新一代 AI 科学家，由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型，能高效整合海量信息，单次运行可解析 1500 篇论文、执行 42000 行代码，处理规模远超同类系统。

AI框架

2025-11-06

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态（omni-modal）嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题，通过支持任意模态输入（包括文本、视觉和音频），生成统一且信息丰富的表示，支持多模态检索和分类任务。

AI框架

2025-11-04

BettaFish – 开源的多Agent舆情分析系统，自动采集、分析

BettaFish（微舆）是开源的多智能体舆情分析系统，能帮助用户快速了解公众对事件、品牌或产品的看法。系统通过自然语言驱动，用户只需像聊天一样提出需求，系统能自动完成全网舆情的采集、分析和预测。

AI框架

2025-11-04

LTX-2 – Lightricks推出的电影级AI视频生成模型

LTX-2 是 Lightricks 开发的先进 AI 视频生成模型，专为高质量视频创作设计。能以原生 4K 分辨率和 50fps 的帧率生成电影级视频，支持多模态输入，包括文字、图片和草图，同时提供精细控制功能，可调节镜头角度、物体动作、时间节奏等。

AI框架

2025-11-01

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是Cartesia最新发布的语音AI引擎，是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”（SSM）架构，非传统的Transformer模型，能更有效地模拟人类思维，记住对话主题和情绪，无需每次都从头分析上下文。

AI框架

2025-10-30

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架，能通过视觉 - 文本压缩解决大语言模型（LLM）上下文过长的问题。框架将长文本渲染为图像，用视觉语言模型（VLM）处理图像，实现 3 - 4 倍的上下文压缩。

AI框架

2025-10-29

Nof1.ai交易提示词 – 为AI交易系统设计的模板

Nof1.ai交易提示词是为AI交易系统设计的详细输入模板，提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标，及账户的持仓详情和性能指标。

AI框架

2025-10-24

Baichuan-M2 Plus – 百川智能推出的循证增强医疗大模型

Baichuan-M2 Plus 是百川智能推出的循证增强医疗大模型，基于 Baichuan-M2 医疗推理模型升级而来，通过首创的六源循证推理（EAR）范式，结合 PICO 智能检索和循证强化训练机制，显著降低医疗幻觉率，提升回答的可信度和专业性。

AI框架

2025-10-24

混元世界模型1.1 – 腾讯混元开源的3D世界生成模型

混元世界模型1.1（HunyuanWorld-Mirror）是腾讯发布的开源3D世界生成模型。支持多视图图像、视频等多种输入方式，可输出点云、深度图、相机参数等多种3D几何预测结果。模型采用纯前馈架构，可在单张显卡上部署，处理8-32视图输入时，本地耗时仅1秒，实现秒级推理。

AI框架

2025-10-22