AI框架

Alpamayo-R1 – 英伟达推出带推理的视觉-语言-动作模型

Alpamayo-R1(AR1)是英伟达推出的视觉-语言-动作(VLA)模型,通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括:构建因果链(CoC)数据集,通过“人机协同+自动标注”生成高质量的推理轨迹

GELab-Zero – 阶跃星辰开源的 GUI Agent 模型

GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型,专注于移动设备的自动化交互和任务执行。具备本地可部署能力,支持在消费级硬件上运行 4B 模型,确保低延迟和隐私保护。GELab-Zero 提供一键多终端部署,自动处理环境依赖和设备管理,支持分布式任务编排和多模态 Agent 模式,能灵活处理复杂任务。

HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型

HunyuanOCR 是腾讯混元团队推出的开源的端到端OCR视觉语言模型。依托混元原生多模态架构,仅用1B参数就实现了多项OCR任务的SOTA性能。具备高效轻量的架构,单指令单推理即可输出最优结果,相比传统级联方案更便捷高效。

Fara-7B – 微软开源的小型计算机Agentic模型

Fara-7B 是微软开源的专注于计算机使用的代理型小语言模型(SLM)。模型通过视觉感知网页,操作鼠标、键盘等界面元素来帮助用户完成任务,如填写表单、搜索信息或预订行程。

Teammates – 育碧推出的可交互生成式AI游戏项目

Teammates是育碧基于生成式AI技术推出的AI队友项目,能为玩家提供更具沉浸感和真实感的游戏体验。玩家能通过语音实时指挥AI队友,如“帕布罗,掩护我”或“索菲亚,攻击敌人”,AI队友根据指令和战场环境做出相应行动,如射击、掩护、跟随等。

GPT-5.1-Codex-Max – OpenAI推出的智能编程模型

GPT-5.1-Codex-Max 是 OpenAI 推出的智能编程模型,专为复杂、长周期的开发任务设计。模型基于更新的推理架构,通过“压缩”技术跨越多个上下文窗口,能处理数百万 tokens 的大规模任务,如项目级重构和深度调试。

OpenNof1 – 开源的AI自主交易系统,实时交易监控

OpenNof1 是 AI 自主交易系统,支持为用户提供自动化交易决策和风险管理。OpenNof1支持多种 AI 提供商(如 OpenAI、DeepSeek 等),能通过实时市场数据处理和极简主义界面,帮助用户在币安合约等平台上进行交易。

KaLM-Embedding – 腾讯推出的文本嵌入模型系列

KaLM-Embedding 是腾讯团队推出的一系列高性能文本嵌入模型,通过先进的训练技术和高质量数据提升文本嵌入的性能。最新版本 KaLM-Embedding-V2 在架构和训练方法上进行了多项创新,例如移除因果注意力掩码以实现双向表示学习

NocoBase – 开源AI无代码开发平台,通过配置完成应用开发

NocoBase 是开源、数据优先的AI无代码或低代码平台。以微内核+插件化为核心,所有功能(权限、工作流、API、主题等)均可按需插拔,支持 Node.js 与主流数据库。开发者先建模,系统自动生成表结构与接口;再配合可视化页面设计器,拖拽区块即可搭出复杂后台。

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足,通过高质量、多样化的数据构建,精准衡量模型的单模态与全模态能力。

Kosmos – FutureHouse 推出的AI科学家系统

Kosmos 是新一代 AI 科学家,由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型,能高效整合海量信息,单次运行可解析 1500 篇论文、执行 42000 行代码,处理规模远超同类系统。

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态(omni-modal)嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题,通过支持任意模态输入(包括文本、视觉和音频),生成统一且信息丰富的表示,支持多模态检索和分类任务。

BettaFish – 开源的多Agent舆情分析系统,自动采集、分析

BettaFish(微舆) 是开源的多智能体舆情分析系统,能帮助用户快速了解公众对事件、品牌或产品的看法。系统通过自然语言驱动,用户只需像聊天一样提出需求,系统能自动完成全网舆情的采集、分析和预测。

LTX-2 – Lightricks推出的电影级AI视频生成模型

LTX-2 是 Lightricks 开发的先进 AI 视频生成模型,专为高质量视频创作设计。能以原生 4K 分辨率和 50fps 的帧率生成电影级视频,支持多模态输入,包括文字、图片和草图,同时提供精细控制功能,可调节镜头角度、物体动作、时间节奏等。

Sonic-3 – Cartesia推出的实时语音对话模型

Sonic-3是Cartesia最新发布的语音AI引擎,是当前市场上速度最快、最自然的实时语音对话模型。采用创新的“状态空间模型”(SSM)架构,非传统的Transformer模型,能更有效地模拟人类思维,记住对话主题和情绪,无需每次都从头分析上下文。

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph 是智谱联合清华大学 CoAI 实验室开源的创新框架,能通过视觉 - 文本压缩解决大语言模型(LLM)上下文过长的问题。框架将长文本渲染为图像,用视觉语言模型(VLM)处理图像,实现 3 - 4 倍的上下文压缩。

Nof1.ai交易提示词 – 为AI交易系统设计的模板

Nof1.ai交易提示词是为AI交易系统设计的详细输入模板,提供全面的市场数据、技术指标和账户信息。提示词包括多个币种的当前价格、EMA、MACD、RSI等指标,及账户的持仓详情和性能指标。

Baichuan-M2 Plus – 百川智能推出的循证增强医疗大模型

Baichuan-M2 Plus 是百川智能推出的循证增强医疗大模型,基于 Baichuan-M2 医疗推理模型升级而来,通过首创的六源循证推理(EAR)范式,结合 PICO 智能检索和循证强化训练机制,显著降低医疗幻觉率,提升回答的可信度和专业性。

混元世界模型1.1 – 腾讯混元开源的3D世界生成模型

混元世界模型1.1(HunyuanWorld-Mirror)是腾讯发布的开源3D世界生成模型。支持多视图图像、视频等多种输入方式,可输出点云、深度图、相机参数等多种3D几何预测结果。模型采用纯前馈架构,可在单张显卡上部署,处理8-32视图输入时,本地耗时仅1秒,实现秒级推理。