第2页_AI框架

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型，参数量仅0.9B，专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一，超越GPT-4o等主流模型。

AI框架

2025-10-19

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型

UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型，专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务，通过创新设计的"对象记忆机制"和统一视觉编码方式，实现了对视频中目标的精准追踪与语义理解。

AI框架

2025-10-16

DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架

DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成（TTS）框架。框架基于国际音标（IPA）统一输入体系，结合方言感知的 Mixture-of-Experts（MoE）架构和低资源适配策略（PEFT），实现低成本、低门槛的多方言语音合成。

AI框架

2025-10-16

Local-NotebookLM – 开源PDF转播客AI工具，自定义音频

Local-NotebookLM 是开源的本地 AI 工具，能将 PDF 文档转换为引人入胜的音频内容，如播客、访谈、辩论等。支持多种输出格式和内容风格，用户可以根据需求选择不同的音频长度和风格，如短篇、中篇、长篇，以及正常、轻松、正式、技术、学术等风格。

AI框架

2025-10-15

Get Jobs – 开源的AI简历投递工具，支持多平台投递

Get Jobs是开源的自动化简历投递工具，能帮助用户高效地在多个招聘平台（如Boss直聘、猎聘、拉勾、51job、智联招聘等）上投递简历。

AI框架

2025-10-14

SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型，专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成，采用渐进式训练框架，从视觉预训练到多模态融合，最终通过 SFT-RL 混合范式提升性能。

AI框架

2025-10-14

NeuTTS Air – Neuphonic开源的语音合成模型

NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS（文本到语音）模型。具备高拟真语音合成能力，声音自然流畅，几乎能以假乱真。支持本地运行，提供 GGML 格式，兼容 CPU，可部署在手机、笔电或树莓派等设备上，无需联网即可使用。

AI框架

2025-10-13

Androidify – 谷歌开源的如何构建AI Android应用项目

Androidify 是谷歌推出的一个开源项目，帮助开发者学习如何在 Android 上构建 AI 驱动的应用。项目使用了谷歌最新的技术，如 Jetpack Compose、Gemini API（通过 Firebase AI Logic SDK）、CameraX 和 Navigation 3。

AI框架

2025-10-11

OpenAgents – 构建AI Agent网络的开源框架

OpenAgents 是用在构建AI Agent网络的开源框架，将Agent连接到网络实现开放式协作。框架通过创建持久化的Agent网络，让Agent能像人类一样长期在线、相互协作、共享知识，完成复杂任务。

AI框架

2025-10-10

Tinker API – Thinking Machines Lab推出的模型微调API

Tinker API 是 Thinking Machines Lab 发布的首款产品，专为语言模型微调而设计。简化语言模型的微调流程，让研究人员和开发者能专注于算法和数据，无需担心复杂的分布式训练基础设施。提供底层操作原语，如forward_backward和sample，让开发者能构建自定义微调或强化学习算法，支持从小到大的各类开放权重模型，切换模型仅需修改代码中的一个字符串。

AI框架

2025-10-06

LONGLIVE – 英伟达等推出的交互式长视频生成框架

LONGLIVE 是英伟达等顶尖机构联合推出的实时交互式长视频生成框架。框架通过帧级自回归（AR）模型，结合 KV-recache 机制、流式长视频微调和短窗口注意力 + 帧汇入技术，解决长视频生成中效率和质量的双重瓶颈。

AI框架

2025-10-06

AI导航

AI框架