AI框架
PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型
PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。
UniPixel – 香港理工联合腾讯推出的像素级多模态大模型
UniPixel是香港理工大学和腾讯ARC Lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的"对象记忆机制"和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。
DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架
DiaMoE-TTS 是清华大学和巨人网络联合推出的多方言语音合成(TTS)框架。框架基于国际音标(IPA)统一输入体系,结合方言感知的 Mixture-of-Experts(MoE)架构和低资源适配策略(PEFT),实现低成本、低门槛的多方言语音合成。
Local-NotebookLM – 开源PDF转播客AI工具,自定义音频
Local-NotebookLM 是开源的本地 AI 工具,能将 PDF 文档转换为引人入胜的音频内容,如播客、访谈、辩论等。支持多种输出格式和内容风格,用户可以根据需求选择不同的音频长度和风格,如短篇、中篇、长篇,以及正常、轻松、正式、技术、学术等风格。
Get Jobs – 开源的AI简历投递工具,支持多平台投递
Get Jobs是开源的自动化简历投递工具,能帮助用户高效地在多个招聘平台(如Boss直聘、猎聘、拉勾、51job、智联招聘等)上投递简历。
SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型
SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型,专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成,采用渐进式训练框架,从视觉预训练到多模态融合,最终通过 SFT-RL 混合范式提升性能。
NeuTTS Air – Neuphonic开源的语音合成模型
NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS(文本到语音)模型。具备高拟真语音合成能力,声音自然流畅,几乎能以假乱真。支持本地运行,提供 GGML 格式,兼容 CPU,可部署在手机、笔电或树莓派等设备上,无需联网即可使用。
Androidify – 谷歌开源的如何构建AI Android应用项目
Androidify 是谷歌推出的一个开源项目,帮助开发者学习如何在 Android 上构建 AI 驱动的应用。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Firebase AI Logic SDK)、CameraX 和 Navigation 3。
OpenAgents – 构建AI Agent网络的开源框架
OpenAgents 是用在构建AI Agent网络的开源框架,将Agent连接到网络实现开放式协作。框架通过创建持久化的Agent网络,让Agent能像人类一样长期在线、相互协作、共享知识,完成复杂任务。
Tinker API – Thinking Machines Lab推出的模型微调API
Tinker API 是 Thinking Machines Lab 发布的首款产品,专为语言模型微调而设计。简化语言模型的微调流程,让研究人员和开发者能专注于算法和数据,无需担心复杂的分布式训练基础设施。提供底层操作原语,如forward_backward和sample,让开发者能构建自定义微调或强化学习算法,支持从小到大的各类开放权重模型,切换模型仅需修改代码中的一个字符串。
LONGLIVE – 英伟达等推出的交互式长视频生成框架
LONGLIVE 是英伟达等顶尖机构联合推出的实时交互式长视频生成框架。框架通过帧级自回归(AR)模型,结合 KV-recache 机制、流式长视频微调和短窗口注意力 + 帧汇入技术,解决长视频生成中效率和质量的双重瓶颈。
粤公网安备 123456789号