MAI-Image-1 – 微软推出的首款自研图像生成式AI模型

MAI-Image-1是微软推出的首款自研图像生成式AI模型。模型以“创作者导向”为核心设计理念,擅长生成逼真的自然光照效果和复杂场景图像,如闪电、风景等。与一些更大、更慢的模型相比,MAI-Image-1能更快地处理请求并生成图像。

Youtu-Embedding – 腾讯优图开源的通用文本嵌入模型

Youtu-Embedding 是腾讯优图实验室开源的面向企业级应用的通用文本表示模型。模型通过大规模语料训练和创新的微调框架,具备强大的语义理解能力,能胜任文本检索、意图理解、相似度判断等六大任务。

SongBloom – 腾讯AI Lab推出的全长度歌曲生成模型

SongBloom 是腾讯 AI Lab 开发的全长度歌曲生成框架,结合了自回归草图绘制和基于扩散的细化技术,通过交错生成范式(Interleaved Generation)交替生成语义和声学上下文,生成高质量的完整歌曲。

Get Jobs – 开源的AI简历投递工具,支持多平台投递

Get Jobs是开源的自动化简历投递工具,能帮助用户高效地在多个招聘平台(如Boss直聘、猎聘、拉勾、51job、智联招聘等)上投递简历。

nanochat – Karpathy开源的低成本自建ChatGPT全栈项目

nanochat是AI领域专家Andrej Karpathy发布的开源项目,以极低成本和高效流程训练小型语言模型,实现类似ChatGPT的对话功能。仅需约100美元(使用8张H100 GPU训练4小时),即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。

SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型,专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成,采用渐进式训练框架,从视觉预训练到多模态融合,最终通过 SFT-RL 混合范式提升性能。

Hitem3D – AI 3D模型生成工具,实现2D到3D无缝转换

Hitem3D 是 AI 驱动的 3D 模型生成工具。工具结合 ULTRA3D 的高效性和 Sparc3D 的高精度,能将用户上传的图片快速转化为高质量的 3D 模型,适用游戏开发、电商展示、工业设计、教育研究等多种场景。

LLaVA-OneVision-1.5 – EvolvingLMMS-Lab开源的多模态模型

LLaVA-OneVision-1.5 是开源的多模态模型,通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率,增强对象和 OCR 能力。

闪设2D – 工业AI CAD设计平台, 自动3D转2D图纸

闪设2D是基于AI的新一代工业CAD软件,能自动将3D模型转换为2D图纸,广泛应用于汽车、3C、航空航天、能源、物流等行业的装备及零部件设计。软件基于工业生成式AI技术与自研的垂直生成模型,兼容主流CAD软件操作风格,无需安装即可使用。

Sora2提示词大全 – 50+热门场景提示词及视频合集

Sora 2作为备受瞩目的AI视频应用,合适的提示词能帮助我们更好地使用Sora 2,达到事半功倍的效果。如何充分利用Sora 2的潜力,让它在不同场景下都能发挥最好的效果,本文提供一份全面的Sora 2提示词大全,涵盖各种热门场景,帮助你更好地理解和使用这些提示词。

Everyday – AI任务自动化平台,自动识别完成任务

Everyday 是高效的 AI 任务自动化平台,能通过自然语言描述任务,帮助用户高效完成各种任务。平台能无缝连接常用工具,如邮件、日程、CRM 等,实现数据录入、日程安排、信息整理等常见办公任务的自动化。

7个免费Sora视频去水印工具,AI一键去除视频水印

按消除效果来看,SoundView 、WatermarkRemoverSora 和 NanoPhoto.AI 效果最好,对画面填充更自然,不会有明显的色块。SoundView 、鬼手剪辑、WinkStudio 支持长视频,其中 SoundView 和 WinkStudio 支持批量处理,对于处理需求大的友友来说,可以优先选择。

MineContext – 字节开源的主动式上下文感知 AI 工具

MineContext 是字节跳动开源的主动式上下文感知 AI 工具,通过挖掘数字生活中的“方块”,帮助用户高效管理知识和信息。每 5 秒截取一次屏幕,经过处理后,批量发送给视觉语言模型(VLM)分析,提取出人物、产品、公司档案等六种结构化上下文,主动生成日报、待办、洞察等高质量信息。

Instruct – 无代码的AI Agent自动创建与执行平台

Instruct 是无代码 AI 自动化平台,用户只需用自然语言描述任务,能快速创建、运行 AI Agent,无需编写代码或设计复杂流程。

AladdinEdu – 九章云极推出的GPU算力服务平台

AladdinEdu 是九章云极旗下面向高校科研场景的高性能 GPU 算力服务平台。平台提供多种套餐,支持 DC100(Hopper)显卡,具备大显存和高算力,适合大模型训练。

NeuTTS Air – Neuphonic开源的语音合成模型

NeuTTS Air 是 Neuphonic 开发的超拟真、可离线运行的 TTS(文本到语音)模型。具备高拟真语音合成能力,声音自然流畅,几乎能以假乱真。支持本地运行,提供 GGML 格式,兼容 CPU,可部署在手机、笔电或树莓派等设备上,无需联网即可使用。

Paper2Video – 国立大学推出的学术论文生成演示视频项目

Paper2Video 是新加坡国立大学 Show Lab 开发的项目,从学术论文自动生成演示视频。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频。框架包含幻灯片构建器、字幕构建器、光标构建器和演讲者构建器四个模块

Qwen3-VL Cookbooks – 阿里推出的多模态任务开发指南

Qwen3-VL Cookbooks 是阿里推出的为 Qwen3-VL 模型设计的实用指南集合,帮助用户快速掌握和应用该模型的各种功能。集合涵盖多种能力的使用示例,包括物体识别、文档解析、视频理解、空间理解、多模态编码等。

KAT-Dev-72B-Exp – 快手开源的编程模型

KAT-Dev-72B-Exp 是快手推出的开源编程专用大语言模型,参数规模达720亿。模型是 KAT-Coder 的强化学习版本,专为软件工程任务设计。

Caesr – AI自动化Agent,模拟人类操作设备

Caesr是智能自动化工具,能在电脑、手机和网页环境中像人类一样操作设备。工具通过视觉识别、点击按钮、填写表单等方式完成任务,无需依赖API或复杂脚本。Caesr主要功能包括端到端软件测试、数据输入与处理、重复性行政任务自动化等,支持多种操作系统和设备。