Gemini3 DeepThink – 谷歌推出的超强推理模型

AI项目 2025-12-05

Gemini3 DeepThink是什么

Gemini 3 Deep Think 是谷歌 DeepMind 推出的超强推理模型，具备并行思考能力，可同时探索多个假设，选择最优答案路径。模型在高难度测试中表现卓越，如 ARC-AGI-2 中准确率高达 45.1%，是 GPT-5.1 的 2.5 倍。模型展现出强大的创意和编程能力，能生成复杂 3D 场景。Gemini 3 Deep Think 的目标是攻克复杂推理难题，推动通用人工智能（AGI）发展。目前，Gemini 3 Deep Think 已在 Gemini App 上线，仅对 Ultra 订阅用户开放。

Gemini3 DeepThink的主要功能

并行推理：模型能同时处理多个假设，通过并行思考找到最优解，适合解决复杂的数学、逻辑和科学问题。
高级逻辑推理：在高难度的逻辑推理测试中表现出色，例如在 ARC-AGI-2 测试中创下 45.1% 的准确率记录。
科学知识问答：模型能准确回答高精度的科学知识问题。
创意编程和生成：模型生成复杂的程序化内容，例如在单一 HTML 文件中创建高保真度的 3D 地球模型。
复杂场景复现：能够基于简单草图生成精确的交互式 3D 场景，光影和物理效果符合现实逻辑。
多领域应用：适用于 STEM（科学、技术、工程、数学）领域的复杂任务，具备专家级的处理能力。

Gemini3 DeepThink的性能表现

Humanity’s Last Exam（无工具辅助推理测试）：Gemini 3 Deep Think 达到 41.0% 的准确率，远超其他模型，如 GPT-5.1 的 26.5% 和 GPT-5 Pro 的 30.7%。表明其在复杂逻辑推理和知识整合方面具有显著优势。
ARC-AGI-2（视觉逻辑推理测试）：在极具挑战性的测试中，Gemini 3 Deep Think 达到 45.1% 的准确率，是 GPT-5.1 的 2.5 倍，显示其在处理抽象图形逻辑问题时的超强推理能力。
GPQA Diamond（科学知识问答测试）：Gemini 3 Deep Think 在科学知识和推理准确性方面表现出色，准确率达到 93.8%，接近满分，远高于 GPT-5.1 的 88.1% 和 GPT-5 Pro 的 88.4%。