Header Logo
AI训练营 AI实战派 AI自动化 AI精英圈 AI精英周刊 所有课程 博客 咨询
Axton是谁
登录
← Back to all posts

10篇报告深度实测!Gemini 2.5 Pro vs OpenAI Deep Research,谁才是AI研究之王? | AI 精英周刊 019

Apr 14, 2025

4 月 8 日 Google 发布了 Gemini 2.5 Pro 驱动的 Deep Research,毫不客气地贴出了与 OpenAI Deep Research 的对比图,所有项目都甩了 OpenAI 一条街。

 

 

我第一眼看到时,心里就两个字:“吹吧你就!”

但是,以前我就一直说,Google 在生态和技术积累上的优势绝不可小觑,这不是其他公司能够轻易超越的。

于是,我花了整整三天时间,仔细研读并逐一对比了 5 个主题、共 10 篇 Deep Research 报告。

Google 这次到底是不是真的行?能不能以 20 美元全家桶的价格吊打 200 美元的 OpenAI?这期就给你一场深度评测。

选题

首先,用来对比的研究主题分两类,每一类主题分别选择全面分析和专项分析。

第一类以《2025年斯坦福AI指数报告》为切入点,一个主题全面分析AI 发展对人类的整体影响,一个主题分析在内容创作方面,AI 的边界和人类创作者的价值在哪里。

第二类以目前热点的「关税」为切入点,三个主题分别是:全面分析中美脱钩的影响、中美脱钩对收入为中位数的普通家庭影响以及美国贸易逆差的根本原因。

首先,我们来看第一类研究,AI 发展对人类的影响

首先,开启 Gemini Deep Research 的方法,模型选「Deep Research with 2.5 Pro」或者,你在任意一个模型下,点击 2 打开「Deep Research」开关,两种方式效果是一样的。

 

 

PROMPT

- Context
	
	- 基于《2025年斯坦福AI指数报告》要点内容,人工智能正迅速影响全球经济、就业环境和社会结构。
		
- Research Goal
	
	- 当AI已能高效输出大量“标准化内容”,并且逐渐靠近人类表达的边界时,人类创作者的独特价值究竟体现在哪些方面?又应当如何具体行动,来保持并凸显自己的竞争优势?
		
- Instruction
	
	- 用简体中文输出,风格偏实用、有条理,可读性强。
		
	- 仅搜索和采纳英文可信来源信息,用中文撰写报告。
		
	- 你的唯一目标是提供足够细致深入的研究报告,无需关心时间消耗以及响应速度,报告长度至少 20000 个中文字。

其实,在这个 PROMPT 中,要求长度至少 20000 个中文字并不是一个好的习惯,咱们在最后重要技巧部分单独拎出来说。

好,接下来这里,有一个非常重要的技巧需要注意。

我们先看 OpenAI Deep Research 那边,当 PROMPT 输入之后,ChatGPT 会根据你的 PROMPT 问你一些需要你澄清的问题

比如这个提示,ChatGPT 会问我你的创作者是哪一类:

 

 

这就说明,我的 PROMPT 里面对人类创作者没有明确定义。所以回答这些问题是很重要的一步。

那么,Gemini 那边有没有类似的功能呢?实际上是有的,但是很容易被忽略了,那就是 Gemini 的研究计划。

有人觉得 Gemini Deep Research 报告有些泛泛或者面铺的很大,很可能是没有注意到检查和修改 Gemini 的研究计划。

比如,这里面看 Gemini 的研究计划,实际上他也提出了和 ChatGPT 那边一样的问题,这时候就需要修改研究计划,把创作者进行限定,否则,很可能他最终的结果你会觉得流于宽泛。

 

 

第一个研究主题: AI 的创作边界在哪里?人类创作者的价值在哪里?

先看报告,OpenAI 输出报告 22100 字,Gemini 输出 21800 字。

AI浪潮下的创作者新纪元

整体结构

整体结构上,OpenAI 结构逻辑清晰,层层递进,读者非常容易跟随他的思路,读起来会感觉很舒服。

 

 

而 Gemini 的结构严谨,但是过于复杂,更偏学术化,再加上行文的特点,阅读起来其实很费劲。而且,Gemini 的输出格式也不稳定,有时候会输出有正常标题结构的 Markdown 文本,有时候输出结果中就没有标题了,标题全部用粗体字代替。这篇文章就是这样,你们看到的标题是我手工修改后的,这样才更便于阅读。

 

 

前言

前言部分,OpenAI 重复 PROMPT 的要求,并善于使用实际案例以及精准的数据,这一点是我喜欢的风格。

 

 

Gemini 采用了类似的结构,没有 OpenAI 提供那么精准的数据,但是立论更宏大,同时会探讨 AI 技术进展与经济影响

 

 

正文部分

可以明显看出 OpenAI 的文字功底更深,行文风格更加的通俗易懂。叙述有明显的三段论结构,先提出论点,然后论据或举例进行说明,最后总结进行呼应。

 

 

反观 Gemini,行文更加学术化,用词更加书面,包含的信息量会更大。同时能够提出新颖的概念,比如文中提到的 P-creativity 和 H-creativity 对我来说就是新名词。

 

 

二者都很好地论述了 AI 的局限性,虽然 Gemini 的读起来比 OpenAI 的费劲,但是更全面地表述了 AI 的边界,表现还是很不错的。

另外,Gemini 的行文风格,依然是一种列举式,比如章节内容组织,很多都是第一、第二这样的形式,而不是 OpenAI 的叙述式风格。这点感觉就跟 Gemini 的第一代 Deep Research 一样。

 

 

关于自媒体创作者的行动指南部分,Gemini 的这一章简直就是败笔,大而无当。说的全对,但是没有具体可落地的方案。而 OpenAI 那边的建议,会细致到具体的建议。

我当时脑子里就出现一句口号:要学术,找 Google,要落地,找 OpenAI

对于这份报告的总结

OpenAI

  • 结构清晰简洁,逻辑顺畅,重点突出,读者没有负担。
  • 语言流畅,阅读体验很好。
  • 给出的建议细致而实用
  • 数据、案例丰富,配合很好

Gemini

胜在分析全面深入、信息丰富,开篇就给你一顿信息量的暴击。除此之外的其他方面均不如 OpenAI,这篇文章 OpenAI 以绝对优势领先。但是 Gemini 的文章质量也不次,跟我上次做对比视频时已经完全不可同日而语了。

第二个研究主题:《2025年斯坦福AI指数报告》分析

PROMPT

#### Context

基于《2025年斯坦福AI指数报告》要点内容,人工智能正迅速影响全球经济、就业环境和社会结构。

#### Research Goal

探讨当前人工智能的发展趋势对全球经济、劳动市场和社会结构可能带来的长期影响。

评估未来 3~5 年 AI 发展对普通人日常生活可能带来的具体变化。

#### Instruction

用简体中文输出,风格偏实用、有条理,可读性强。

仅搜索和采纳英文可信来源信息,用中文撰写报告。

你的唯一目标是提供足够细致深入的研究报告,无需关心时间消耗以及响应速度,报告长度至少 20000 个中文字。

结构完整性与组织逻辑

OpenAI 遵循了 PROMPT 的要求,结构完整,逻辑顺畅,衔接自然。阅读起来会容易跟随

Gemini 也有不错的结构,很好地遵循了 PROMPT 要求,但遗憾的是结尾中断。没有输出完成。 64K 的输出窗口比 OpenAI 要小,会吃点亏。

除了中断之外,整体结构复杂而又缺乏承上启下的连贯性,导致读起来很累。

关于 AI 对全球经济影响说的有些泛泛,但这里不怪 Gemini,后面讲到重要的使用技巧时会解释。

我们重点来看对劳动力市场的长期影响

新岗位的涌现

 

 

两份报告都提到了“人机协作专员”一类的角色,之前我在「吴晓波频道」受邀直播中的重点之一,就是提出了一个竞争力公式: AI时代的竞争力 = 人机协作深度 × 系统设计能力,这同时也是我正在开发中的课程所希望能够教给你的核心能力。欢迎点击链接了解课程详情。

技能要求

OpenAI 直接给出主要观点,重点明确。用词通俗准确,比如“软技能”、“学然后知不足”

 

 

Gemini 同样,先列举,再给结论,用词过于学术化。比如“高阶认知与社交情感技能溢价”。

 

 

但是,Gemini 提出了很有意义的概念”技能悖论“,这点我非常认可。

 

 

作为对比,OpenAI 也提到了鸿沟,并使用了很均衡的论述方式。比如下图中,一方面,强者愈强、弱者愈弱,另一方面 AI 有潜力缩小不平等。两方面都有论证。

首先,均衡是 OpenAI 这篇报告的一个优点,但是我并不是很认可 OpenAI 的乐观部分的观点。“另一方面,也有观点认为AI有潜力缩小不平等、促进包容性增⻓,前提是其收益被合理分配。” 这个合理分配就是个难题。比如我期待的全民基本收入不知道什么时候能有。

 

 

AI对普通人日常生活的3~5年影响预测

这一部分 OpenAI 的分类更为合理,Gemini 就弱一些,分类不如 OpenAI 那么系统。以下是 OpenAI 的分类:

工作效率方面,Gemini 更具批判性,而 OpenAI 情绪乐观。比如:

Gemini

 

 

OpenAI

 

 

总结部分,有非常明显的风格区分。

OpenAI 更加文艺范,描绘了一个生活化的场景:

 

 

Gemini 体现了更成熟的技术洞察:

 

 

总体而言,OpenAI 胜在结构完整、逻辑流畅,信息的组织更加清晰合理,讨论问题更加均衡。再加上我们之前看到的,OpenAI 文字功底更深,论述是一个完整的思维闭环,因此在这个研究报告中胜出。

但是 Gemini 的报告依然体现了相当的水准,并没有比 OpenAI 差多少。只是在信息组织、行文流畅性方面略有不足,可读性差。并且没有输出完成,也是个失分项。

以上两个研究的文字版我会分享给大家,请点击描述栏中的链接阅读。订阅「AI 精英周刊」的朋友我会把全文发送到您的邮箱, 4 份 PDF 文档会上传到「AI 精英圈」里,有兴趣的朋友可以看看。

接下来第二类研究关税

这份研究共拆分了三个主题,从全面分析、到针对性分析再到归纳总结。三个研究主题的问题分别如下:

  • 假设中美完全停止所有双边贸易,哪个国家会面临更大的问题?

  • 中美贸易完全中断后,两国消费者最先会在哪些日常消费品(如电子产品、服装、玩具、食品)上感受到显著的短缺或价格飙升?这对以所在国‘家庭收入中位数’为代表的普通家庭的生活成本具体影响有多大?在可预见的未来,这类家庭的生活状况是否会好转?

  • 美国刹不住的贸易逆差,根本原因是什么? 搜索英文可信来源,以中文撰写报告。

由于我对经济一窍不通,无法判断报告的数据、立论的正确性,因此报告内容就不跟大家一起看了,但是我对比了他们报告的论述方式,并且让手上的四大 AI 分别对这些报告分别进行了评比,包括 Gemini 2.5 Pro,Claude 3.7 Sonnet,GPT o1 Pro 和 GPT-4.5,结论让我大跌眼镜

 

我个人评比结果,OpenAI 仅在贸易中断对消费者影响的报告中胜出,其他两份全部落败。而 AI 们的评比更是认为 Gemini 全面碾压 OpenAI。

咱们一起来看看。

贸易中断的全面影响

“假设中美完全停止所有双边贸易,哪个国家会面临更大的问题?”

报告 1: Gemini, 报告 2: OpenAI
「Gemini 无法完成评比任务」

 

所有的三个 AI 评委,还有我,一致认为 Gemini 的报告,也就是报告 1 全面胜出。

贸易中断对消费者影响

这一个评比就比较有意思了。

 

这个雷达图展示了四个 AI 评委的评比结果,大家可以点击此链接观看。

相信大家看到了,这里面有意思的是,GPT-4.5 做出了与大家完全不同的判断。而且,GPT-4.5 与我精读对比了两个报告之后的判断完全一致,所以这一轮我站 GPT-4.5。我认为这一轮 OpenAI 胜出。

下图就是综合评估之后的总体观察:

 

美国贸易逆差根本原因

这一次 AI 评委们还有我依然一边倒地认为 Gemini 胜出。不过对几个模型的特点有一些关键的发现。

这个雷达图请点击此链接观看。

下图是 「AI 评估共识分析」图表:

『以下为会员专属内容,欢迎点击此链接查看详细会员计划,加入AI精英圈获取更多专属内容。』

This post is for paying subscribers only

Upgrade

Already have an account? Log in

从宽泛到聚焦的PROMPT艺术与橘子树实践法 | AI 精英周刊 023
我们总是希望一次性给AI写出完美指令,但这样做真的对吗? 经过大量实践,我发现了一个有趣的现象:那些试图用复杂指令一步到位的人,往往错过了AI最有价值的创造性输出。相反,从宽泛主题开始,让AI自由发挥后再逐步聚焦的方法,反而能产出更令人惊喜的结果。 这套方法论我称之为”橘子树模型”——从播种到结果,从发散到收敛的完整流程。 你有没有发现,很多人在使用AI时都有一个共同的困惑:明明给了很详细的指令,为什么AI的回答总是差强人意?或者反过来,有时候随便问一句,AI却能给出让人眼前一亮的答案? 这背后其实隐藏着一个关键问题:我们究竟应该如何与AI沟通? 大多数人初接触AI时,总想着要给出”完美”且复杂的指令,期望一步到位。这就好比你面对一位才华横溢的画家,如果你一开始就给他一张精确到毫米的施工蓝图,要求他依葫芦画瓢,那么你得到的很可能只是一幅匠气十足的复制品。但如果你先给他一个...
揭秘不同AI的“文风”偏好:你的Prompt风格选对了吗? | AI 精英周刊 022
你是否注意到,和不同AI模型(比如Claude、GPT系列)打交道时,它们似乎对Prompt的”写法”有着不同的偏好?Claude偏爱有序列表和XML标签,GPT时常用分隔线和括号,而OpenAI Playground的生成器则钟情于Markdown标题。 这仅仅是不同厂商的”风格差异”吗?还是说,这些写法真的会影响AI的输出效果?今天,我们就来深入探讨这个话题。 AI Prompt的”三大流派”及其特点 让我们先直观感受一下这些不同风格的Prompt:   Claude风格:有序列表 + XML标签 Claude倾向于接收用XML标签包裹指令和上下文的Prompt。这种结构清晰,指令层级分明。比如以下的 PROMPT 片段:   GPT (o3)风格:连续分隔线 + 特殊括号 如果我们直接在 ChatGPT 中,选择用 o3 模型帮忙写 PROMPT,那么它一般会使用连续...
Make 下架 Twitter 之后的备选方案 Buffer | AI 精英周刊 021
2025 年 4 月3 日起,Make.com 正式官宣下架 Twitter(现称 X)集成模块。这一决定的原因在于 Twitter 更新了 API 政策并大幅提高了接口收费,导致 Make 难以继续为用户提供可行的官方 Twitter 集成。换言之,除非第三方平台支付高昂费用,否则无法直接调用 Twitter API。对于内容创作者来说,这意味着原先通过 Make 自动发推的工作流需要寻找替代方案。 就在不久前,Make 还在功能更新中推出 Twitter 的回复(Reply)功能呢,原以为对 X 的支持会越来越多,结果好景不长,X 把基础版本的 API 费用从 100 美元每月翻倍到 200 美元不说,更是把企业版起价涨到 4 万 2 千美元一个月,可见 X 多么能折腾吧。 对此我真是无力吐槽, GPT 说得好,当平台规模 > 盈利能力 时,”免费开放”率先被祭天。 如果我们...

AI 精英周刊

深度阅读、高级分享、拒绝碎片!
© 2025 AI 精英学院 by Axton. All Rights Reserved.
Powered by Kajabi

Join Our Free Trial

Get started today before this once in a lifetime opportunity expires.