GPT-5和Gemini谁更强?——一个在读博士科研日常视角的分析

文章导读:
本文深入剖析了GPT与Gemini在日常工作中的实际应用表现,特别是在调研、文档整理、编程及人文探讨等多个维度。作者意外发现GPT在调研方面表现远超Gemini,尽管后者拥有Google强大的搜索资源,但其搜索触发机制的不可控性成为一大短板。反观Gemini,则在文档整理方面展现出更佳的效率和准确性,尤其是在处理超长文档时,GPT的Agent模式表现出色。编程方面,两者各有千秋,Gemini在LaTeX等特定领域更为得心应手,而GPT在深度学习代码上表现尚可,但在处理复杂BibTeX文件时遇到瓶颈。写作方面,Gemini以其专业且精炼的表达完胜GPT。人文探讨领域,尽管两者均显不足,但Gemini偶尔迸发的深刻见解和“懂很多”的惊喜感,使其体验优于GPT。作者指出,GPT-5 Pro在业务能力上已达到“牛马”级别,但人文关怀方面有所退步。文章最后提及了Codex的性价比,并表达了对Deep Research模型更新的期待。
调研场景的意外格局:GPT的优势与Gemini的局限
在信息搜集与研究的日常环节,我原本预期拥有Google Scholar和Google Search加持的Gemini会在这方面大放异彩。然而,实际体验却出乎意料:GPT在调研上的整体表现远胜于Gemini。Gemini的检索能力并非用户可控,其是否会启动网页搜索很大程度上取决于提示词的“运气”。反观GPT,其拥有明确的网络搜索接口,并且通过Agent和Deep Research等工具,能够更主动、更深入地进行信息挖掘,已然替代了我过去依赖Edge和Google Search等传统搜索引擎的模式。
文档整理的效率对决:Gemini的细腻与GPT的宏观
转向文档整理工作,Gemini则展现出更胜一筹的实力。GPT-5在未开启“thinking”或“pro”模式时,信息准确性有待提高,幻觉问题较为常见。一旦启用这些模式,其处理速度又明显慢于Gemini。不过,GPT在处理超长文档时,例如将百余行论文列表整理成Markdown表格,其Agent模式表现出色。相较之下,Gemini在处理同类任务时,经常出现截断和卡死的情况,用户体验不佳。
编程能力的细分战场:Gemini的刁钻与GPT的通用
在编程领域,模型的能力表现呈现出场景化的差异。对于深度学习相关的代码,当前大部分模型都能胜任,因为这些代码相对而言较为“玩具化”。但在一些更为刁钻的场景,Gemini反而能脱颖而出。例如,在生成LaTeX代码、调整双栏至单栏的转换、增删列、样式修改以及数据高亮等方面,Gemini表现得游刃有余。GPT则面临老问题:开启“thinking”模式速度慢,不开启则精度不足,整体使用体验并不理想。此外,GPT的Agent模式在处理复杂代码任务时似乎也力不从心,例如我曾尝试让GPT Agent处理一个包含20-30个引用的千行BibTeX文件,但最终生成的清洗结果完全无法使用。
写作体验的颠覆:Gemini的专业性与GPT的平淡
值得特别提及的是Gemini在写作方面的能力,其表现完爆GPT,这是我个人的真实使用感受。Gemini似乎经过了大量学术写作语料的训练,其输出的文字,包括公式和符号的表达,都极为专业,只需稍作润色即可直接使用。相比之下,GPT在这一方面的体验则显得平淡许多。
人文探讨的深度感知:Gemini的惊喜与GPT的“牛马化”
在人文社会科学的探讨方面,当前LLM整体表现仍显不足,对于哲学、经济、社会现象等深入议题的理解尚显粗浅。即便如此,Gemini在实际使用中的体验依然优于GPT。Gemini有时会冒出令人惊喜的观点,或许得益于其庞大的模型基础。它能展现出一种“无所不知”的博学感。而GPT在这一领域的表现则可以说是最大的倒退。相较于之前的版本,GPT-4o的共情能力大幅减弱,如今更像是一个业务能力超强的“牛马”。在进行深度对话时,它常常以一种“空心人”的姿态出现,动辄给出“最小可行清单”,有时显得略微油腻。
GPT-5 Pro的强大与Codex的性价比
尽管指出了GPT-5当前版本的一些不足,但毋庸置疑的是,作为最新一代模型,其能力仍处于断档式领先地位。GPT-5 Pro在研究深度上的表现令人惊叹,其已然进化成一个业务能力极为变态的“牛马”(作者戏称为Sam所说的“PhD”)。如果GPT-5 Pro成为我的同事,我可能会面临巨大的竞争压力。此外,Codex在性价比方面表现出色。我一直好奇Deep Research的基座模型何时能够更新,据说目前使用的是o3或4o。我已彻底放弃Deep Research,转而使用GPT-5 Pro配合网页搜索/Agent。