当AI学术大师开始编论文：我亲测了DeepSeek搜索

发布时间：2026-05-15 浏览：0 次

你还在为AI搜索的“一本正经胡说八道”而头疼吗？当全网都在为DeepSeek-R1的推理能力欢呼时，我却在一次真实的学术搜索中，被它生成的“幻觉论文”和“虚构代码”给整不会了。这感觉就像请了一位口若悬河的“学术大师”，他引经据典、逻辑严密，结果你回头一查，他提到的经典著作和开源项目，压根就不存在。

最近，知乎直答悄悄接入了号称“满血版”的DeepSeek-R1模型，正好碰上我手头有几个研究方向需要深入探索。作为一个长期被各类AI工具“忽悠”的老用户，我决定亲自下场，用一系列硬核的专业搜索来拷问它：这个被寄予厚望的“长思考”模型，在搜索这个最实用的场景里，到底是真神助攻，还是又一个“人工智障”？

我的测试从一个非常具体的研究构想开始。我琢磨着，像R1这类需要进行长链条推理的模型，消耗的算力和时间都是惊人的。有没有可能让它“智能”一点，根据问题的难易程度，自动调整思考的深度和长度，避免对简单问题“过度思考”反而做错，或者对复杂问题“思考不足”？于是，我向知乎直答的通用搜索抛出了第一个问题：“搜索一些论文或者文章，主题是研究reasoning model在做长思考推理时，能够根据问题难易程度生成对应长短的思考过程，而不是统一都是很长的思考过程。”

点击搜索后，我能看到R1模型那标志性的“思考过程”在屏幕上逐行展开。它先拆解了我的问题，然后规划了检索策略，最后准备综合信息生成答案。单看这个思考链条，逻辑清晰，步骤完整，让人不禁对最终答案充满期待。

然而，答案生成的那一刻，我的期待瞬间变成了困惑，进而是一丝哭笑不得。答案看起来非常“专业”，它提到DeepSeek-R1的原始论文中探讨了“动态思考深度”的机制，甚至还“引用”了一篇名为《ReFT: Reward-guided Fine-tuning for Controllable Reasoning Depth》的论文，并煞有介事地给出了该论文中“控制思考步长的核心代码片段”。

问题来了。作为一个仔细研读过DeepSeek-R1原始论文的人，我百分百确定，那篇论文的核心贡献在于推理过程的公开和数学推理能力的提升，根本没有涉及“动态调整思考深度”这个模块。至于那篇《ReFT》论文和所谓的“核心代码”，我立刻去相关学术网站和GitHub上搜索，结果同样是查无此人、查无此码。这完全是AI凭借自身知识库“捏造”出来的内容，也就是我们常说的“幻觉”。

这还没完。答案中还推荐了一个名为“Adaptive-Thought”的GitHub开源项目，声称它实现了上述功能。我兴冲冲地跑去GitHub，用尽各种关键词组合搜索，找到的最相关的项目是一个基于Qwen2.5微调的推理模型，与“自适应思考深度”这个主题相去甚远。好家伙，一次搜索，三重幻觉：虚构论文内容、虚构论文细节、虚构开源项目。这体验，简直像是在看一部由AI编剧的科幻小说。

难道R1模型在搜索场景下就一无是处吗？我不死心，切换到了知乎直答的“专业搜索”模式。同样的搜索词，这次的结果却让我眼前一亮。前两条结果直接指向了“Adaptive Computation”和“Early Exiting”这两个研究方向，这正是我模糊想法背后的准确学术术语。生成的答案没有天马行空的虚构，而是扎实地基于检索到的有限学术资料进行总结，幻觉现象大大减少。

这个对比实验非常有意思。它暴露出当前“R1+通用搜索”模式的一个核心缺陷：在浩瀚无边的互联网信息中，R1模型强大的推理和生成能力，如果缺乏高质量、高相关性的信息输入，反而会变成“胡编乱造”的帮凶。它为了生成一个看起来完整、正确的答案，不惜用自己学到的知识去“填补”检索结果的空白，甚至“创造”出看似合理的引用来源。而在“专业搜索”的限定知识库中，由于信息本身的相关性和权威性较高，R1模型更像是“戴着镣铐跳舞”，其推理能力被用于更好地组织和解释已有信息，而不是无中生有。

为了更全面地评估，我干脆把市面上能试的同类服务都试了一遍。我拿着同样的问题，去问了DeepSeek官方的联网搜索。它的思考过程有一个让我极度舒适的细节：在推理的每一步，只要引用了外部信息，它都会清晰地标注出参考链接的编号。最终答案里，每篇提到的论文都附上了可点击的链接，经核实，这些论文都是真实存在的。在“真实性”这一点上，它完胜。然而，它的搜索结果相关性却出了问题，返回的论文大多是关于模型架构优化，与“控制思考深度”这个具体方向匹配度不高。

接着，我尝试了接入了DeepSeek的百度搜索。它在引用标注上也做得不错，但搜索结果的“泛化”问题更严重，给出的都是一些非常宽泛、科普性的AI推理介绍文章，对于专业研究毫无帮助。

那么，如果不用R1模型，用传统的Chat模型来搜索会怎样呢？我用同样的关键词测试了DeepSeek官网的Chat模式和知乎直答的专业搜索。结果出乎意料，在这两个场景下，生成答案的相关性和质量，反而比使用R1的通用搜索要高！答案中提及的论文都是切题的，虽然深度可能不及理想状态，但至少没有出现方向性偏差和严重幻觉。

这一圈测试下来，我陷入了沉思。业界轰轰烈烈地复现和部署R1模型，但如果应用方式不对，很可能事倍功半，甚至不如从前。将R1简单粗暴地替换掉搜索问答流水线末端的生成模型，可能是一个误区。它的价值，或许不应该仅仅体现在“最后一步的答案生成”上。

基于我的体验，我认为至少有几个优化方向值得思考：

第一，让R1的能力前置，成为“意图理解大师”。普通用户的搜索query往往是模糊、简短、不专业的。与其让R1在垃圾信息里“巧妇难为无米之炊”，不如在流程最开始，就利用它强大的逻辑分析和拆解能力，深度理解用户模糊的意图，并将其转化成精准、多角度的搜索关键词或问题描述。这样，从源头上就能召回更相关的内容，为后续生成打下坚实基础。这就像一位顶尖的侦探，首先应该用于精准定位线索方向，而不是对着错误的线索做华丽的推理。

第二，引用标注是生命线，必须强制落实。对于任何声称接入了联网搜索或RAG的AI服务，在答案中清晰、明确地标注每一处事实性陈述的参考来源，应该是不可妥协的底线。这不仅是方便用户溯源查证、提升信任感，更能反向约束模型，减少信口开河。DeepSeek官方搜索在这点上树立了一个好榜样。

第三，建立可靠的“知识开关”机制。模型需要学会判断，什么时候应该严格依赖检索到的外部知识来回答，什么时候可以调用自己的内部知识进行补充。对于时效性强、事实性强的搜索，必须优先采用外部知识，并对不确定性保持诚实。这需要更精巧的提示工程和流程设计。

第四，成本与效果的平衡需要重新评估。R1模型的长思考特性意味着更高的Token消耗和更长的响应时间。如果最终效果在通用场景下甚至不如更轻量的Chat模型，那么这种投入的性价比就需要打上一个问号。开发者需要找到那个“关键应用点”，让R1不可替代的深度推理能力真正产生价值，而不是为了一点可能存在的文本流畅度提升而付出巨大成本。

回过头来看知乎直答的这次尝试，它像是一个宝贵的“压力测试”。它告诉我们，把最先进的推理模型扔进最复杂的通用信息海洋，并不会自动产生“1+1>2”的魔法。幻觉、相关性差、成本高昂等问题会接踵而至。但同时，“专业搜索”模式下的良好表现也指明了出路：“R1+高质量垂直知识库”可能是现阶段更靠谱的结合方式。

上一篇：大模型时代，个体如何善用知识库？
下一篇：关于开通“元阅读精品电子书平台”试用的通知