人工智能会杀死百度等搜索引擎吗？

1月27日，杜子建先生新浪微博说：

中国现有的传统搜索平台，比如度娘之类的界面，会不会在今年之内倒闭？搜索平台最大的问题是广告+垃圾信息；而新型的智能软件如豆包和深度求索类的工具（不必称之为平台），基本是零广告，也不会有什么垃圾信息。今年，他们会倒闭不？还是说，要断气也要断个五六年？

javascript:void(function(){ window.parent.parent.window.__templateCardIframeWrite(document, ‘1739059438110’, ‘insert_blockquote_source_iframe_ready_0’, true);}())

当生成式人工智能初次亮相的时候，不少人惊呼：

它会取代我们习以为常的互联网搜索吗？

毕竟，生成式人工智能那看似无所不能的 “创作” 能力，能瞬间根据提问生成条理清晰、内容详实的段落，这与传统搜索只是机械罗列网页链接的方式，有着天壤之别。

这项技术背后的大型语言模型（LLM）彻底革新了我们与信息交互的模式，让我们能以对话、直观的方式提问并获取答案，便捷性大幅提升。

然而，搜索不仅没有退场，在诸多层面反而愈发重要。

那么，为何生成式人工智能没能取而代之呢？

随着人们对生成式人工智能最初的狂热渐渐冷却，大家逐渐意识到大型语言模型存在着局限性与风险，这使得任何企业在考虑使用它们时都会有所顾虑。

在《连线》（WIRED）杂志上的一篇题为《为什么生成式人工智能没有杀死搜索？》（Why Generative AI Hasn’t Killed Search）文章中，

Coveo 公司机器学习副总裁 Sébastien Paquet博士指出，生成式人工智能仍需借助搜索来确保准确性、相关性以及获取实时的企业知识。

在文章中，Sébastien Paquet博士揭示了生成式人工智能常常会 “产生幻觉”，自信满满地用错误答案回应查询。

尽管生成模型经过海量数据训练，但它们受限于数据的截止日期，这意味着只能依据过时信息生成回复。

如此一来，回复可能陈旧过时，还伴随着不准确、存在偏见以及侵犯隐私的风险。比如，部分工具是基于公开数据训练的，这可能不符合像 GDPR 这类法规的要求。

https://www.wired.com/sponsored/story/coveo

近来，检索增强生成（RAG）成为人工智能领域企业应对这些挑战的最有效方案。

检索增强生成将检索系统与生成模型相结合，通过从可靠来源获取最新信息，提升回复的相关性和准确性。

基于可靠外部来源构建模型，意味着人工智能模型能生成更准确的答案，且产生幻觉的风险更低。

采用检索增强生成方法后，系统的有效性更多地取决于底层检索基础设施的质量。模型从企业提供的真实来源提取信息以响应查询。

搜索系统从外部来源（如知识库）识别并检索与查询及用户最相关的信息，然后将查询连同附加信息发送给大型语言模型，由其生成问题的最佳答案。

搜索是检索增强生成检索部分的关键要素，具备诸多优势，比如能更好地控制大型语言模型的输出、提高准确性和相关性、减少幻觉、提供更及时的信息、可引用来源以及安全访问内容，同时相较于使用新信息重新训练或微调大型语言模型，成本效益更高。

尽管ChatGPT之类的新搜索功能（通过第三方合作）尝试抓取实时网页内容并标注来源，但它仍属补充性工具，而非独立搜索引擎。谷歌和百度等搜索引擎凭借其基础设施、实时能力和广告生态，短期内难以被完全取代。

当下以及未来一段时间内，更可能是搜索引擎与大语言模型的融合，特别是前面提到的检索增强生成（RAG），结合百度和谷歌的索引能力与大语言模型的对话深度。

短期之内，大语言模型和搜索引擎将共存并各自吸引不同的用户群体。大语言模型更适合需要复杂推理、创意回答或快速获取特定信息的用户，而搜索引擎则更适合需要广泛浏览和对比不同来源信息的用户。

从长远来看，随着人工智能技术的不断进步和普及，大语言模型有望在搜索市场占据更大的份额，今天的豆包客户端正在朝着这个方向发展。

于此同时，Google、Bing、百度等搜索引擎也在积极引入人工智能技术，以提升搜索体验，今天，微软在Bing上正努力朝着这个方向发力。

未来，大语言模型和搜索引擎可能会在技术上相互借鉴和融合。

基于这些看法，自留地君认为，生成式人工智能不太可能完全取代谷歌搜索，至少短期之内不会。但它将重塑用户与信息的交互方式，反过来倒逼搜索引擎发生变化。

为此，在回应杜子建先生的帖子时，自留地君这样写道：

“搜索的时代正在被对话所取代，但是，让搜索引擎退出历史舞台，估计还需要一些时间，估计至少五六年。”

对此，您怎么看？

2018年11月2日