人工智能会杀死百度等搜索引擎吗?

1月27日,杜子建先生新浪微博说:

中国现有的传统搜索平台,比如度娘之类的界面,会不会在今年之内倒闭?  搜索平台最大的问题是广告+垃圾信息;  而新型的智能软件如豆包和深度求索类的工具(不必称之为平台),基本是零广告,也不会有什么垃圾信息。  今年,他们会倒闭不?还是说,要断气也要断个五六年?

javascript:void(function(){ window.parent.parent.window.__templateCardIframeWrite(document, ‘1739059438110’, ‘insert_blockquote_source_iframe_ready_0’, true);}())

当生成式人工智能初次亮相的时候,不少人惊呼:

它会取代我们习以为常的互联网搜索吗?

毕竟,生成式人工智能那看似无所不能的 “创作” 能力,能瞬间根据提问生成条理清晰、内容详实的段落,这与传统搜索只是机械罗列网页链接的方式,有着天壤之别。

这项技术背后的大型语言模型(LLM)彻底革新了我们与信息交互的模式,让我们能以对话、直观的方式提问并获取答案,便捷性大幅提升。

然而,搜索不仅没有退场,在诸多层面反而愈发重要。

那么,为何生成式人工智能没能取而代之呢?

随着人们对生成式人工智能最初的狂热渐渐冷却,大家逐渐意识到大型语言模型存在着局限性与风险,这使得任何企业在考虑使用它们时都会有所顾虑。

在《连线》(WIRED)杂志上的一篇题为《为什么生成式人工智能没有杀死搜索?》(Why Generative AI Hasn’t Killed Search)文章中,

Coveo 公司机器学习副总裁 Sébastien Paquet博士 指出,生成式人工智能仍需借助搜索来确保准确性、相关性以及获取实时的企业知识。

在文章中,Sébastien Paquet博士 揭示了生成式人工智能常常会 “产生幻觉”,自信满满地用错误答案回应查询。

尽管生成模型经过海量数据训练,但它们受限于数据的截止日期,这意味着只能依据过时信息生成回复。

如此一来,回复可能陈旧过时,还伴随着不准确、存在偏见以及侵犯隐私的风险。比如,部分工具是基于公开数据训练的,这可能不符合像 GDPR 这类法规的要求。

https://www.wired.com/sponsored/story/coveo

近来,检索增强生成(RAG)成为人工智能领域企业应对这些挑战的最有效方案。

检索增强生成将检索系统与生成模型相结合,通过从可靠来源获取最新信息,提升回复的相关性和准确性。

基于可靠外部来源构建模型,意味着人工智能模型能生成更准确的答案,且产生幻觉的风险更低。

采用检索增强生成方法后,系统的有效性更多地取决于底层检索基础设施的质量。模型从企业提供的真实来源提取信息以响应查询。

搜索系统从外部来源(如知识库)识别并检索与查询及用户最相关的信息,然后将查询连同附加信息发送给大型语言模型,由其生成问题的最佳答案。

搜索是检索增强生成检索部分的关键要素,具备诸多优势,比如能更好地控制大型语言模型的输出、提高准确性和相关性、减少幻觉、提供更及时的信息、可引用来源以及安全访问内容,同时相较于使用新信息重新训练或微调大型语言模型,成本效益更高。

尽管ChatGPT之类的新搜索功能(通过第三方合作)尝试抓取实时网页内容并标注来源,但它仍属补充性工具,而非独立搜索引擎。谷歌和百度等搜索引擎凭借其基础设施、实时能力和广告生态,短期内难以被完全取代。

当下以及未来一段时间内,更可能是搜索引擎与大语言模型的融合,特别是前面提到的检索增强生成(RAG),结合百度和谷歌的索引能力与大语言模型的对话深度。

短期之内,大语言模型和搜索引擎将共存并各自吸引不同的用户群体。大语言模型更适合需要复杂推理、创意回答或快速获取特定信息的用户,而搜索引擎则更适合需要广泛浏览和对比不同来源信息的用户。

从长远来看,随着人工智能技术的不断进步和普及,大语言模型有望在搜索市场占据更大的份额,今天的豆包客户端正在朝着这个方向发展。

于此同时,Google、Bing、百度等搜索引擎也在积极引入人工智能技术,以提升搜索体验,今天,微软在Bing上正努力朝着这个方向发力。

未来,大语言模型和搜索引擎可能会在技术上相互借鉴和融合。

基于这些看法,自留地君认为,生成式人工智能不太可能完全取代谷歌搜索,至少短期之内不会。但它将重塑用户与信息的交互方式,反过来倒逼搜索引擎发生变化。

为此,在回应杜子建先生的帖子时,自留地君这样写道:

“搜索的时代正在被对话所取代,但是,让搜索引擎退出历史舞台,估计还需要一些时间,估计至少五六年。”

对此,您怎么看?

2018年11月2日