1月27日,杜子建先生新浪微博说:
中国现有的传统搜索平台,比如度娘之类的界面,会不会在今年之内倒闭? 搜索平台最大的问题是广告+垃圾信息; 而新型的智能软件如豆包和深度求索类的工具(不必称之为平台),基本是零广告,也不会有什么垃圾信息。 今年,他们会倒闭不?还是说,要断气也要断个五六年?
javascript:void(function(){ window.parent.parent.window.__templateCardIframeWrite(document, ‘1739059438110’, ‘insert_blockquote_source_iframe_ready_0’, true);}())

当生成式人工智能初次亮相的时候,不少人惊呼:
它会取代我们习以为常的互联网搜索吗?
毕竟,生成式人工智能那看似无所不能的 “创作” 能力,能瞬间根据提问生成条理清晰、内容详实的段落,这与传统搜索只是机械罗列网页链接的方式,有着天壤之别。
这项技术背后的大型语言模型(LLM)彻底革新了我们与信息交互的模式,让我们能以对话、直观的方式提问并获取答案,便捷性大幅提升。
然而,搜索不仅没有退场,在诸多层面反而愈发重要。
那么,为何生成式人工智能没能取而代之呢?
随着人们对生成式人工智能最初的狂热渐渐冷却,大家逐渐意识到大型语言模型存在着局限性与风险,这使得任何企业在考虑使用它们时都会有所顾虑。
在《连线》(WIRED)杂志上的一篇题为《为什么生成式人工智能没有杀死搜索?》(Why Generative AI Hasn’t Killed Search)文章中,
Coveo 公司机器学习副总裁 Sébastien Paquet博士 指出,生成式人工智能仍需借助搜索来确保准确性、相关性以及获取实时的企业知识。
在文章中,Sébastien Paquet博士 揭示了生成式人工智能常常会 “产生幻觉”,自信满满地用错误答案回应查询。
尽管生成模型经过海量数据训练,但它们受限于数据的截止日期,这意味着只能依据过时信息生成回复。
如此一来,回复可能陈旧过时,还伴随着不准确、存在偏见以及侵犯隐私的风险。比如,部分工具是基于公开数据训练的,这可能不符合像 GDPR 这类法规的要求。

https://www.wired.com/sponsored/story/coveo
近来,检索增强生成(RAG)成为人工智能领域企业应对这些挑战的最有效方案。
检索增强生成将检索系统与生成模型相结合,通过从可靠来源获取最新信息,提升回复的相关性和准确性。
基于可靠外部来源构建模型,意味着人工智能模型能生成更准确的答案,且产生幻觉的风险更低。

采用检索增强生成方法后,系统的有效性更多地取决于底层检索基础设施的质量。模型从企业提供的真实来源提取信息以响应查询。
搜索系统从外部来源(如知识库)识别并检索与查询及用户最相关的信息,然后将查询连同附加信息发送给大型语言模型,由其生成问题的最佳答案。
搜索是检索增强生成检索部分的关键要素,具备诸多优势,比如能更好地控制大型语言模型的输出、提高准确性和相关性、减少幻觉、提供更及时的信息、可引用来源以及安全访问内容,同时相较于使用新信息重新训练或微调大型语言模型,成本效益更高。
尽管ChatGPT之类的新搜索功能(通过第三方合作)尝试抓取实时网页内容并标注来源,但它仍属补充性工具,而非独立搜索引擎。谷歌和百度等搜索引擎凭借其基础设施、实时能力和广告生态,短期内难以被完全取代。
当下以及未来一段时间内,更可能是搜索引擎与大语言模型的融合,特别是前面提到的检索增强生成(RAG),结合百度和谷歌的索引能力与大语言模型的对话深度。
短期之内,大语言模型和搜索引擎将共存并各自吸引不同的用户群体。大语言模型更适合需要复杂推理、创意回答或快速获取特定信息的用户,而搜索引擎则更适合需要广泛浏览和对比不同来源信息的用户。
从长远来看,随着人工智能技术的不断进步和普及,大语言模型有望在搜索市场占据更大的份额,今天的豆包客户端正在朝着这个方向发展。
于此同时,Google、Bing、百度等搜索引擎也在积极引入人工智能技术,以提升搜索体验,今天,微软在Bing上正努力朝着这个方向发力。
未来,大语言模型和搜索引擎可能会在技术上相互借鉴和融合。
基于这些看法,自留地君认为,生成式人工智能不太可能完全取代谷歌搜索,至少短期之内不会。但它将重塑用户与信息的交互方式,反过来倒逼搜索引擎发生变化。
为此,在回应杜子建先生的帖子时,自留地君这样写道:
“搜索的时代正在被对话所取代,但是,让搜索引擎退出历史舞台,估计还需要一些时间,估计至少五六年。”
对此,您怎么看?

2018年11月2日