Py学习  »  aigc

AI搜索 — AIGC确定落地场景+传统搜索的未来?

CSDN企业招聘 • 5 月前 • 180 次点击  
一  一、背景

2024上半年,本来格局已定的搜索市场,因为AIGC的发展,AI搜索成为了AIGC落地场景的一个共识迎来了一波热潮,短时间内涌现出了多个AI搜索产品,第一类以Perplexity、秘塔AI搜索、Genspark,天工AI为代表的起步就是AI搜索的厂商;第二类以New Bing、Google AI Overview为代表传统搜索厂商;第三类以Kimi、豆包、腾讯元宝,SearchGPT为代表模型厂商,用搜索产品来推广底层模型;第四类以C知道,知乎直答等垂直内容起家的厂商。

截止9月24日AI产品榜(aicpb.com)的数据,排名国内前十的AI产品里面有4个是AI搜索引擎。
在国外,原生AI搜索工具Perplexity AI最新估值已经接近30亿美元,AI界“灭霸”OpenAI在7月26日推出了SearchGPT。OpenAI也发现了Chat模式的问题- LLM短期内无法解决的幻觉,预训练内容不足等问题。

二、AI搜索相比传统搜索,带来的革命性的改变会是什么?
我们访谈了C知道的产品负责人敖梦云女士,帮我们总结了以下几点:
1、1、内容理解的改变

a)  a)深入理解和结构化内容的能力

传统搜索引擎通过提取内容的标题,摘要,关键词作为被搜索内容的结构化索引,文章,图片,视频等内容都是如此,这样的方式会损失掉内容的很多信息,甚至是曲解内容原始的信息,随着技术能力的提升,文章等纯文本内容可以通过对全文的的索引来部分解决,但是图片,视频甚至代码等内容在这块还是缺失的。

通过AI能力,不管是文章的自动化传统TDK信息的提取,还是利用多模态能力去结构化图片,视频等之前无法充分理解和结构化的内容,能够大大提升内容理解能力,帮助用户更加准确的获得想要的信息。

b)  b)非“公开”内容的探索

传统搜索通过爬虫去爬取被搜索内容的TDK内容,来构建被搜索内容的索引,但还是有很多合法但是非公开的数据不在其中,企查查等能够在百度如日中天的环境下跑出来,对于企业信息的获取和结构化是其制胜的法宝,很多垂类网站在这方面有着优势,之前可能苦于技术和成本的压力,现在可能能够相对容易的来理解和结构化这些内容。

有了AIGC新的内容理解能力,对于非“公开”内容的结构化可能是未来AI搜索的护城河之一。

2  2、用户意图理解的改变

通过AI能力的发展,之前通过分词,词权重等方式去“理解”用户的Query和意图的方式,当然,对于AI搜索,传统的分词等方法也是非常重要的列用户意图的方式,但是对于整体Query的意图理解,特别是多实体词的长Query理解,有着本质的提升,通过对Query/Prompt以及内容本身意图进行理解,能够更加精准的帮助用户获得想要的信息

3  3、垂类化的发展

如上面在非公开内容的探索,AI搜索通过数据和LLM能力的区隔,可能很难再现传统搜索大一统的市场格局,垂直化是趋势。

4   4、从信息到服务[AI Search→AI Agent]

用户在利用传统搜索的目的从海量内容里面获得有用和准确的信息,当然,信息的下一步还是执行任务为目的,写作,画图,代码生成等等都其实是搜索用户下一步需要的服务,只是之前技术能力受限。LLM的能力带来的希望是能够帮助用户从信息到服务,特别是LLM的代码生成能力,是能够帮助实现Agent重要介质。C知道的生成内容中,70%包含代码。

三、AI搜索的底层技术原理是什么,以及未来发展方向是什么

我们访谈了C知道技术负责人王品先生,帮我们总结了以下几点:
1、传统搜索技术架构

2、RAG以及衍生架构
现在大部分AI搜索使用的“RAG(Retrieval-augmented Generation,检索增强生成)”架构,涉及Retrieval和Generation两个步骤。其中,大部分的“Retrieval(检索)”是由传统搜索引擎的API来完成的,不能构成区隔,还是通过传统搜索结果来增强内容的真实性等。工业界典型RAG架构如下

           

3  3、未来的AI搜索架构
    用户注意力不在结果列表,而是生成的答案以及引导用户持续提问完成用户需求。但是传统索是基础,解决从千亿级别token的网页中提取大致相关网页;同时结合AI Agent方案激发LLM的
  “慢思考” 能力提升解决复杂问题能力以及降低幻觉率。未来AI架构需要在把AI Agent和传统搜索系       统有机结合起来;
                                             
     

四、四、在开发者&互联网/IT从业者,AI搜索的发展方向是什么?

我们访谈了C知道负责人李颖先生,帮我们总结了以下几点:

1.  1、开发者是最先走向从信息到任务的人群

开发者的动手能力强,代码生成也是LLM比较确定的几个落地场景之一,现在市面几个主流 LLM生成的代码已经处于可以直接运行的状态,所以开发者会是最先从信息到任务[AI Search→AI Agent]的第一批人。

从需求来看开发者&互联网/IT从业者有四大类需求,通过传统搜索的一些沉淀【例如意图,相 关词库,召回排序方法等】,结合新的AIGC能力,将大幅度赋能这些人。
a) 基础知识问答:传统搜索→ RAG→GraphRAG【相关增强】
b) 代码需求:传统搜索→ AI Artifacts【代码生成+运行】
c) 面试/考试题:传统搜索→ AI Leecode
d) 工具:传统搜索→ AI Agent
2.  2、AI搜索是开发者&互联网/IT从业者提升生产效率的最优路径
     在中国,高级开发者是少数,初级开发者和类开发者【例如产品,运营等IT从业者】的人群很大,他们还是习惯从搜索获取知识,代码和工具,所以通过传统开发者搜索为基石【数据-意图,词库等为优势】,然后AIGC能力赋能【代码生成,传统搜索环节提效[Queryl理解,召回排序,RAG]】,代码结构为中间态【提供代码生成,调试和运行环境,以任务[task]实现为最终交付目的。来满足他们的需求,是一个丝滑的路径。
     综上所述,从行业来看,AI搜索是替代传统搜索的未来,也是AIGC确定性场景之一,不光能够从信息的获取上有本质的提升,也能够重新定义搜索。

好啦,今天的内容分享就到这,感觉不错的同学记得分享点赞哦!
PS:CSDN 企业招聘 持续分享程序员学习、面试相关干货,不见不散!
点分享
点收藏
点点赞
点在看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/174820
 
180 次点击