社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

我发现大家对于 ChatGPT 在文档对话支持方面的能力都普遍认-20240110151453

宝玉xp • 1 年前 • 267 次点击  

2024-01-10 15:14

我发现大家对于 ChatGPT 在文档对话支持方面的能力都普遍认为比较差,这篇推文的分析相对比较靠谱:

1. OCR 能力不行,OCR 能力不行那从源头上的文字的输入就是有问题的,后续的召回和对话肯定好不了
2.上下文长度不够长,如果长度不够那么一次输入的信息就不够长,导致输出不够好
3. RAG 本身就是很复杂的技术,即使如 OpenAI 也不是那么多容易做好的

以下内容翻译自原推:
***

与 PDF 对话之难,及 ChatGPT 在此领域的不足 - 原因分析

目前最普遍的 GPT-4 应用之一是“文档/PDF 对话”功能。这被认为是 AI 聊天机器人的一项杀手级应用,因为要读懂内容繁多的文件是很烦人的事 —— 相比之下,直接让大语言模型帮你解析并总结内容显得更加简便。

然而,遗憾的是,当处理超过 10 页的 PDF 文件时,ChatGPT 的表现并不尽如人意。它所提供的总结往往过于简略且笼统,甚至在被要求提供更多细节时会直接拒绝。

造成这一问题的原因之一是,这不是一个简单的应用场景。

OCR - 有效的 OCR 技术是必需的,它需要能够精确解析表格和图像。但目前无论是免费的还是商业的 OCR 技术都难以做到这一点。大量商业和研究用的 PDF 文件中含有众多表格和图像。

上下文 - 尽管我们现在有 128K 上下文长度的大语言模型,但目前尚不清楚 ChatGPT 实际部署了哪种模型。如果你对一篇论文进行 OCR 处理后再输入其文本给 ChatGPT,它经常会出现错误。我怀疑 ChatGPT 服务的是一个上下文长度更小的模型。

快速 RAG - 实施一个简单的 RAG 处理流程,即将文档分块、嵌入、检索结果后再传递给大语言模型,可能是一个有效的解决方法。但目前的聊天机器人尚未具备这样的功能。

突出文档关键部分 - 理想的解决方案应当能够明确展示出答案来源于文档的哪些部分。这将极大地简化验证过程。

理想情况下,与 PDF 对话的功能应包含以上所有特点。似乎,如果一款独立的应用程序能够很好地实现这些功能,即使在应用商店中也能获得可观的收入。不过,我认为这并不适合作为一个获得风险投资支持的创业项目,更像是一个一两人小团队可以经营的小本生意,足以成为一种舒适的生活方式。

简言之,实现一个看似简单的“与 PDF 对话”功能,其实是一个复杂且难以做到极致的任务。

推文:网页链接
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166715
 
267 次点击