模型上下文长度越来越长，RAG会被取代吗？ _乌鸦智能说

加载中 ...

模型上下文长度越来越长，RAG会被取代吗？

乌鸦智能说 03-04 19:09 · 来自北京

在大模型这场竞争中，提升模型智能水平被认为是唯一的路径。其中，随着处理信息规模的提升，上下文长度被正在被大模型公司提到一个更高的位置。

去年下半年开始，OpenAI、Anthropic等模型公司纷纷发布上下文长度的最新进展。今年2月，谷歌发布的Gemini 1.5Pro，再次将上下文刷新为100万 token，创下了最长上下文窗口的纪录，相当于1小时的视频或者70万个单词。

这极大提升了模型处理信息的能力。如果参数规模大小比喻成模型的计算能力，那么上下文长度更像是模型的“内存”，决定了模型每轮对话能处理多少上下文信息，直接影响着AI应用的体验好坏。

随着模型上下文长度的提升，另一个问题也逐渐出现：作为提升模型输出内容的准确性和相关性的工具，RAG（检索增强生成）技术迎来了快速发展。但模型处理信息不断增强，RAG技术是否会被取代？

/ 01 / 人人都卷上下文长度

2月初，谷歌发布了Gemini 1.5Pro，这个性能水平与谷歌迄今为止最大的模型1.0 Ultra类似。而这个模型最大的特点就是，创下了最长上下文窗口的纪录。

根据官方披露，它能够稳定处理高达100万 token，相当于1小时的视频、11小时的音频、超过3万行代码或70万个单词，处理极限为1000万token，相当于《指环王》三部曲。

要知道，OpenAI最新的模型GPT-4 Turbo仅支持128K上下文输入。而在实际测试中，GPT-4 Turbo对于理解73K tokens文档的理解能力急速下降。

凭借超长上下文理解能力，Gemini 1.5 Pro得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言，这个模型被低估了。有人尝试将从 Github 上下载的整个代码库连同 issue 都扔给 Gemini 1.5 Pro，结果它不仅理解了整个代码库，还识别出了最紧急的 issue 并修复了问题。

当然，除了谷歌在卷“上下文长度”，其他大模型公司也都在卷这个能力。去年下半年，GPT-3.5上下文输入长度从4千增长至1.6万token，GPT-4从8千增长至3.2万token；OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token；LongLLaMA将上下文的长度扩展到25.6万token，甚至更多。

在国内，刚刚完成8亿美元融资的AI大模型公司月之暗面，也把“长文本（Long Context）”当前主打的技术之一。去年10月，当时月之暗面发布了首个模型 Moonshot 和 Kimi 智能助手，支持 20 万字的输入。

那么，上下文到底意味着什么，为什么大家都在卷这个能力？

上下文技术，是指模型在生成文本、回答问题或执行其他任务时，能够考虑并参照的前置文本的数量或范围，是一种大模型对信息理解深度和广度的评价维度。用通俗的话来说，如果参数规模大小比喻成模型的计算能力，那么上下文长度更像是模型的“内存”，决定了模型每轮对话能处理多少上下文信息，直接影响着AI应用的体验好坏。

比如，随着上下文窗口长度的增加，可以提供更丰富的语义信息，有助于减少LLM的出错率和「幻觉」发生的可能性，用户使用时，体验能提升不少。

在业内人士看来，上下文长度增加对模型能力提升意义巨大。用OpenAI开发者关系主管Logan Kilpatrick话说，“上下文就是一切，是唯一重要的事”，提供足够的上下文信息是获得有意义回答的关键。

在杨植麟看来，通往 AGI 的话，上下文长度将会成为一个很重要的点。根据杨植麟判断，AI-Native 产品的终极价值是提供个性化的交互，而无损长上下文是实现这一点的基础——模型的微调长期不应该存在，用户跟模型的交互历史就是最好的个性化过程，历史上每一代技术都是在提升上下文长度。

那么，上下文长度的提升对当下AI行业会产生哪些影响呢？

/ 02 / RAG正在被“杀死”？

放在当下，受到上下文长度提升影响最大的莫过于RAG技术。RAG，中文翻译过来就是检索增强生成，所做的事情并不复杂，就是对知识文本、专业知识库通过AI模型做一个简易的、零成本的搜索增强训练。

随着ChatGPT的面世，大模型需要频繁通过上下文学习来输出内容，但由于模型本身存在幻觉、依赖的信息可能过时，导致其在处理特定知识时效率不高，缺乏专业领域的深度洞察，同时在推理能力上也有所欠缺。在这种情况下，RAG技术迎来了快速发展。

具体来说，在语言模型生成答案前，RAG先从广泛的文档数据库中检索相关信息，然后利用这些信息来引导生成过程，极大地提升了内容的准确性和相关性。

举个例子，你问大模型三国演义里曹操对刘备做过什么评价？在没有读过三国演义的情况下，大模型没有办法回答。但是，借助 RAG 方法，我们可以先让一个检索模型到三国演义里去寻找最相关的几个答案，然后把你的问题和它找到的相关答案都送到生成模型中，让大模型生成答案。

RAG 有效地缓解了幻觉问题，提高了知识更新的速度，并增强了内容生成的可追溯性，使得大型语言模型在实际应用中变得更加实用和可信。尽管RAG价值巨大，但更多只是大模型能力欠缺之下的权益之计。随着模型上下文输入上限不断提升，RAG也在面对越来越多的质疑。

爱丁堡大学博士生付尧认为，长文本正在取代RAG。他给出解释是，长文本相比于RAG在解码过程中检索具有明显的优越性：

“RAG只在最开始进行检索。通常，给定一个问题，RAG会检索与该问题相关的段落，然后生成。长上下文对每一层和每个Token进行检索。在许多情况下，模型需要进行即时的每个Token的交错检索和推理，并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。”

但很多人也对这一观点持有反对意见，其中成本是制约长文本的最大阻碍。如果将上下文的窗口设定为1M，按现在0.0015美元/1000token的收费标准，一次请求就要花掉1.5美元，这样的成本显然有些过高了。

时间成本上，RAG几乎实时输出内容，但在Gemini 1.5 Pro的演示实例中，1M的上下文长度需要60秒来完成结果的输出。在实际应用中，这样的时间差异会极大影响用户体验。种种迹象显示，至少从目前看，上下文长度想要完全取代RAG技术还有些难度。

（更多精彩内容，关注云掌财经公众号（ID：yzcjapp），或者点击这里下载云掌财经App）

您可以通过云掌财经手机版访问：模型上下文长度越来越长，RAG会被取代吗？

免责声明：以上内容转自其他媒体或为企业宣传文章，相关信息仅为传递更多信息之目的，不代表本网站赞同其观点或证实其内容的真实性，不构成任何投资或具体行为建议。如果您发现网站上有侵犯您的知识产权的作品，请与我们联系，我们会及时修改或删除。联系邮箱：kf@123.com.cn
以上内容仅供学习交流，不作为投资依据，据此操作风险自担。股市有风险，入市需谨慎！点击查看风险提示及免责声明