模型上下文长度越来越长,RAG会被取代吗?
在大模型这场竞争中,提升模型智能水平被认为是唯一的路径。其中,随着处理信息规模的提升,上下文长度被正在被大模型公司提到一个更高的位置。
去年下半年开始,OpenAI、Anthropic等模型公司纷纷发布上下文长度的最新进展。今年2月,谷歌发布的Gemini 1.5Pro,再次将上下文刷新为100万 token,创下了最长上下文窗口的纪录,相当于1小时的视频或者70万个单词。
这极大提升了模型处理信息的能力。如果参数规模大小比喻成模型的计算能力,那么上下文长度更像是模型的“内存”,决定了模型每轮对话能处理多少上下文信息,直接影响着AI应用的体验好坏。
随着模型上下文长度的提升,另一个问题也逐渐出现:作为提升模型输出内容的准确性和相关性的工具,RAG(检索增强生成)技术迎来了快速发展。但模型处理信息不断增强,RAG技术是否会被取代?
/ 01 / 人人都卷上下文长度
2月初,谷歌发布了Gemini 1.5Pro,这个性能水平与谷歌迄今为止最大的模型1.0 Ultra类似。而这个模型最大的特点就是,创下了最长上下文窗口的纪录。
根据官方披露,它能够稳定处理高达100万 token,相当于1小时的视频、11小时的音频、超过3万行代码或70万个单词,处理极限为1000万token,相当于《指环王》三部曲。
要知道,OpenAI最新的模型GPT-4 Turbo仅支持128K上下文输入。而在实际测试中,GPT-4 Turbo对于理解73K tokens文档的理解能力急速下降。
凭借超长上下文理解能力,Gemini 1.5 Pro得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。有人尝试将从 Github 上下载的整个代码库连同 issue 都扔给 Gemini 1.5 Pro,结果它不仅理解了整个代码库,还识别出了最紧急的 issue 并修复了问题。
当然,除了谷歌在卷“上下文长度”,其他大模型公司也都在卷这个能力。去年下半年,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token;OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token;LongLLaMA将上下文的长度扩展到25.6万token,甚至更多。
在国内,刚刚完成8亿美元融资的AI大模型公司月之暗面,也把“长文本(Long Context)”当前主打的技术之一。去年10月,当时月之暗面发布了首个模型 Moonshot 和 Kimi 智能助手,支持 20 万字的输入。
那么,上下文到底意味着什么,为什么大家都在卷这个能力?
上下文技术,是指模型在生成文本、回答问题或执行其他任务时,能够考虑并参照的前置文本的数量或范围,是一种大模型对信息理解深度和广度的评价维度。用通俗的话来说,如果参数规模大小比喻成模型的计算能力,那么上下文长度更像是模型的“内存”,决定了模型每轮对话能处理多少上下文信息,直接影响着AI应用的体验好坏。
比如,随着上下文窗口长度的增加,可以提供更丰富的语义信息,有助于减少LLM的出错率和「幻觉」发生的可能性,用户使用时,体验能提升不少。
在业内人士看来,上下文长度增加对模型能力提升意义巨大。用OpenAI开发者关系主管Logan Kilpatrick话说,“上下文就是一切,是唯一重要的事”,提供足够的上下文信息是获得有意义回答的关键。
在杨植麟看来,通往 AGI 的话,上下文长度将会成为一个很重要的点。根据杨植麟判断,AI-Native 产品的终极价值是提供个性化的交互,而无损长上下文是实现这一点的基础——模型的微调长期不应该存在,用户跟模型的交互历史就是最好的个性化过程,历史上每一代技术都是在提升上下文长度。
那么,上下文长度的提升对当下AI行业会产生哪些影响呢?
/ 02 / RAG正在被“杀死”?
放在当下,受到上下文长度提升影响最大的莫过于RAG技术。RAG,中文翻译过来就是检索增强生成,所做的事情并不复杂,就是对知识文本、专业知识库通过AI模型做一个简易的、零成本的搜索增强训练。
随着ChatGPT的面世,大模型需要频繁通过上下文学习来输出内容,但由于模型本身存在幻觉、依赖的信息可能过时,导致其在处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。在这种情况下,RAG技术迎来了快速发展。
具体来说,在语言模型生成答案前,RAG先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。
举个例子,你问大模型三国演义里曹操对刘备做过什么评价?在没有读过三国演义的情况下,大模型没有办法回答。但是,借助 RAG 方法,我们可以先让一个检索模型到三国演义里去寻找最相关的几个答案,然后把你的问题和它找到的相关答案都送到生成模型中,让大模型生成答案。
RAG 有效地缓解了幻觉问题,提高了知识更新的速度,并增强了内容生成的可追溯性,使得大型语言模型在实际应用中变得更加实用和可信。尽管RAG价值巨大,但更多只是大模型能力欠缺之下的权益之计。随着模型上下文输入上限不断提升,RAG也在面对越来越多的质疑。
爱丁堡大学博士生付尧认为,长文本正在取代RAG。他给出解释是,长文本相比于RAG在解码过程中检索具有明显的优越性:
“RAG只在最开始进行检索。通常,给定一个问题,RAG会检索与该问题相关的段落,然后生成。长上下文对每一层和每个Token进行检索。在许多情况下,模型需要进行即时的每个Token的交错检索和推理,并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。”
但很多人也对这一观点持有反对意见,其中成本是制约长文本的最大阻碍。如果将上下文的窗口设定为1M,按现在0.0015美元/1000token的收费标准,一次请求就要花掉1.5美元,这样的成本显然有些过高了。
时间成本上,RAG几乎实时输出内容,但在Gemini 1.5 Pro的演示实例中,1M的上下文长度需要60秒来完成结果的输出。在实际应用中,这样的时间差异会极大影响用户体验。种种迹象显示,至少从目前看,上下文长度想要完全取代RAG技术还有些难度。
最近更新
-
短短26分钟的发布会,OpenAI为何让AI圈再次震惊?
股票 · 昨天 11:43
-
乌鸦AI日报:零一万物发布千亿参数模型Yi-Large,MistralAI顺利完成6亿融资
股票 · 05-13 19:31
-
AIAgent如何颠覆传统自动化?
股票 · 05-13 19:24
-
乌鸦AI日报:智谱AI首次公开神秘项目「GLM-zero」,苹果接近与OpenAI达成协议
股票 · 05-11 17:06
- 苹果还能在国内大“杀”四方吗?
- 畜牧养殖ETF(516670)冲击11连涨!标的指数自阶段低位涨近22%,中金:三因素来看猪价具备上行基础
- 【配置篇】港股市场的哑铃策略如何配?
- UR时尚大秀,逐渐让世界看到中国
- 5月14日(周二)马前炮
- 昊创瑞通疑少计费用、虚增利润博苑股份未来业绩成长或成“空头支票”
- 华润啤酒:基本盘增量式微,高端不易、白酒难耕
- 广告变“Low”背后,映射出卫龙的无奈
- 名创优品一季度财报:全球门店超6600家!净增217家店创历史同期新高
- 第十二届中国国际汽车动力系统峰会圆满落幕,明年再会!
专栏推荐
-
研选
浓缩机构研究精华,提前捕捉市场风口
2036人已购
¥258.00/月
-
尾盘擒牛之如何选股?
学完这些方法,告别选股难!
117人已购
¥288.00/月
-
财报拆解
知识点解读+实战案例,帮你5小时学会看财报
73人已购
¥19.90/月
-
每周一股
每周日定期更新【每周一股】,为广大的投资者精选下周短线个股!
344人已购
¥588.00/月
推荐阅读
- 中国反制从哪里开始?
- 【20240515早评】现在的A股就像一个杀猪盘
- 运通网城房产信托:因融资成本上升和收入下降,首季DPU下降19.8%
- *ST银江募集资金被冻结,投资者索赔麻烦待解
- 5.15号,这些板块有利好
- 25亿!中标现代农业土地质量与产量提升产业化推广示范项目
- 留给观典防务的时间不多了
- 「黑马」江苏银行,为何在四季度业绩「画风突变」?
- 薇美姿拼营销官宣2位代言人,创始人王梓权股权近期遭冻结
- 仅剩0.11元,退市股杀疯了,换手率17%,谁在豪赌,憧憬100倍收益?真相太惨烈
- 盛天网络:未来,我们将致力于核心主赛道——互联网平台的搭建以及互联网泛娱乐内容与服务的生态构建
- 阿里巴巴2024财年第一季度业绩公布,营收稳步增长