英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

日期：2024-06-04 来源：互联网作者：中猪商务网浏览：103

核心提示：英伟达最近的研究揭示了长上下文大模型存在虚标现象，涉及包括GPT-4在内的10个知名模型。这些模型宣称能处理128K乃至1M的上下文长度，但在英伟达设计的新指标“有效上下文”测试下，能维持32K有效长度的模型已显稀缺

英伟达最近的研究揭示了长上下文大模型存在虚标现象，涉及包括GPT-4在内的10个知名模型。这些模型宣称能处理128K乃至1M的上下文长度，但在英伟达设计的新指标“有效上下文”测试下，能维持32K有效长度的模型已显稀缺。这一新基准名为RULER，它通过检索、多跳追踪、聚合及问答四类共13项任务，评估模型处理长文本的真实能力，确保关注点在于模型的理解而非单纯的信息回忆。英伟达新研究：上下文长度虚标严重，32K性能合格的都不多。

RULER基准的独特之处在于减少了对模型预存“参数化知识”的依赖，增强了评测的公平性和全面性。例如，它不仅升级了传统的单一检索任务，还引入了多针检索、多值检索、多查询检索等复杂情景，以及模拟指代消解的变量追踪、词汇提取和抗干扰的长序列问答等挑战，全方位检验模型的长文本处理实力。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

实验涵盖了从6B至8x7B参数规模不等的10个模型，包括GPT-4及其他开源模型如Command-R、Yi-34B等，最大上下文长度跨度从32K至1M。在RULER的严格测试下，尽管多数模型在其标称的长上下文范围内表现出色，但深入分析发现，仅Mixtral模型能在其声明的长度上持续超越基线性能。GPT-4在4K长度下展现出最佳性能，且在扩展至128K时性能下降最少。开源模型中，Command-R、Yi-34B及Mixtral因采用较大RoPE基频和更多参数，表现突出。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

进一步的研究还探索了输入长度、任务复杂度对模型表现的影响，以及模型大小、架构对长上下文处理能力的作用。结果显示，增大训练上下文通常提升性能，但效果不恒定；模型规模扩大显著有利于长文本理解；非Transformer架构模型在此类任务上表现不及基于Transformer的模型。

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

对于那些渴望深入了解模型长文本处理能力局限及优化方向的研究者而言，英伟达的这项研究无疑提供了宝贵的洞见和实证基础。

标签： 英伟达新研究：上下文长度虚标严重,32K性能合格的都不多

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。中猪商务网对此不承担任何保证责任。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

本文地址:http://news.wlchinahnzz.com/jinri/xw/x165328.html

打赏

更多>同类今日快讯

本企业其他资讯

推荐今日快讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,中猪商务网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：2534749119@qq.com 客服QQ：2534749119

2534749119