关于“Compressing Context to Enhance Inference Efficiency of Large Language Models”(压缩上下文以提高大型语言模型推理效率)
一、研究背景
大语言模型(LLMs)在各种任务上取得了显著的性能表现,但在处理长文档和扩展对话时面临挑战。因为这会显著增加内存和推理时间方面的计算需求,并且当输入超过LLM的固定上下文长度时可能会导致上下文截断1。
二、相关方法
- 选择性上下文(Selective Context)方法
三、实验相关情况
- 在实验中使用了GPT – 3.5、GPT – 4、LLaMA – 7B、13B、30B、Vicuna – 7、13B等基座模型,并在BBCNew、arXiv Articles、ShareGPT.com 等数据集上进行了评测2。
四、其他提高推理效率的研究
有研究表明在Transformer LLMs中跳过后面的注意力子层是一种降低推理成本的有效方法,该方法使Llama 2 7B在几个基准测试上速度提高了21%并提高了性能
数据评估
关于Prompt压缩特别声明
本站i For AI – 人工智能AI工具,一站式导航提供的Prompt压缩都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由i For AI – 人工智能AI工具,一站式导航实际控制,在2024年11月26日 上午11:33收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,i For AI – 人工智能AI工具,一站式导航不承担任何责任。
相关导航
暂无评论...