文章预览
前文: prompt压缩(一) 1.Nano-Capsulator Nano = NAtural laNguage prOmpt,吐槽一下,这又是硬凑了一个缩写名字。 之前提到的soft prompt需要针对生成模型进行一定的训练,无法在多个LLM之间通用;而类似selective contexts这样,根据self-information或者ppl选择一些token删除的方法在压缩效果(保留原prompt效果)上略差一些,因此Nano-Capsulator就被设计出来,「在保留自然语言可读性的情况下压缩输入(获得Capsule Prompt),既要保证效果,又能够在多个LLM之间通用」。 要达到这些目的,需要训练一个模型,Nano-Capsulator。Nano-Capsulator也是一个LLM,实验中用的是Vicuna-7B。推理的时候,Nano-Capsulator就用来根据long prompt生成short prompt。 那么现在问题就是怎么训练Nano-Capsulator,让它能够在减少生成长度的同时,最大程度保留原prompt的语义信息。 一个直觉是,如果两个prompt的语义很相
………………………………