学习 Gemini 的新技巧
Thought Signatures
原理解释
- Gemini 模型存在一些中间 state,因为 transformer 的 block 有的会自循环运行很多次,这些 state 并没有产生最后生成的 token,而是隐藏向量
- 如果把这些向量加密然后发送给 agent 客户端,就不需要在自己的 VRAM 上储存
- Agent 返回 function call 结果的时候再把这个数据发送给服务端
- 服务端解密然后 cat 到 KV Cache 结尾
优势
- 一定程度节约了内存,但是可能最终目标不是要解决内存的问题
- 使上下文高效,相当于关于 function call 的一些专用的上下文并不在原来的上下文里面,并且在 function call 返回的时候相当于是一个 prompt(向量版本),解决了 drift 问题
- 可能还可以带一些 session 信息
局限性
- 并不是主要为了节约 KV Cache,但是我觉得这个方式可能可以加载更多的信息
参考链接
MOD - Mixture-of-Depths
核心概念
- Early Exiting,可以跳过某个 block,在训练的时候就会规定每一层只能处理整个序列里面多少 percent 的 token
与 MoE 的区别
| 特性 | MoE | MOD |
|---|---|---|
| 跳过内容 | 部分 MLP | MLP + Attention |
研究发现
- 训练和推理更快
- 相同算力的准确度更高
- 最理想的是每层只处理 12.5%
参考链接
启发与思考
- Thought Signatures 除非模型支持,其他公司很难使用这个技术,但是这个技术未来可能可以推广