学习 Gemini 的新技巧

Thought Signatures

原理解释

  1. Gemini 模型存在一些中间 state,因为 transformer 的 block 有的会自循环运行很多次,这些 state 并没有产生最后生成的 token,而是隐藏向量
  2. 如果把这些向量加密然后发送给 agent 客户端,就不需要在自己的 VRAM 上储存
  3. Agent 返回 function call 结果的时候再把这个数据发送给服务端
  4. 服务端解密然后 cat 到 KV Cache 结尾

优势

  1. 一定程度节约了内存,但是可能最终目标不是要解决内存的问题
  2. 使上下文高效,相当于关于 function call 的一些专用的上下文并不在原来的上下文里面,并且在 function call 返回的时候相当于是一个 prompt(向量版本),解决了 drift 问题
  3. 可能还可以带一些 session 信息

局限性

  1. 并不是主要为了节约 KV Cache,但是我觉得这个方式可能可以加载更多的信息

参考链接

MOD - Mixture-of-Depths

核心概念

  1. Early Exiting,可以跳过某个 block,在训练的时候就会规定每一层只能处理整个序列里面多少 percent 的 token

与 MoE 的区别

特性 MoE MOD
跳过内容 部分 MLP MLP + Attention

研究发现

参考链接

启发与思考

  1. Thought Signatures 除非模型支持,其他公司很难使用这个技术,但是这个技术未来可能可以推广