学习 Gemini 的新技巧

Thought Signatures

原理解释

Gemini 模型存在一些中间 state，因为 transformer 的 block 有的会自循环运行很多次，这些 state 并没有产生最后生成的 token，而是隐藏向量
如果把这些向量加密然后发送给 agent 客户端，就不需要在自己的 VRAM 上储存
Agent 返回 function call 结果的时候再把这个数据发送给服务端
服务端解密然后 cat 到 KV Cache 结尾

优势

一定程度节约了内存，但是可能最终目标不是要解决内存的问题
使上下文高效，相当于关于 function call 的一些专用的上下文并不在原来的上下文里面，并且在 function call 返回的时候相当于是一个 prompt（向量版本），解决了 drift 问题
可能还可以带一些 session 信息

局限性

并不是主要为了节约 KV Cache，但是我觉得这个方式可能可以加载更多的信息

参考链接

MOD - Mixture-of-Depths

核心概念

Early Exiting，可以跳过某个 block，在训练的时候就会规定每一层只能处理整个序列里面多少 percent 的 token

与 MoE 的区别

特性	MoE	MOD
跳过内容	部分 MLP	MLP + Attention

研究发现

训练和推理更快
相同算力的准确度更高
最理想的是每层只处理 12.5%

参考链接

Turing Post - MOD

启发与思考

Thought Signatures 除非模型支持，其他公司很难使用这个技术，但是这个技术未来可能可以推广