Fix #43037 Gemma4 Tool Parser Multiple Tool Calls in Single Delta


问题

vLLM前端的token读取基于buffer机制,且buffer长度无限制。这意味着单个buffer可能包含一个或多个function call。

然而,当前多数parser采用状态机模式进行匹配,只能处理buffer中的单个function call。

修复方案

结合正则表达式与状态机:

思考

问题普遍性

AI辅助修复

架构选择

触发条件

该问题出现的前提:

  1. 网络通信请求间隔时间较长
  2. GPU推理速度较快