本质

  1. 正常情况是检查prefill的空间>可用显存,如果不满足就拒绝 有offload的情况应该检查加载空间+prefill空间>可用空间,但是这里只检查留 prefill空间?

  2. 队首失败就全部失败,没有贪婪尝试 导致死锁