-
推荐
匿名用户-AS2ZD
-
2025-2-2 07:55:34
感谢楼主给加米了!
请问一下design里面,是可以assume每个request都是一个input吗,就是考点就是这个aggregator service要把不同的request做成小于100的batch?
还是说,每个request里面也可以有multiple inputs?
还有就是这个1~100 predictable latency我assume是每一个GPU server对吧,就是这个API可以有很高的QPS比如1Million
感谢感谢