如何在实际应用中提升模型效率？ #3922

mzgcz · 2024-12-03T00:58:29Z

General Question

在实际应用中要怎样提升在线模型（Streaming）的效率呢？
语言模型可以通过batch size进行批量推理，来提升推理效率；可以使用多实例来应对推理请求并发的情况；可以使用TensorRT来优化推理速度。
请问对于PaddleSpeech在线模型，上面哪些措施是可行的，有没有更好的推荐？

zxcd · 2024-12-05T08:20:33Z

目前暂不支持多线程推理，但可以使用多实例

mzgcz added the Question label Dec 3, 2024