internvl2.5-2B量化后推理速度无明显提升 #3135

nzomi · 2025-02-12T08:53:27Z

开发者你好，我部署后用opanai api中转了一下结果，常规测试 swift 框架推理的结果一切正常，但是lmdeploy+openai接口的结果会重复输出，repetition_penalty等参数对齐了还是会重复输出，请问是什么bug吗？
base是Internvl2.5-2B。

lvhan028 · 2025-02-13T03:57:46Z

标题提到量化模型，正文中没看到量化。所以这个模型有量化么？
试试指定chat_template为 internvl2_5呢？

nzomi · 2025-02-13T08:35:32Z

@lvhan028 是的，从intern2.8-2B量化过来的。确实是chat_template的问题，改成internl2_5结果就正常了。非常感谢开发者

nzomi · 2025-02-13T08:54:43Z

@lvhan028 另外这边测试2B模型量化前后推理同一批图片速度没差异，8B是能明显看到量化后速度提升一倍的，这是2B模型本身的缺陷吗？

nzomi closed this as completed Feb 13, 2025

nzomi reopened this Feb 13, 2025

nzomi changed the title ~~量化模型推理结果重复~~ internvl2.5-2B量化后推理速度无明显提升 Feb 13, 2025

Provide feedback