Skip to content

Conversation

Deleter-D
Copy link
Collaborator

@Deleter-D Deleter-D commented Oct 17, 2025

接口请求方法参考#4467

image

从推理层面来看,每个step会产生两条消息,分别来自Target模型和Draft模型。

  • Target模型根据seq_lens_this_time返回即可;
  • Draft模型只在第一个Draft Step返回根据Target模型的hidden states推理出的tokens及对应logprobs,其他Draft Step产生的token则延迟到下一次验证后,借由Draft模型的重计算机制来返回正确的tokens及logprobs。

Copy link

paddle-bot bot commented Oct 17, 2025

Thanks for your contribution!

@wuyujiji
Copy link
Contributor

@Deleter-D 您好,这个pr里rebuild_padding参数做了改动,会影响到iluvatar的ci,因为iluvatar rebuild_padding的实现是和nv gpu共用一个cu文件,后面诸如类似case的改动,在改了nv gpu分支API参数的前提下,能否也同时帮忙修改一下iluvatar的分支的API参数呢,这样能在一定程度上避免iluvatar ci挂掉的问题。除了iluvatar,我看了下metax,xpu也都是直接编译的nv gpu的实现,所以对这俩应该也会有影响。之前解决类似case的方式是,在import的时候区分一下backend,然后调用的时候就不用区分了,这样就能避免这类问题了
if current_platform.is_gpu():
from from fastdeploy.model_executor.ops.gpu import rebuild_padding
elif current_platform.is_iluvatar():
from fastdeploy.model_executor.ops.iluvatar import rebuild_padding
eilf ...

@Deleter-D
Copy link
Collaborator Author

@Deleter-D 您好,这个pr里rebuild_padding参数做了改动,会影响到iluvatar的ci,因为iluvatar rebuild_padding的实现是和nv gpu共用一个cu文件,后面诸如类似case的改动,在改了nv gpu分支API参数的前提下,能否也同时帮忙修改一下iluvatar的分支的API参数呢,这样能在一定程度上避免iluvatar ci挂掉的问题。除了iluvatar,我看了下metax,xpu也都是直接编译的nv gpu的实现,所以对这俩应该也会有影响。之前解决类似case的方式是,在import的时候区分一下backend,然后调用的时候就不用区分了,这样就能避免这类问题了 if current_platform.is_gpu(): from from fastdeploy.model_executor.ops.gpu import rebuild_padding elif current_platform.is_iluvatar(): from fastdeploy.model_executor.ops.iluvatar import rebuild_padding eilf ...

@wuyujiji 您好,多硬件这部分建议还是您方来根据变动修改,我这边没有环境来验证修改是否正确,这个PR的改动没有影响到xpu的CI,看看是否有其他原因。

@Jiang-Jia-Jun Jiang-Jia-Jun merged commit 47595a2 into PaddlePaddle:develop Oct 20, 2025
13 of 16 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants