rknn-llm 是否可以为算子指定使用的后端 #225

wohaiaini · 2025-03-18T07:33:08Z

大模型推理时，可以自己指定哪些算子使用CPU、哪些算子使用NPU吗，还是说都内部确定好的？谢谢

waydong · 2025-03-19T06:07:37Z

你好，目前不支持。

wohaiaini · 2025-03-20T09:08:23Z

谢谢。再请教下，rkllm有没有办法获取中间层的输出结果，比如打印注意力计算得分，softmax之后的概率值张量

waydong · 2025-03-20T09:18:58Z

谢谢。再请教下，rkllm有没有办法获取中间层的输出结果，比如打印注意力计算得分，softmax之后的概率值张量

目前只能返回LAST_HIDDEN_LAYER

wohaiaini · 2025-03-26T04:38:00Z

谢谢。再请教下，rkllm有没有办法获取中间层的输出结果，比如打印注意力计算得分，softmax之后的概率值张量

目前只能返回LAST_HIDDEN_LAYER

这个结果怎么使用，有demo吗？ @waydong
我自己写了个demo，计算logits和softmax后输出预测结果，感觉结果有点乱，如下：

)

a<|1|im =>
are the bot assistant, You ||im...|> You you|im_3|> is_ <|im_end|>|im_1|>user<<

waydong · 2025-03-26T04:55:55Z

RKLLMInferMode设置这个参数，demo参考这个python代码，https://github.com/airockchip/rknn-llm/blob/main/examples/rkllm_server_demo/rkllm_server/flask_server.py

wohaiaini · 2025-03-27T01:50:56Z

是的，我就是设置的这个参数来获取的last_hidden_layer.bin文件，然后使用C++写的后续计算logits和softmax，以及预测token输出的函数，就是结果的输出不是很合理，看起来有点语无伦次。
rkllm_infer_params.mode = RKLLM_INFER_GET_LAST_HIDDEN_LAYER;

不知道哪里有问题，有没有特别要注意或者实现的地方？
可有关于对这个bin使用的 C++的demo ？
或者我把这个代码发出来瞅瞅？
（last_hidden_layer.bin lm_head.bin 都打印了张量值进行了对比，个人理解这些初始数据应该是没问题的）

wohaiaini closed this as completed Mar 25, 2025

wohaiaini reopened this Mar 26, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

rknn-llm 是否可以为算子指定使用的后端 #225

rknn-llm 是否可以为算子指定使用的后端 #225

wohaiaini commented Mar 18, 2025

waydong commented Mar 19, 2025

wohaiaini commented Mar 20, 2025

waydong commented Mar 20, 2025

wohaiaini commented Mar 26, 2025 •

edited

Loading

waydong commented Mar 26, 2025

wohaiaini commented Mar 27, 2025

rknn-llm 是否可以为算子指定使用的后端 #225

rknn-llm 是否可以为算子指定使用的后端 #225

Comments

wohaiaini commented Mar 18, 2025

waydong commented Mar 19, 2025

wohaiaini commented Mar 20, 2025

waydong commented Mar 20, 2025

wohaiaini commented Mar 26, 2025 • edited Loading

waydong commented Mar 26, 2025

wohaiaini commented Mar 27, 2025

wohaiaini commented Mar 26, 2025 •

edited

Loading