[Bug] 意图识别使用VLLM无法直接回复

## 🐛 问题描述
打开摄像头这样的问题的时候，会调用摄像头，拍到东西了，question 也正确，但是回答结果很意外。大概是这样的。
![Image](https://github.com/user-attachments/assets/10e014f5-0b52-40fc-88a3-e50da32f6a7c)
但是给他的question 是 “看看这是什么”
因为我这边LLM 用的是Dify ，我在dify 请求日志里没有找到，下面的回答和提问。
```
看来您想让我帮您识别摄像头前的物品呀，不过目前我无法直接访问摄像头哦，您可以尝试描述一下那个东西的样子或者它的周围环境
```
这段回答，走的不知道是哪个LLM了，我测试了一下，我单独走视觉模型提问，直接回复很简洁，没有像这样啰嗦我感觉，我感觉中间好像还是经过了一层LLM。
![Image](https://github.com/user-attachments/assets/a20bae47-7141-45da-aa4d-18246568e33e)

另外可以加个配置吗，就是调用视觉会直接返回，还是经过llm。我有时候需要他基于原来图片作答，需要记忆，直接返回就的话就导致没有这段回答的记忆了。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Bug] 意图识别使用VLLM无法直接回复 #1724

🐛 问题描述

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[Bug] 意图识别使用VLLM无法直接回复 #1724

Description

🐛 问题描述

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions