Skip to content

[Bug] 意图识别使用VLLM无法直接回复 #1724

@jlau-ice

Description

@jlau-ice

🐛 问题描述

打开摄像头这样的问题的时候,会调用摄像头,拍到东西了,question 也正确,但是回答结果很意外。大概是这样的。
Image
但是给他的question 是 “看看这是什么”
因为我这边LLM 用的是Dify ,我在dify 请求日志里没有找到,下面的回答和提问。

看来您想让我帮您识别摄像头前的物品呀,不过目前我无法直接访问摄像头哦,您可以尝试描述一下那个东西的样子或者它的周围环境

这段回答,走的不知道是哪个LLM了,我测试了一下,我单独走视觉模型提问,直接回复很简洁,没有像这样啰嗦我感觉,我感觉中间好像还是经过了一层LLM。
Image

另外可以加个配置吗,就是调用视觉会直接返回,还是经过llm。我有时候需要他基于原来图片作答,需要记忆,直接返回就的话就导致没有这段回答的记忆了。

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions