［feats/llm］语音大模型背景下的llm集成 #2142

Mddct · 2023-11-14T02:36:26Z

现状

deepspeed refactor(deepspeed): Refine traning code #2055
中文paraformer 全语种whisper [paraformer] support fintune #2139 @xingchensong feat(whisper): support whisper arch #2141
代码简洁容易diy
llm decoder onoy 下代码几乎一致
有 lora的pr, LoRA support #2049

语音大模型是一方面https://github.com/wenet-e2e/wenet/issues/2097，另外一个路子是和llm的结合，后者目前paper 日益增多，缺少合语音、llm的一体的简单易于diy/研究的repo

在此有个想法，wenet集成llm 比如llama

宗旨

数据、模型、代码全部都会开源开放，欢迎大家贡献，有数据的出数据，有意见的出意见，有机器的出机器，大家共创。
且做且分析

目标

base 当前/未来语音大模型中文开源语音大模型计划 #2097 + xxx llm，构造Audio+LLM的语音语言打模型，unify all speech task + speech multi-round chat ability
积累语音所有任务的数据以及构造audio instruct/prompt数据

Action

数据

中文开源语音大模型计划 #2097 (comment)
构造speech instruct/prompt

训练

部署

wenet.cpp (speech.cpp+xxxllm.cpp)
int4量化，降低带宽需求

目前可行方案，

https://github.com/salesforce/BLIP
https://github.com/QwenLM/Qwen-Audio
https://google-research.github.io/seanet/audiopalm/examples/
etc
特点：主要为微调，微调对数据量要求不高，方法类似,
需要基座： Llama + whisper + tune

robin1001 · 2023-11-14T02:44:37Z

可以的，我们之前的思路是：

模型放大，简单粗暴，大就是强。
LLM based，站在巨人的肩膀。
在语音任务中直接引入 LLM 的方法，让语音模型直接有理解能力。

目前在做的是1，在做 1 的生态和基础设施。2 确实现在出现了很多的 paper，是新的研究热点。以前的思路是资源有限，先做 1，1 和 2 本质上是不冲突的，社区有资源的话，可以都搞起来。

xingchensong · 2023-11-14T03:48:50Z

周哥可以针对这条路线，起草个计划，我们给你打工

Mddct · 2023-11-14T11:19:51Z

周哥可以针对这条路线，起草个计划，我们给你打工

大佬谦虚了，我给你打工

我先整理下这方面的最新成果，看能不能抽出共性东西，再写个TODO (现在功力不够)

xingchensong · 2023-11-16T03:31:57Z

提一个，tokenizer可能需要重构一下，现在有两种模式，一种是纯词表模式，一种是bpe模式，未来肯定还会有适配LLM的模式，这样就是三种模式了，需要重新构建下代码

Mddct · 2023-11-19T09:34:00Z

xingchensong · 2023-11-20T02:28:24Z

我在想，直接import transformers行不行，和自己重新实现一遍，各有什么pros & cons

Mddct · 2023-11-20T13:39:20Z

我在想，直接import transformers行不行，和自己重新实现一遍，各有什么pros & cons

第一步先单纯imoort transformers
后边再看会有什么问题，上边那个列表先列那里了。

缺点是：
不好魔改，比如阿里的通义audio 会有个model parallel ，hugface封装过厚 fintune audio llm 如果需要对llm做些改动需要去hug里去改。而且输入输出需要符合hg的接口

robin1001 · 2023-11-20T14:12:24Z

+1，我觉得对于文本大模型的支持，直接 import transformer，不需要重复造轮子了。

xingchensong · 2023-11-23T02:22:25Z

espnet/espnet#4099 this might be a reference for integrating hugginface

Mddct · 2023-11-23T02:37:14Z

hg的llm模型几乎是下边伪代码pattern

from transformers import CasulLM...

tokenizer = from_pretrain

tokenizer.add_special_tokens

# 这里dataset 包含mask的计算
dataset = ...

model = from_pretain 

# 这里可以构造和语音id或emb的input+ text 给model， 包含att mask
output = model（....）

calac loss

model.generate for base

model.chat for chat

xingchensong · 2023-11-23T03:32:41Z

提一个，tokenizer可能需要重构一下，现在有两种模式，一种是纯词表模式，一种是bpe模式，未来肯定还会有适配LLM的模式，这样就是三种模式了，需要重新构建下代码

This might be a reference for refactoring tokenizer https://github.com/espnet/espnet/tree/master/espnet2/text

Mddct · 2023-11-23T06:54:21Z

hg的llm模型几乎是下边伪代码pattern

from transformers import CasulLM...

tokenizer = from_pretrain

tokenizer.add_special_tokens

# 这里dataset 包含mask的计算
dataset = ...

model = from_pretain 

# 这里可以构造和语音id或emb的input+ text 给model， 包含att mask
output = model（....）

calac loss

model.generate for base

model.chat for chat

cv有篇工作，https://arxiv.org/pdf/2311.03079.pdf

该做法整体看，和通义audio相似，区别在于他给llm 加了个cross attention，这里涉及到了对llm的修改

xingchensong · 2023-11-23T07:12:07Z

涉及到修改的可不可以通过下面的方式：

from transformers import XXXModelForCasulLM
from wenet.transformer.asr_model import AsrModel

class NewModel(nn.Module, AsrModel, XXXModelForCasulLM):
    def __init__(self, ...):
        # init father
        super().__init__()
        # add new member if needed, i.e.,
        self.new_member = nn.Identity()

    def forward(self, ...):
        # overwrite father
        pass

    # overwrite other functions if needed, i.e., function from XXXModelForCasulLM
    def from_pretrained(self, ...):
        pass
        
    # overwrite other functions if needed, i.e., function from AsrModel
    def _cal_att_loss(self, ...):
        pass

Mddct · 2023-11-23T07:15:38Z

涉及到修改的可不可以通过下面的方式：

from transformers import XXXModelForCasulLM
from wenet.transformer.asr_model import AsrModel

class NewModel(nn.Module, AsrModel, XXXModelForCasulLM):
    def __init__(self, ...):
        # init father
        super().__init__()
        # add new member if needed, i.e.,
        self.new_member = nn.Identity()

    def forward(self, ...):
        # overwrite father
        pass

    # overwrite other functions if needed, i.e., function from XXXModelForCasulLM
    def from_pretrained(self, ...):
        pass
        
    # overwrite other functions if needed, i.e., function from AsrModel
    def _cal_att_loss(self, ...):
        pass

+1 也倾向于这种

Mddct · 2023-12-07T07:57:01Z

gemini 是最近谷歌发布的多模态模型，支持语音输入

文中提到了语音输入还是经过”USM“化，输入LLM 从头pretrain

（NOTE：区别图片patch，无预训练比如vit，直接patch 输入）

该形式和通义之类的实现是类似的（区别解释通义的mutli task），个人觉得咱们可以搞搞这类实现的代码框架

@robin1001 @xingchensong

TODO:

add_special tokens [text] huggingface tokenizer #2186
load huggingface model
adapter
load encoder from whsiper feat(whisper): support whisper arch #2141
多么形式上的IO IO 重构，提升多机多卡训练效率 + 代码复用 #2152

如果上述实现，即使不训练，也可以load 通义audio的开源模型

Mddct · 2024-02-06T23:21:25Z

https://arxiv.org/abs/2402.01831

lucasjinreal · 2024-07-11T07:22:40Z

Any updates?

Mddct · 2024-07-19T01:55:51Z

抱歉回复晚了，现在技术发展太快了，语音和大模型大体可以分三类

语音理解
语音合成
对话系统

每种技术方案可能都不太一样现在在底层开发验证中未来一段时间可能都不会更新

xingchensong pinned this issue Nov 14, 2023

Mddct added the future plan label Nov 18, 2023

Mddct mentioned this issue Nov 24, 2023

[refine/tokenzier] 重构tokenizer接口 #2160

Closed

5 tasks

MrSupW unpinned this issue May 13, 2024

Mddct pinned this issue Jun 1, 2024

github-actions bot added the Stale label Jun 4, 2024

github-actions bot closed this as completed Jun 11, 2024

xingchensong reopened this Jul 1, 2024

github-actions bot removed the Stale label Jul 2, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

［feats/llm］语音大模型背景下的llm集成 #2142

［feats/llm］语音大模型背景下的llm集成 #2142

Mddct commented Nov 14, 2023 •

edited

Loading

robin1001 commented Nov 14, 2023

xingchensong commented Nov 14, 2023

Mddct commented Nov 14, 2023 •

edited

Loading

xingchensong commented Nov 16, 2023

Mddct commented Nov 19, 2023 •

edited

Loading

xingchensong commented Nov 20, 2023 •

edited by Mddct

Loading

Mddct commented Nov 20, 2023

robin1001 commented Nov 20, 2023

xingchensong commented Nov 23, 2023 •

edited

Loading

Mddct commented Nov 23, 2023 •

edited

Loading

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

Mddct commented Dec 7, 2023 •

edited

Loading

Mddct commented Feb 6, 2024

lucasjinreal commented Jul 11, 2024

Mddct commented Jul 19, 2024

［feats/llm］语音大模型背景下的llm集成 #2142

［feats/llm］语音大模型背景下的llm集成 #2142

Comments

Mddct commented Nov 14, 2023 • edited Loading

宗旨

目标

Action

数据

训练

部署

目前可行方案，

robin1001 commented Nov 14, 2023

xingchensong commented Nov 14, 2023

Mddct commented Nov 14, 2023 • edited Loading

xingchensong commented Nov 16, 2023

Mddct commented Nov 19, 2023 • edited Loading

step1: support wenet llama2, Adhering to the principle of maximizing reuse of wenet code

Features

xingchensong commented Nov 20, 2023 • edited by Mddct Loading

Mddct commented Nov 20, 2023

robin1001 commented Nov 20, 2023

xingchensong commented Nov 23, 2023 • edited Loading

Mddct commented Nov 23, 2023 • edited Loading

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

Mddct commented Dec 7, 2023 • edited Loading

Mddct commented Feb 6, 2024

lucasjinreal commented Jul 11, 2024

Mddct commented Jul 19, 2024

Mddct commented Nov 14, 2023 •

edited

Loading

Mddct commented Nov 14, 2023 •

edited

Loading

Mddct commented Nov 19, 2023 •

edited

Loading

xingchensong commented Nov 20, 2023 •

edited by Mddct

Loading

xingchensong commented Nov 23, 2023 •

edited

Loading

Mddct commented Nov 23, 2023 •

edited

Loading

Mddct commented Dec 7, 2023 •

edited

Loading