[WIP] Add Moonshine #34784

eustlb · 2024-11-18T16:40:19Z

No description provided.

HuggingFaceDocBuilderDev · 2024-11-18T17:07:49Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

xenova

(just some notes in the meantime).

xenova · 2024-12-14T15:25:17Z

src/transformers/models/moonshine/convert_usefulsensors_to_hf.py

+from transformers.models.moonshine.modeling_moonshine import MoonshineConfig
+from transformers.models.moonshine.modeling_moonshine import MoonshineDecoder


Suggested change

from transformers.models.moonshine.modeling_moonshine import MoonshineConfig

from transformers.models.moonshine.modeling_moonshine import MoonshineDecoder

from transformers.models.moonshine.modeling_moonshine import (

MoonshineConfig,

MoonshineForConditionalGeneration,

)

xenova · 2024-12-14T15:25:50Z

src/transformers/models/moonshine/convert_usefulsensors_to_hf.py

+
+    converted_decoder_weights = _convert_weights(loaded_decoder_weights, encoder=False)
+    converted_decoder_weights['embed_tokens.weight'] = converted_decoder_weights['embed_tokens.weight'].T
+


Suggested change

final_weights = {}

for k, v in encoder_state_dict.items():

final_weights[f"model.encoder.{k}"] = v

for k, v in converted_decoder_weights.items():

final_weights[f"model.decoder.{k}"] = v

if model_name == 'tiny':

config = MoonshineConfig()

elif model_name == 'base':

config = MoonshineConfig(

hidden_size=416,

num_hidden_layers=8,

num_attention_heads=8,

)

else:

raise ValueError(f"Unknown model name {model_name}")

final_weights['proj_out.weight'] = converted_decoder_weights['embed_tokens.weight']

model = MoonshineForConditionalGeneration(config)

model.load_state_dict(final_weights)

model.save_pretrained(pytorch_dump_folder_path)

xenova · 2024-12-15T21:17:23Z

src/transformers/models/moonshine/modeling_moonshine.py

+        config: MoonshineConfig
+    """
+
+    main_input_name = "input_features"


To align with other parts of the library, it might be better to use "input_values" instead of "input _features", since "input_features" are typically for models that perform feature extraction, whereas for moonshine, we use the raw audio values instead.

config draft

35434da

eustlb changed the title ~~Add Moonshine~~ [WIP] Add Moonshine Nov 18, 2024

eustlb added 4 commits December 2, 2024 19:00

full encoder forward

7e18038

full decoder forward

6517251

fix sdpa and FA2

b0efed1

fix sdpa and FA2

b4d18f9

xenova mentioned this pull request Dec 14, 2024

Add support for Moonshine ASR huggingface/transformers.js#1099

Merged

eustlb added 5 commits December 15, 2024 20:47

moonshine model

b3777e0

moonshine model forward

e313ab5

fix attention with past_key_values

7a6935a

add MoonshineForConditionalGeneration

8fda426

fix cache handling and causality for cross attention

d0ed917

eustlb force-pushed the add-moonshine branch from bac9c9f to d0ed917 Compare December 15, 2024 19:48

eustlb added 2 commits December 15, 2024 22:17

no causal attention mask for the encoder

461f210

model addition (imports etc)

22dbaae

eustlb force-pushed the add-moonshine branch from d4864c7 to 22dbaae Compare December 15, 2024 21:17

xenova reviewed Dec 15, 2024

View reviewed changes

small nit

72ba8c4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP] Add Moonshine #34784

[WIP] Add Moonshine #34784

eustlb commented Nov 18, 2024

HuggingFaceDocBuilderDev commented Nov 18, 2024

xenova left a comment

xenova Dec 14, 2024

xenova Dec 14, 2024

xenova Dec 15, 2024

		from transformers.models.moonshine.modeling_moonshine import MoonshineConfig
		from transformers.models.moonshine.modeling_moonshine import MoonshineDecoder

-from transformers.models.moonshine.modeling_moonshine import MoonshineConfig
-from transformers.models.moonshine.modeling_moonshine import MoonshineDecoder
+from transformers.models.moonshine.modeling_moonshine import (
+    MoonshineConfig,
+    MoonshineForConditionalGeneration,
+)


		converted_decoder_weights = _convert_weights(loaded_decoder_weights, encoder=False)
		converted_decoder_weights['embed_tokens.weight'] = converted_decoder_weights['embed_tokens.weight'].T

+    final_weights = {}
+    for k, v in encoder_state_dict.items():
+        final_weights[f"model.encoder.{k}"] = v
+    for k, v in converted_decoder_weights.items():
+        final_weights[f"model.decoder.{k}"] = v
+    if model_name == 'tiny':
+        config = MoonshineConfig()
+    elif model_name == 'base':
+        config = MoonshineConfig(
+            hidden_size=416,
+            num_hidden_layers=8,
+            num_attention_heads=8,
+        )
+    else:
+        raise ValueError(f"Unknown model name {model_name}")
+    final_weights['proj_out.weight'] = converted_decoder_weights['embed_tokens.weight']
+    model = MoonshineForConditionalGeneration(config)
+    model.load_state_dict(final_weights)
+    model.save_pretrained(pytorch_dump_folder_path)

[WIP] Add Moonshine #34784

Are you sure you want to change the base?

[WIP] Add Moonshine #34784

Conversation

eustlb commented Nov 18, 2024

HuggingFaceDocBuilderDev commented Nov 18, 2024

xenova left a comment

Choose a reason for hiding this comment

xenova Dec 14, 2024

Choose a reason for hiding this comment

xenova Dec 14, 2024

Choose a reason for hiding this comment

xenova Dec 15, 2024

Choose a reason for hiding this comment