Lightning-Universe · ethanwharris · Nov 24, 2021 · Oct 15, 2021 · Oct 15, 2021 · Oct 20, 2021
@@ -20,7 +20,7 @@
 SPEECH_RECOGNITION_BACKBONES = FlashRegistry("backbones")
 
 if _AUDIO_AVAILABLE:
-    from transformers import Wav2Vec2ForCTC
+    from transformers import AutoModelForCTC, Wav2Vec2ForCTC
 
     WAV2VEC_MODELS = ["facebook/wav2vec2-base-960h", "facebook/wav2vec2-large-960h-lv60"]
 
@@ -31,6 +31,6 @@
             providers=[_HUGGINGFACE, _FAIRSEQ],
         )
 
-    HUGGINGFACE_BACKBONES = ExternalRegistry(Wav2Vec2ForCTC.from_pretrained, "backbones", providers=_HUGGINGFACE)
+    HUGGINGFACE_BACKBONES = ExternalRegistry(AutoModelForCTC.from_pretrained, "backbones", providers=_HUGGINGFACE)
 
     SPEECH_RECOGNITION_BACKBONES += HUGGINGFACE_BACKBONES
@@ -1,4 +1,4 @@
 torchaudio
 librosa>=0.8.1
-transformers>=4.5
+transformers>=4.11.0
 datasets>=1.8