huggingface · molbap · Nov 25, 2025 · Nov 25, 2025 · Nov 25, 2025 · Nov 25, 2025
diff --git a/src/transformers/configuration_utils.py b/src/transformers/configuration_utils.py
@@ -755,6 +755,10 @@ def from_dict(
 
         config = cls(**config_dict)
 
+        # default tie_word_embeddings to False if None, see https://github.com/huggingface/transformers/issues/42313
+        if hasattr(config, "tie_word_embeddings") and config.tie_word_embeddings is None:
+            config.tie_word_embeddings = False
+
         # Update config with kwargs if needed
         if "num_labels" in kwargs and "id2label" in kwargs:
             num_labels = kwargs["num_labels"]

diff --git a/src/transformers/conversion_mapping.py b/src/transformers/conversion_mapping.py
@@ -116,6 +116,7 @@ def _build_checkpoint_conversion_mapping():
     mapping["qwen3_next"] = mapping["qwen2_moe"].copy()
     mapping["qwen3_vl_moe"] = mapping["qwen2_moe"].copy()
     mapping["hunyuan_v1_moe"] = mapping["qwen2_moe"].copy()
+    mapping["olmoe"] = mapping["qwen2_moe"].copy()
     mapping["minimax"] = mapping["mixtral"].copy()
 
     return mapping

diff --git a/src/transformers/modeling_utils.py b/src/transformers/modeling_utils.py
@@ -2248,8 +2248,10 @@ def get_expanded_tied_weights_keys(self, all_submodels: bool = False) -> dict:
             return expanded_tied_weights
 
         tied_mapping = self._tied_weights_keys
+        text_config = self.config.get_text_config(decoder=True)
+        tie_word_embeddings = getattr(text_config, "tie_word_embeddings", self.config.tie_word_embeddings)
         # If the config does not specify any tying, return empty dict
-        if not self.config.tie_word_embeddings and not self.config.tie_encoder_decoder:
+        if not tie_word_embeddings and not self.config.tie_encoder_decoder:
             return {}
         # If None, return empty dict
         elif tied_mapping is None:
@@ -3174,7 +3176,11 @@ def save_pretrained(
             shared_ptrs = {ptr: names for ptr, names in ptrs.items() if len(names) > 1}
 
             # Recursively descend to find tied weight keys
-            _tied_weights_keys = set(_get_tied_weight_keys(self))
+            tied_keys_attr = getattr(self, "all_tied_weights_keys", None)
+            if tied_keys_attr is not None:
+                _tied_weights_keys = set(tied_keys_attr.keys())
+            else:
+                _tied_weights_keys = set(_get_tied_weight_keys(self))
             error_names = []
             to_delete_names = set()
             for names in shared_ptrs.values():
@@ -4408,7 +4414,9 @@ def _move_missing_keys_from_meta_to_cpu(
         # The tied weight keys are in the "missing" usually, but they should not be moved (they will be tied anyway)
         # This is especially important because if they are moved, they will lose the `_is_hf_initialized` flag, and they
         # will be re-initialized for nothing (which can be quite long)
-        for key in missing_keys - self.all_tied_weights_keys.keys():
+        tied_keys_attr = getattr(self, "all_tied_weights_keys", {}) or {}
+        tied_keys = set(tied_keys_attr.keys())
+        for key in missing_keys - tied_keys:
             param = model_state_dict[key]
             # Buffers are not initialized on the meta device, so we still need this check to avoid overwriting them
             if param.device == torch.device("meta"):

diff --git a/src/transformers/models/fsmt/configuration_fsmt.py b/src/transformers/models/fsmt/configuration_fsmt.py
@@ -194,6 +194,7 @@ def __init__(
             bos_token_id=eos_token_id,
             is_encoder_decoder=is_encoder_decoder,
             num_hidden_layers=encoder_layers,
+            tie_word_embeddings=tie_word_embeddings,
         )
         if "decoder" in common_kwargs:
             del common_kwargs["decoder"]

diff --git a/tests/models/fsmt/test_modeling_fsmt.py b/tests/models/fsmt/test_modeling_fsmt.py
@@ -125,6 +125,7 @@ def get_config(self):
             eos_token_id=self.eos_token_id,
             bos_token_id=self.bos_token_id,
             pad_token_id=self.pad_token_id,
+            tie_word_embeddings=True,
         )
 
     def prepare_config_and_inputs_for_common(self):
@@ -254,6 +255,7 @@ def test_ensure_weights_are_shared(self):
         config, inputs_dict = self.model_tester.prepare_config_and_inputs()
 
         config.tie_word_embeddings = True
+        config.decoder.tie_word_embeddings = True
         model = FSMTForConditionalGeneration(config)
 
         # FSMT shares three weights.
@@ -270,6 +272,7 @@ def test_ensure_weights_are_shared(self):
         )
 
         config.tie_word_embeddings = False
+        config.decoder.tie_word_embeddings = False
         model = FSMTForConditionalGeneration(config)
 
         # FSMT shares three weights.