BytedanceDouyinContent
/

SAIL-VL2-2B

Model card Files Files and versions

ctranslate2-4you commited on Dec 25, 2025

Commit

e023f80

·

verified ·

1 Parent(s): 3c8b3be

Update modeling_qwen3.py

fix for qwen3 and transformers

Files changed (1) hide show

modeling_qwen3.py +11 -1

modeling_qwen3.py CHANGED Viewed

@@ -41,7 +41,6 @@ from transformers.modeling_rope_utils import ROPE_INIT_FUNCTIONS, dynamic_rope_u
 from transformers.modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
 from transformers.processing_utils import Unpack
 from transformers.utils import (
-    LossKwargs,
     add_code_sample_docstrings,
     add_start_docstrings,
     add_start_docstrings_to_model_forward,
@@ -49,6 +48,17 @@ from transformers.utils import (
     logging,
     replace_return_docstrings,
 )
 from transformers.utils.deprecation import deprecate_kwarg
 from .configuration_qwen3 import Qwen3Config
 # from .spec_sdpa_attention import spec_sdpa_attention_forward

 from transformers.modeling_utils import ALL_ATTENTION_FUNCTIONS, PreTrainedModel
 from transformers.processing_utils import Unpack
 from transformers.utils import (
     add_code_sample_docstrings,
     add_start_docstrings,
     add_start_docstrings_to_model_forward,
     logging,
     replace_return_docstrings,
 )
+# LossKwargs compatibility - location varies by transformers version
+try:
+    from transformers.utils import LossKwargs
+except ImportError:
+    try:
+        from transformers.loss.loss_utils import LossKwargs
+    except ImportError:
+        from transformers.modeling_flash_attention_utils import FlashAttentionKwargs as _FAK
+        class LossKwargs(_FAK):
+            pass
 from transformers.utils.deprecation import deprecate_kwarg
 from .configuration_qwen3 import Qwen3Config
 # from .spec_sdpa_attention import spec_sdpa_attention_forward