huggingface · zucchini-nlp · Apr 1, 2026 · Mar 25, 2026 · Mar 31, 2026 · Apr 1, 2026
diff --git a/src/transformers/models/align/configuration_align.py b/src/transformers/models/align/configuration_align.py
@@ -50,8 +50,8 @@ class AlignTextConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02
@@ -134,7 +134,7 @@ class AlignVisionConfig(PreTrainedConfig):
     initializer_range: float = 0.02
     batch_norm_eps: float = 0.001
     batch_norm_momentum: float = 0.99
-    drop_connect_rate: float = 0.2
+    drop_connect_rate: float | int = 0.2
 
     def __post_init__(self, **kwargs):
         self.num_hidden_layers = sum(self.num_block_repeats) * 4

diff --git a/src/transformers/models/altclip/configuration_altclip.py b/src/transformers/models/altclip/configuration_altclip.py
@@ -52,8 +52,8 @@ class AltCLIPTextConfig(PreTrainedConfig):
     num_attention_heads: int = 16
     intermediate_size: int = 4096
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 514
     type_vocab_size: int = 1
     initializer_range: float = 0.02

diff --git a/...rmers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py b/...rmers/models/audio_spectrogram_transformer/configuration_audio_spectrogram_transformer.py
@@ -52,8 +52,8 @@ class ASTConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.0
-    attention_probs_dropout_prob: float = 0.0
+    hidden_dropout_prob: float | int = 0.0
+    attention_probs_dropout_prob: float | int = 0.0
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12
     patch_size: int | list[int] | tuple[int, int] = 16

diff --git a/src/transformers/models/beit/configuration_beit.py b/src/transformers/models/beit/configuration_beit.py
@@ -75,8 +75,8 @@ class BeitConfig(BackboneConfigMixin, PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.0
-    attention_probs_dropout_prob: float = 0.0
+    hidden_dropout_prob: float | int = 0.0
+    attention_probs_dropout_prob: float | int = 0.0
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12
     image_size: int | list[int] | tuple[int, int] = 224
@@ -87,7 +87,7 @@ class BeitConfig(BackboneConfigMixin, PreTrainedConfig):
     use_relative_position_bias: bool = False
     use_shared_relative_position_bias: bool = False
     layer_scale_init_value: float = 0.1
-    drop_path_rate: float = 0.1
+    drop_path_rate: float | int = 0.1
     use_mean_pooling: bool = True
     pool_scales: list[int] | tuple[int, ...] = (1, 2, 3, 6)
     use_auxiliary_head: bool = True

diff --git a/src/transformers/models/bert/configuration_bert.py b/src/transformers/models/bert/configuration_bert.py
@@ -47,8 +47,8 @@ class BertConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02

diff --git a/src/transformers/models/bert_generation/configuration_bert_generation.py b/src/transformers/models/bert_generation/configuration_bert_generation.py
@@ -46,8 +46,8 @@ class BertGenerationConfig(PreTrainedConfig):
     num_attention_heads: int = 16
     intermediate_size: int = 4096
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12

diff --git a/src/transformers/models/big_bird/configuration_big_bird.py b/src/transformers/models/big_bird/configuration_big_bird.py
@@ -59,13 +59,13 @@ class BigBirdConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu_new"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 4096
     type_vocab_size: int = 2
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12
-    use_cache: int = True
+    use_cache: bool = True
     pad_token_id: int | None = 0
     bos_token_id: int | None = 1
     eos_token_id: int | list[int] | None = 2

diff --git a/src/transformers/models/biogpt/configuration_biogpt.py b/src/transformers/models/biogpt/configuration_biogpt.py
@@ -46,8 +46,8 @@ class BioGptConfig(PreTrainedConfig):
     num_attention_heads: int = 16
     intermediate_size: int = 4096
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 1024
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12

diff --git a/src/transformers/models/bit/configuration_bit.py b/src/transformers/models/bit/configuration_bit.py
@@ -62,7 +62,7 @@ class BitConfig(BackboneConfigMixin, PreTrainedConfig):
     hidden_act: str = "relu"
     global_padding: str | None = None
     num_groups: int = 32
-    drop_path_rate: float = 0.0
+    drop_path_rate: float | int = 0.0
     embedding_dynamic_padding: bool = False
     output_stride: int = 32
     width_factor: int = 1

diff --git a/src/transformers/models/blip/configuration_blip.py b/src/transformers/models/blip/configuration_blip.py
@@ -59,8 +59,8 @@ class BlipTextConfig(PreTrainedConfig):
     max_position_embeddings: int = 512
     hidden_act: str = "gelu"
     layer_norm_eps: float = 1e-12
-    hidden_dropout_prob: float = 0.0
-    attention_probs_dropout_prob: float = 0.0
+    hidden_dropout_prob: float | int = 0.0
+    attention_probs_dropout_prob: float | int = 0.0
     initializer_range: float = 0.02
     bos_token_id: int | None = 30522
     eos_token_id: int | list[int] | None = 2

diff --git a/src/transformers/models/blip_2/configuration_blip_2.py b/src/transformers/models/blip_2/configuration_blip_2.py
@@ -91,8 +91,8 @@ class Blip2QFormerConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12

diff --git a/src/transformers/models/bridgetower/configuration_bridgetower.py b/src/transformers/models/bridgetower/configuration_bridgetower.py
@@ -86,8 +86,8 @@ class BridgeTowerTextConfig(PreTrainedConfig):
     initializer_factor: float | int = 1
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 514
     type_vocab_size: int = 1
     layer_norm_eps: float = 1e-05

diff --git a/src/transformers/models/bros/configuration_bros.py b/src/transformers/models/bros/configuration_bros.py
@@ -53,8 +53,8 @@ class BrosConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02
@@ -63,7 +63,7 @@ class BrosConfig(PreTrainedConfig):
     dim_bbox: int = 8
     bbox_scale: float = 100.0
     n_relations: int = 1
-    classifier_dropout_prob: float = 0.1
+    classifier_dropout_prob: float | int = 0.1
     is_decoder: bool = False
     add_cross_attention: bool = False
 

diff --git a/src/transformers/models/camembert/configuration_camembert.py b/src/transformers/models/camembert/configuration_camembert.py
@@ -47,8 +47,8 @@ class CamembertConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02

diff --git a/src/transformers/models/canine/configuration_canine.py b/src/transformers/models/canine/configuration_canine.py
@@ -59,8 +59,8 @@ class CanineConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 16384
     type_vocab_size: int = 16
     initializer_range: float = 0.02

diff --git a/src/transformers/models/chameleon/configuration_chameleon.py b/src/transformers/models/chameleon/configuration_chameleon.py
@@ -107,7 +107,7 @@ class ChameleonConfig(PreTrainedConfig):
     eos_token_id: int | list[int] | None = 2
     tie_word_embeddings: bool = False
     rope_parameters: RopeParameters | dict | None = None
-    attention_bias: int | None = False
+    attention_bias: bool | None = False
     attention_dropout: float | int | None = 0.0
     model_parallel_size: int | None = 1
     swin_norm: bool | None = False

diff --git a/src/transformers/models/chinese_clip/configuration_chinese_clip.py b/src/transformers/models/chinese_clip/configuration_chinese_clip.py
@@ -53,8 +53,8 @@ class ChineseCLIPTextConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02

diff --git a/src/transformers/models/clap/configuration_clap.py b/src/transformers/models/clap/configuration_clap.py
@@ -50,8 +50,8 @@ class ClapTextConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 514
     type_vocab_size: int = 1
     initializer_factor: float = 1.0
@@ -123,14 +123,14 @@ class ClapAudioConfig(PreTrainedConfig):
     depths: list[int] | tuple[int, ...] = (2, 2, 6, 2)
     num_attention_heads: list[int] | tuple[int, ...] = (4, 8, 16, 32)
     enable_fusion: bool = False
-    hidden_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
     fusion_type: str | None = None
     patch_embed_input_channels: int = 1
     flatten_patch_embeds: bool = True
     patch_embeds_hidden_size: int = 96
     enable_patch_layer_norm: bool = True
-    drop_path_rate: float = 0.0
-    attention_probs_dropout_prob: float = 0.0
+    drop_path_rate: float | int = 0.0
+    attention_probs_dropout_prob: float | int = 0.0
     qkv_bias: bool = True
     mlp_ratio: float = 4.0
     aff_block_r: int = 4

diff --git a/src/transformers/models/clvp/configuration_clvp.py b/src/transformers/models/clvp/configuration_clvp.py
@@ -159,8 +159,8 @@ class ClvpDecoderConfig(PreTrainedConfig):
     n_inner: int | None = None
     num_mel_attn_blocks: int = 6
     activation_function: str = "gelu_new"
-    resid_pdrop: float = 0.1
-    embd_pdrop: float = 0.1
+    resid_pdrop: float | int = 0.1
+    embd_pdrop: float | int = 0.1
     attention_dropout: float | int = 0.1
     layer_norm_epsilon: float = 1e-5
     initializer_range: float = 0.02

diff --git a/src/transformers/models/codegen/configuration_codegen.py b/src/transformers/models/codegen/configuration_codegen.py
@@ -63,9 +63,9 @@ class CodeGenConfig(PreTrainedConfig):
     rotary_dim: int = 64
     n_inner: int | None = None
     activation_function: str = "gelu_new"
-    resid_pdrop: float = 0.0
-    embd_pdrop: float = 0.0
-    attn_pdrop: float = 0.0
+    resid_pdrop: float | int = 0.0
+    embd_pdrop: float | int = 0.0
+    attn_pdrop: float | int = 0.0
     layer_norm_epsilon: float = 1e-5
     initializer_range: float = 0.02
     use_cache: bool = True

diff --git a/src/transformers/models/cohere2/configuration_cohere2.py b/src/transformers/models/cohere2/configuration_cohere2.py
@@ -74,7 +74,7 @@ class Cohere2Config(PreTrainedConfig):
     max_position_embeddings: int = 8192
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-5
-    use_cache: int = True
+    use_cache: bool = True
     pad_token_id: int | None = 0
     bos_token_id: int | None = 5
     eos_token_id: int | list[int] | None = 255001

diff --git a/src/transformers/models/cohere2/modular_cohere2.py b/src/transformers/models/cohere2/modular_cohere2.py
@@ -95,7 +95,7 @@ class Cohere2Config(PreTrainedConfig):
     max_position_embeddings: int = 8192
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-5
-    use_cache: int = True
+    use_cache: bool = True
     pad_token_id: int | None = 0
     bos_token_id: int | None = 5
     eos_token_id: int | list[int] | None = 255001

diff --git a/src/transformers/models/convbert/configuration_convbert.py b/src/transformers/models/convbert/configuration_convbert.py
@@ -51,8 +51,8 @@ class ConvBertConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02

diff --git a/src/transformers/models/convnext/configuration_convnext.py b/src/transformers/models/convnext/configuration_convnext.py
@@ -52,7 +52,7 @@ class ConvNextConfig(BackboneConfigMixin, PreTrainedConfig):
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12
     layer_scale_init_value: float = 1e-6
-    drop_path_rate: float = 0.0
+    drop_path_rate: float | int = 0.0
     image_size: int | list[int] | tuple[int, int] = 224
     _out_features: list[str] | None = None
     _out_indices: list[int] | None = None

diff --git a/src/transformers/models/convnextv2/configuration_convnextv2.py b/src/transformers/models/convnextv2/configuration_convnextv2.py
@@ -51,7 +51,7 @@ class ConvNextV2Config(BackboneConfigMixin, PreTrainedConfig):
     hidden_act: str = "gelu"
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12
-    drop_path_rate: float = 0.0
+    drop_path_rate: float | int = 0.0
     image_size: int | list[int] | tuple[int, int] = 224
     _out_features: list[str] | None = None
     _out_indices: list[int] | None = None

diff --git a/src/transformers/models/cpmant/configuration_cpmant.py b/src/transformers/models/cpmant/configuration_cpmant.py
@@ -58,7 +58,7 @@ class CpmAntConfig(PreTrainedConfig):
     dim_head: int = 128
     dim_ff: int = 10240
     num_hidden_layers: int = 48
-    dropout_p: float = 0.0
+    dropout_p: float | int = 0.0
     position_bias_num_buckets: int = 512
     position_bias_max_distance: int = 2048
     eps: float = 1e-6

diff --git a/src/transformers/models/ctrl/configuration_ctrl.py b/src/transformers/models/ctrl/configuration_ctrl.py
@@ -56,8 +56,8 @@ class CTRLConfig(PreTrainedConfig):
     dff: int = 8192
     n_layer: int = 48
     n_head: int = 16
-    resid_pdrop: float = 0.1
-    embd_pdrop: float = 0.1
+    resid_pdrop: float | int = 0.1
+    embd_pdrop: float | int = 0.1
     layer_norm_epsilon: float = 1e-6
     initializer_range: float = 0.02
     use_cache: bool = True

diff --git a/src/transformers/models/dab_detr/configuration_dab_detr.py b/src/transformers/models/dab_detr/configuration_dab_detr.py
@@ -81,7 +81,7 @@ class DabDetrConfig(PreTrainedConfig):
     decoder_layers: int = 6
     decoder_ffn_dim: int = 2048
     decoder_attention_heads: int = 8
-    is_encoder_decoder: int = True
+    is_encoder_decoder: bool = True
     activation_function: str = "prelu"
     hidden_size: int = 256
     dropout: float | int = 0.1

diff --git a/src/transformers/models/data2vec/configuration_data2vec_audio.py b/src/transformers/models/data2vec/configuration_data2vec_audio.py
@@ -147,10 +147,10 @@ class Data2VecAudioConfig(PreTrainedConfig):
     num_conv_pos_embedding_groups: int = 16
     conv_pos_kernel_size: int = 19
     num_conv_pos_embeddings: int = 5
-    mask_time_prob: float = 0.05
+    mask_time_prob: float | int = 0.05
     mask_time_length: int = 10
     mask_time_min_masks: int = 2
-    mask_feature_prob: float = 0.0
+    mask_feature_prob: float | int = 0.0
     mask_feature_length: int = 10
     mask_feature_min_masks: int = 0
     ctc_loss_reduction: str = "sum"

diff --git a/src/transformers/models/data2vec/configuration_data2vec_text.py b/src/transformers/models/data2vec/configuration_data2vec_text.py
@@ -46,8 +46,8 @@ class Data2VecTextConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.1
-    attention_probs_dropout_prob: float = 0.1
+    hidden_dropout_prob: float | int = 0.1
+    attention_probs_dropout_prob: float | int = 0.1
     max_position_embeddings: int = 512
     type_vocab_size: int = 2
     initializer_range: float = 0.02

diff --git a/src/transformers/models/data2vec/configuration_data2vec_vision.py b/src/transformers/models/data2vec/configuration_data2vec_vision.py
@@ -65,8 +65,8 @@ class Data2VecVisionConfig(PreTrainedConfig):
     num_attention_heads: int = 12
     intermediate_size: int = 3072
     hidden_act: str = "gelu"
-    hidden_dropout_prob: float = 0.0
-    attention_probs_dropout_prob: float = 0.0
+    hidden_dropout_prob: float | int = 0.0
+    attention_probs_dropout_prob: float | int = 0.0
     initializer_range: float = 0.02
     layer_norm_eps: float = 1e-12
     image_size: int | list[int] | tuple[int, int] = 224
@@ -77,7 +77,7 @@ class Data2VecVisionConfig(PreTrainedConfig):
     use_relative_position_bias: bool = False
     use_shared_relative_position_bias: bool = False
     layer_scale_init_value: float = 0.1
-    drop_path_rate: float = 0.1
+    drop_path_rate: float | int = 0.1
     use_mean_pooling: bool = True
     out_indices: list[int] | tuple[int, ...] = (3, 5, 7, 11)
     pool_scales: list[int] | tuple[int, ...] = (1, 2, 3, 6)

diff --git a/src/transformers/models/dbrx/configuration_dbrx.py b/src/transformers/models/dbrx/configuration_dbrx.py
@@ -37,7 +37,7 @@ class DbrxAttentionConfig(PreTrainedConfig):
 
     base_config_key = "attn_config"
 
-    attn_pdrop: float = 0.0
+    attn_pdrop: float | int = 0.0
     clip_qkv: int | float | None = None
     kv_n_heads: int = 1