Synthyra
/

DPLM2-650M

@@ -365,9 +365,9 @@ import torch
 import torch.nn as nn
 from torch.nn import functional as F
 from dataclasses import dataclass
-from typing import Dict, List, Optional, Tuple, Union
-from transformers import AutoTokenizer, EsmTokenizer
 from transformers.modeling_outputs import (
     BaseModelOutputWithPastAndCrossAttentions,
     BaseModelOutputWithPoolingAndCrossAttentions,
@@ -1062,7 +1062,6 @@ class FAST_DPLM2_ENCODER(DPLM2PreTrainedModel, EmbeddingMixin):
 class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config
     def __init__(self, config, add_pooling_layer=True):
         DPLM2PreTrainedModel.__init__(self, config)
         self.config = config
@@ -1129,7 +1128,6 @@ class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
 class DPLM2ForMaskedLM(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config
     def __init__(self, config, dropout: float = 0.1, vocab_size: Optional[int] = None):
         config.hidden_dropout_prob = dropout
         config.tie_word_embeddings = False
@@ -1143,7 +1141,7 @@ class DPLM2ForMaskedLM(DPLM2PreTrainedModel, EmbeddingMixin):
         self.pad_id = config.pad_token_id
         self.tokenizer = self.__class__.tokenizer
         if isinstance(config._name_or_path, str) and len(config._name_or_path) > 0:
-            self.tokenizer = AutoTokenizer.from_pretrained(config._name_or_path)
     def get_input_embeddings(self) -> nn.Module:
         return self.esm.get_input_embeddings()

 import torch.nn as nn
 from torch.nn import functional as F
 from dataclasses import dataclass
+from typing import List, Optional, Tuple, Union
+from transformers import EsmTokenizer
 from transformers.modeling_outputs import (
     BaseModelOutputWithPastAndCrossAttentions,
     BaseModelOutputWithPoolingAndCrossAttentions,
 class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config
     def __init__(self, config, add_pooling_layer=True):
         DPLM2PreTrainedModel.__init__(self, config)
         self.config = config
 class DPLM2ForMaskedLM(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config
     def __init__(self, config, dropout: float = 0.1, vocab_size: Optional[int] = None):
         config.hidden_dropout_prob = dropout
         config.tie_word_embeddings = False
         self.pad_id = config.pad_token_id
         self.tokenizer = self.__class__.tokenizer
         if isinstance(config._name_or_path, str) and len(config._name_or_path) > 0:
+            self.tokenizer = EsmTokenizer.from_pretrained(config._name_or_path)
     def get_input_embeddings(self) -> nn.Module:
         return self.esm.get_input_embeddings()