Avoid duplicate input kwargs in `_decode` (#28)

- Avoid duplicate input kwargs in `_decode` (18005e74b8257c981bb97dd4f350b06cd28f7aa6)
- avoid duplicate generate args (5d0120037703b4b70ec932f62ddb81e07b8b85c4)
- update modeling_minicpmo.py (cac55956a6efb7456cf5bbcad4e3e4f14d2e7ea9)

Co-authored-by: Zhihui He <[email protected]>

Files changed (1) hide show

modeling_minicpmo.py CHANGED Viewed

@@ -636,6 +636,8 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         return self.llm(input_ids=None, position_ids=position_ids, inputs_embeds=vllm_embedding, **kwargs)
     def _decode(self, inputs_embeds, tokenizer, attention_mask, **kwargs):
         terminators = [tokenizer.convert_tokens_to_ids(i) for i in self.terminators]
         outputs = self.llm.generate(
             inputs_embeds=inputs_embeds,
@@ -777,6 +779,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         tokenizer=None,
         vision_hidden_states=None,
         stream=False,
         **kwargs,
     ):
         assert input_ids is not None
@@ -814,7 +817,10 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                 outputs = self._decode(model_inputs["inputs_embeds"], tokenizer, attention_mask, **kwargs)
                 result = self._decode_text(outputs.sequences, tokenizer)
         return result, outputs
     def chat(

         return self.llm(input_ids=None, position_ids=position_ids, inputs_embeds=vllm_embedding, **kwargs)
     def _decode(self, inputs_embeds, tokenizer, attention_mask, **kwargs):
+        kwargs.pop("output_hidden_states", None)
+        kwargs.pop("return_dict_in_generate", None)
         terminators = [tokenizer.convert_tokens_to_ids(i) for i in self.terminators]
         outputs = self.llm.generate(
             inputs_embeds=inputs_embeds,
         tokenizer=None,
         vision_hidden_states=None,
         stream=False,
+        decode_text=True,
         **kwargs,
     ):
         assert input_ids is not None
                 outputs = self._decode(model_inputs["inputs_embeds"], tokenizer, attention_mask, **kwargs)
                 result = self._decode_text(outputs.sequences, tokenizer)
+        if decode_text is False:
+            return outputs
         return result, outputs
     def chat(