Update README.md
Browse files
README.md
CHANGED
|
@@ -8,6 +8,15 @@ library_name: transformers
|
|
| 8 |
tags:
|
| 9 |
- text-generation-inference
|
| 10 |
pipeline_tag: text-generation
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 11 |
---
|
| 12 |
# Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
|
| 13 |
|
|
@@ -62,7 +71,8 @@ text = f"##提问:\n{example['instruction']}\n##回答:\n{example['output'][EOS]
|
|
| 62 |
记得添加`EOS`句子结束特殊标记,否则模型`decode`的时候不知道要什么时候停下来。`BOS`句子开始标记可填可不填。
|
| 63 |
|
| 64 |
|
| 65 |
-
# 5. 📝
|
|
|
|
| 66 |
代码:[dpo.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/4.dpo.ipynb)
|
| 67 |
|
| 68 |
根据个人喜好对SFT模型微调,数据集要构造三列`prompt`、`chosen`和 `rejected`,`rejected`这一列有部分数据我是从sft阶段初级模型(比如sft训练4个`epoch`,取0.5个`epoch`检查点的模型)生成,如果生成的`rejected`和`chosen`相似度在0.9以上,则不要这条数据。
|
|
|
|
| 8 |
tags:
|
| 9 |
- text-generation-inference
|
| 10 |
pipeline_tag: text-generation
|
| 11 |
+
widget:
|
| 12 |
+
- text: "##提问:\n感冒了要怎么办?\n##回答:\n"
|
| 13 |
+
example_title: "感冒了要怎么办?"
|
| 14 |
+
- text: "##提问:\n介绍一下Apple公司\n##回答:\n"
|
| 15 |
+
example_title: "介绍一下Apple公司"
|
| 16 |
+
- text: "##提问:\n现在外面天气怎么样\n##回答:\n"
|
| 17 |
+
example_title: "介绍一下Apple公司?"
|
| 18 |
+
- text: "##提问:\n推荐一份可口的午餐\n##回答:\n"
|
| 19 |
+
example_title: "推荐一份可口的午餐"
|
| 20 |
---
|
| 21 |
# Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型
|
| 22 |
|
|
|
|
| 71 |
记得添加`EOS`句子结束特殊标记,否则模型`decode`的时候不知道要什么时候停下来。`BOS`句子开始标记可填可不填。
|
| 72 |
|
| 73 |
|
| 74 |
+
# 5. 📝RLHF优化
|
| 75 |
+
本项目使用dpo优化方法
|
| 76 |
代码:[dpo.ipynb](https://github.com/charent/Phi2-mini-Chinese/blob/main/4.dpo.ipynb)
|
| 77 |
|
| 78 |
根据个人喜好对SFT模型微调,数据集要构造三列`prompt`、`chosen`和 `rejected`,`rejected`这一列有部分数据我是从sft阶段初级模型(比如sft训练4个`epoch`,取0.5个`epoch`检查点的模型)生成,如果生成的`rejected`和`chosen`相似度在0.9以上,则不要这条数据。
|