File tree 2 files changed +13
-5
lines changed
2 files changed +13
-5
lines changed Original file line number Diff line number Diff line change 1
1
# BaoZaoAI
2
- 基于Qwen-2.5-1.5B-Instruct 进行DPO fine-tuning后,意外说真话的AI暴躁哥
3
-
2
+ 基于Qwen-2.5-1.5B-Instruct 进行DPO fine-tuning后,意外说真话的AI暴躁哥!
3
+ ![ ] ( image.png )
4
4
## 使用说明和风险提示
5
5
这是一个基于LLM的聊天应用,旨在展示模型的对话生成能力。在使用前,请仔细阅读以下说明和风险提示。
6
6
## 用法说明
11
11
## 风险提示
12
12
- 脏话风险:请注意,这个模型在训练过程中使用了包含脏话的数据。因此,在使用过程中,模型可能会生成包含不雅语言的回复。我们强烈建议在公共场合或敏感环境中谨慎使用。
13
13
- 内容责任:虽然模型的回复可能具有挑衅性或不适当,但请记住,这些回复是由模型生成的,不代表开发者的观点或立场。用户应对自己的使用行为负责。
14
- - 遵守法律法规:在使用过程中,请确保遵守当地的法律法规,尊重他人的权利和感受。
15
- ## 技术细节
16
- 使用DPO基于Qwen-2.5-1.5B-Instruct模型,基于[ 脏话数据集] ( https://huggingface.co/datasets/MLZoo/DPO-bad-boy-chinese-for-Qwen2.5 ) 进行fine-tuning。
14
+ - 遵守法律法规:在使用过程中,请确保遵守当地的法律法规,尊重他人的权利和感受,模型未进行任何安全alignment,无法控制具体输出的内容,不要故意生成辱骂他人的内容。
15
+ - 政治敏感性:这是一个实验模型,未进行任何alignment安全性检查,请不要向模型提出任何政治相关的问题。
16
+ - 技术细节
17
+ 使用DPO基于Qwen-2.5-1.5B-Instruct模型,基于脏话数据集进行fine-tuning。请注意,由于网络原因,上述链接可能无法直接访问。如果遇到链接无法访问的问题,建议检查网页链接的合法性,并适当重试。如果问题仍然存在,可能需要检查网络连接或联系Hugging Face平台获取帮助。
18
+ - 实验目的
19
+ 这个模型仅用于测试DPO(Direct Preference Optimization)效果,它展示了模型在特定数据集上fine-tuning后可能表现出的意外行为。我们希望通过这个实验,能够更好地理解模型的行为,并在未来的开发中进行改进。
20
+ - 注意事项
21
+ - 实验性质:这是一个实验模型,可能存在不稳定或不可预测的行为。
22
+ - 安全性:由于模型未进行安全性检查,使用时请特别注意不要生成或传播不当内容。
23
+ - 反馈:我们鼓励用户提供反馈,以帮助我们改进模型的性能和安全性。
24
+ - 希望这个实验模型能够为您提供有趣的体验,同时也期待您的宝贵意见。请记住,使用时请遵守所有适用的法律法规,并尊重他人的权利和感受。
You can’t perform that action at this time.
0 commit comments