# OpenAI第二日挑战：强化学习赋能模型，助力罕见病研究

**Published by:** [亚伦 YALUN](https://paragraph.com/@yalun/)
**Published on:** 2024-12-10
**URL:** https://paragraph.com/@yalun/openai

## Content

Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2在“OpenAI 12天挑战”的第二日，OpenAI 展示了其模型定制计划的最新进展：强化微调（Reinforcement Fine-Tuning, RFT）。这项技术使得用户能够在自己的数据集上对o1模型进行细化调整。 主要发布内容：强化微调 (RFT) 的介绍：RFT是一种利用强化学习算法的模型定制方法，比传统的监督微调更进一步。它使得模型不仅能模仿输入数据，还能学会在特定领域中进行更复杂的推理。与标准微调不同，RFT允许模型在看到问题时进行深入思考，然后根据结果的正确性进行奖励或惩罚，从而优化模型的推理路径。应用案例：法律领域：与汤姆森路透公司合作，利用RFT将o1 mini模型改进为法律助手，用于协助法律专业人士处理复杂的分析工作。科学研究：与伯克利实验室的计算生物学家Justin Reen合作，针对罕见基因病的研究，利用RFT提升模型在基因病诊断中的推理能力。Justin Reen提供了关于罕见病的数据集，展示了RFT如何帮助模型从症状列表预测可能的基因突变。技术细节：数据集：使用了JSONL格式的数据集，每个数据点包括病例报告、症状、有无症状、任务指令和正确答案。评分机制：引入“评分者”概念，根据模型输出和正确答案的匹配程度给出0到1之间的分数，以此引导模型学习。性能提升：展示了通过RFT后，o1 mini在基因识别任务上的显著性能提升，超过了之前的o1模型。未来计划：OpenAI计划将RFT在明年公开发布，目前通过“强化微调研究计划”扩大Alpha测试，以支持更多领域的研究和应用。幽默互动：活动中，主持人以圣诞节相关的笑话结束，说到圣诞老人尝试用自动驾驶技术，但因为没有对模型进行“松针调优”（Pine tun），导致雪橇撞树。

## Publication Information

- [亚伦 YALUN](https://paragraph.com/@yalun/): Publication homepage
- [All Posts](https://paragraph.com/@yalun/): More posts from this publication
- [RSS Feed](https://api.paragraph.com/blogs/rss/@yalun): Subscribe to updates
- [Twitter](https://twitter.com/yalun369): Follow on Twitter