# OpenAI第二日挑战:强化学习赋能模型,助力罕见病研究 **Published by:** [亚伦 YALUN](https://paragraph.com/@yalun/) **Published on:** 2024-12-10 **URL:** https://paragraph.com/@yalun/openai ## Content Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2在“OpenAI 12天挑战”的第二日,OpenAI 展示了其模型定制计划的最新进展:强化微调(Reinforcement Fine-Tuning, RFT)。这项技术使得用户能够在自己的数据集上对o1模型进行细化调整。 主要发布内容:强化微调 (RFT) 的介绍:RFT是一种利用强化学习算法的模型定制方法,比传统的监督微调更进一步。它使得模型不仅能模仿输入数据,还能学会在特定领域中进行更复杂的推理。与标准微调不同,RFT允许模型在看到问题时进行深入思考,然后根据结果的正确性进行奖励或惩罚,从而优化模型的推理路径。应用案例:法律领域:与汤姆森路透公司合作,利用RFT将o1 mini模型改进为法律助手,用于协助法律专业人士处理复杂的分析工作。科学研究:与伯克利实验室的计算生物学家Justin Reen合作,针对罕见基因病的研究,利用RFT提升模型在基因病诊断中的推理能力。Justin Reen提供了关于罕见病的数据集,展示了RFT如何帮助模型从症状列表预测可能的基因突变。技术细节:数据集:使用了JSONL格式的数据集,每个数据点包括病例报告、症状、有无症状、任务指令和正确答案。评分机制:引入“评分者”概念,根据模型输出和正确答案的匹配程度给出0到1之间的分数,以此引导模型学习。性能提升:展示了通过RFT后,o1 mini在基因识别任务上的显著性能提升,超过了之前的o1模型。未来计划:OpenAI计划将RFT在明年公开发布,目前通过“强化微调研究计划”扩大Alpha测试,以支持更多领域的研究和应用。幽默互动:活动中,主持人以圣诞节相关的笑话结束,说到圣诞老人尝试用自动驾驶技术,但因为没有对模型进行“松针调优”(Pine tun),导致雪橇撞树。 ## Publication Information - [亚伦 YALUN](https://paragraph.com/@yalun/): Publication homepage - [All Posts](https://paragraph.com/@yalun/): More posts from this publication - [RSS Feed](https://api.paragraph.com/blogs/rss/@yalun): Subscribe to updates - [Twitter](https://twitter.com/yalun369): Follow on Twitter