# OpenAI第二日挑战：强化学习赋能模型，助力罕见病研究

By [亚伦 YALUN](https://paragraph.com/@yalun) · 2024-12-10

---

**Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2**
======================================================

在“OpenAI 12天挑战”的第二日，OpenAI 展示了其模型定制计划的最新进展：强化微调（Reinforcement Fine-Tuning, RFT）。这项技术使得用户能够在自己的数据集上对o1模型进行细化调整。

主要发布内容：

*   **强化微调 (RFT) 的介绍**：
    
    *   RFT是一种利用强化学习算法的模型定制方法，比传统的监督微调更进一步。它使得模型不仅能模仿输入数据，还能学会在特定领域中进行更复杂的推理。
        
    *   与标准微调不同，RFT允许模型在看到问题时进行深入思考，然后根据结果的正确性进行奖励或惩罚，从而优化模型的推理路径。
        
*   **应用案例**：
    
    *   **法律领域**：与汤姆森路透公司合作，利用RFT将o1 mini模型改进为法律助手，用于协助法律专业人士处理复杂的分析工作。
        
    *   **科学研究**：与伯克利实验室的计算生物学家Justin Reen合作，针对罕见基因病的研究，利用RFT提升模型在基因病诊断中的推理能力。Justin Reen提供了关于罕见病的数据集，展示了RFT如何帮助模型从症状列表预测可能的基因突变。
        
*   **技术细节**：
    
    *   **数据集**：使用了JSONL格式的数据集，每个数据点包括病例报告、症状、有无症状、任务指令和正确答案。
        
    *   **评分机制**：引入“评分者”概念，根据模型输出和正确答案的匹配程度给出0到1之间的分数，以此引导模型学习。
        
    *   **性能提升**：展示了通过RFT后，o1 mini在基因识别任务上的显著性能提升，超过了之前的o1模型。
        
*   **未来计划**：
    
    *   OpenAI计划将RFT在明年公开发布，目前通过“强化微调研究计划”扩大Alpha测试，以支持更多领域的研究和应用。
        

幽默互动：

*   活动中，主持人以圣诞节相关的笑话结束，说到圣诞老人尝试用自动驾驶技术，但因为没有对模型进行“松针调优”（Pine tun），导致雪橇撞树。
    

[![]({{DOMAIN}}/editor/youtube/play.png)](https://www.youtube.com/watch?v=yCIYS9fx56U)

---

*Originally published on [亚伦 YALUN](https://paragraph.com/@yalun/openai)*
