文摘 | AlphaCodium：引领代码生成新境界，从提示工程到流程工程

这两天看到的收获很大的一篇论文《AlphaCodium：引领代码生成新境界，从提示工程到流程工程》，它提出了一种新的生成代码的方法，比传统的直接基于Prompt生成代码的方式准确率更高。

它用的测试集是CodeContests ，这是由 Deepmind 推出的一项挑战性编程数据集。相对来说还是很权威的。以 GPT-4 为例的话，准确率从19%提升到了44%。

它的原理有些复杂，但是如果你有过LeetCode刷题经验，相对比较好理解一些。

普通人刷 LeetCode，上来就做，这样有可能得到答案，也有可能做不出来，这就类似于你把题目直接丢给GPT-4，让它直接给出答案，准确率相对要低一些。

高手刷LeetCode，会有个做题的流程，同样的水平，做出来的概率会大一些。高手做题时会大概分成几个步骤：

以下部分是迭代过程： 6. 根据选中的解决方案写代码，如果代码不能运行则修改代码直至能运行 7. 将代码提交到LeetCode的测试集去验证，如果无法通过所有测试，则修改错误，如果通过到第8步 8. 用第 5 步生成的测试用例验证代码，如果运行不通过则继续优化代码

这里留个思考题：如果第8步出错，怎么判断是代码有问题还是自己生成的测试用例有问题？

而 AlphaCodium 就是完美遵循了以上的步骤来解题（参考图二），只不过每一步都是由大语言模型帮助完成！

这给了我一些启示：

完整的文章参考：网页链接

中文译文：网页链接

项目源码：网页链接

Prompt和运行结果参考：网页链接