性判定方法。那么,OpenAIo1和DeepSeek-R1能否解决SoS条件规划问题呢?为此,研究者构建了SoS-1K数据集,这个数据集经过了精心策划,包含约1,000个多项式,并配备了五个精心设计的专家级SoS专业推理指导。🔍
接下来,DeepSeek-R1、DeepSeek-V3、GPT-4o、OpenAIo1-mini、Qwen2.5系列和QwQ-32B-Preview在内的多位明星大模型接受了数学难题的洗礼。研究者们得出了一系列有趣的发现。如果未提供任何推理指导,所有的SOTA模型几乎都无法解决SoS问题,它们的准确率基本都在60%,仅略高于50%的随机猜测基线。一旦使用高质量的推理轨迹进行提示,所有模型的准确率就立马有了显著提升,最高的提升了21%,而且推理质量越高,模型表现就越好。专注于推理的LLM通常优于通用LLM,无论提示质量如何。参数较大的模型通常只用更少的推理步骤就能正确预测,而小模型要达到最佳性能,则需要更多的推理过程。😊
研究者还进一步证明,对一个预训练的7B模型在SoS1K数据集上进行4小时的监督微调后,仅使用2张A100 GPU,就能让它的准确率从54%暴增。这一发现不仅展示了LLM在数学推理方面的巨大潜力,也为未来的研究提供了新的方向。🌟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...