最近,关于大型语言模型(LLM)的预测能力的研究引起了广泛关注。来自LightningRodLabs和伦敦政治经济学院的研究者们通过自我博弈和直接偏好优化(DPO)技术,成功提升了LLM的预测能力,使其不再过度依赖人工数据。这一突破不仅令人惊叹,还让人联想到科幻电影中的预言家角色。😮
在传统的预测过程中,人类专家需要综合大量信息,包括事实、发展趋势和相互矛盾的证据,经过复杂的分析和思考,才能做出较为准确的预测。例如,在金融领域,准确的市场预测可以帮助投资者把握时机,做出明智的投资决策,从而实现财富增长。在商业领域,对市场需求和产品趋势的预测,则能让企业提前布局,推出更受消费者欢迎的产品,占据市场优势。📈
为了提升LLM的预测能力,研究人员尝试了多种方法,如数据聚合、新闻检索和模型微调等。这些方法虽然在一定程度上提高了模型的预测性能,但它们普遍存在一个问题——过度依赖人工整理的数据。例如,模型需要借助最新的大众预测结果或依赖人工筛选的内容。模型往往无法从已经确定结果的事件中学习经验,实现自我提升。获取人工数据的成本高昂,效率也较低,这使得模型难以持续学习和进步。🤔
为了解决这一问题,研究人员提出了一个结果驱动的微调框架,让LLM能够摆脱对人工输入的过度依赖,通过自我学习来提升预测能力。研究人员让模型进行“自我博弈”,生成多样化的推理轨迹和概率预测。根据这些推理预测与实际结果的接近程度,对推理组合进行排序。利用直接偏好优化(DPO)技术对模型进行微调。这一方法不仅提高了模型的预测准确性,还降低了对外部数据的依赖。🧠
在数据与新闻收集方面,研究人员从预测市场Polymarket收集了多达12100个具有二元结果的预测问题,如“奥特曼会参加总统就职典礼吗?”或“FTX在2024年会停止付款吗?”。研究者筛选了这些数据,排除了结果不明确的问题,并将剩余数据划分为训练集和测试集。为了评估模型预测的准确性,研究人员引入了Brier分数(BS)这一指标,分数越低,代表预测越准确。在答案揭晓前14天,研究人员借助NewsCatcherAPI收集新闻,并通过GPT-4生成搜索查询,再利用Newscatcher等外部新闻检索服务,对相关新闻进行聚合和处理。这些新闻为后续模型的自我学习和预测提供了重要的支持。📰
在模型自我博弈数据生成阶段,研究人员选用了Phi-414B和DeepSeek-R114B这两个模型。尽管它们的参数只有14B,但在一般科学和编程基准测试中表现十分出色。研究人员让这两个模型针对每个问题进行推理,并给出最终的概率预测。对于Phi-414B模型,采用scratchpad提示法,便于逐步展示推理过程;而DeepSeek-R114B模型则使用零样本提示法。每个问题都会生成一对推理轨迹,最终为9427个预测问题生成了18854条推理轨迹。🔍
在基于结果的重新排序阶段,研究人员根据预测与实际结果的接近程度对推理轨迹进行重新排序。他们定义了一个排序指标,通过计算预测概率与实际结果的绝对差值来衡量两者的接近程度。例如,若实际结果为0,一个预测概率是4%,另一个是8%,那么概率为4%的预测推理轨迹排名更高。这样,模型就能知道哪些推理方式能带来更准确的预测。为了排除新闻聚合信息对排序的影响,研究人员还微调了一组标准模型。📊
这项研究通过自我博弈和直接偏好优化技术,成功提升了LLM的预测能力,使其不再过度依赖人工数据。这一突破不仅为金融和商业领域的预测提供了新的可能性,还为LLM的自我学习和持续进步开辟了新的道路。🚀
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...