在大模型时代,AI 的能力不断拓展,如今,它已经可以帮助我们梳理复杂的新闻事件时间线了!以后吃瓜群众们也能更加方便地了解事件来龙去脉。这股 AIAgent 的风潮,我们这些赛博乐子人也得好好体验一番。
CHRONOS 框架
这项突破性的研究来自阿里巴巴通义实验室和上海交通大学,他们联合推出了一种基于 AIAgent 的新闻时间线摘要框架—— CHRONOS。它不仅能从海量新闻中提炼出重要事件,还能清晰地梳理出事件的时间线,让复杂的网络信息一目了然。
CHRONOS 框架通过多轮迭代的自我提问封闭域(closed-domain)和开放域(open-domain)。封闭域 TLS 的时间线从预定义的、与特定主题相关的新闻文章中创建,而开放域 TLS 则需要直接从互联网搜索和检索新闻文章来生成时间线。
过去的研究主要集中于解决封闭域的时间线生成问题。而开放域 TLS 则需要强大的信息检索和筛选能力,以及在没有全局视图的情况下识别和建立事件之间联系的能力,这为任务提出了新的挑战。
迭代检索的 CHRONOS 框架
为了应对这些挑战,研究团队提出了 CHRONOS 框架。该框架通过迭代提问进行相关事件检索,生成准确全面的时间线摘要,有效地解决了开放域和封闭域两种设定下的 TLS 任务。
1. 动机
时间线生成的核心在于建立事件之间的时间和因果关系。每个新闻事件可以被视为一个节点,任务目标是建立这些节点之间的边,展示它们的相关性,最终形成一个以主题新闻节点为起点的异构图。因此,通过检索机制来检索相关新闻文章,可以有效地建立这些边,形成事件之间的联系。
2. 概述
CHRONOS 利用大模型的能力,模拟人类的信息检索过程:提出问题、基于检索结果进一步提出新问题,最终收集关于相关事件的全面信息并总结为时间线。CHRONOS 包括以下几个模块:
2.1 自我提问(Self-Questioning)
首先搜索粗粒度的新闻背景信息,然后迭代提出问题,以检索更多相关新闻。问题改写(Question Rewriting):将复杂或表现不佳的问题分解为更具体、更易检索的查询。
2.2 时间线生成(Timeline Generation)
通过合并每一轮检索生成的时间线来总结一个突出重要事件的时间线。
3. 自我提问
3.1 粗粒度背景调研
在自我提问的初始阶段,CHRONOS 使用目标新闻的标题作为关键词进行搜索,以收集与目标新闻最直接相关的信息。这些信息构成了新闻背景(News Context),为自我提问奠定了初步基础。
3.2 提问示例选择
在粗粒度背景调研后,CHRONOS 利用大模型的上下文学习能力,通过少量样本提示来指导模型生成关于目标新闻的问题。为了评估问题样本质量,引入了时序信息量(Chrono-Informativeness, CI)的概念。CI 值用于衡量模型提出的问题检索与参考时间线对齐事件的能力。高 CI 值的问题更有可能引导检索到与目标新闻事件相关的新闻文章。
4. 问题改写
在问题改写阶段,CHRONOS 采用基于规则的策略和基于模型的策略两种方法来修改问题。基于规则的策略包括:
- 时间过滤:删除问题中的时间信息,以扩大搜索范围。
- 关键词扩展:将问题中的关键词拓展为同义词或超义词,以提高检索召回率。
基于模型的策略则利用大模型的生成能力,将复杂或含糊的问题改写为更具体、更易检索的查询。
5. 时间线生成
在时间线生成阶段,CHRONOS 将来自每一轮检索的事件提取出来,并通过事件对齐和排序算法,按时间顺序排列这些事件,生成最终的时间线摘要。
CHRONOS 框架的创新之处在于,它采用了迭代提问、问题改写和事件对齐等技术,有效地解决了开放域时间线生成问题的挑战,为新闻事件的深入理解和快速检索提供了新的解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...