彩娱乐

热点资讯

彩娱乐注册CLY588.VIP

你的位置:彩娱乐 > 彩娱乐注册CLY588.VIP >

彩娱乐招商加盟 用大模子吃瓜更智能了!阿里通义实验室建议新时期线转头框架,全面栽种新闻转头遵守

发布日期:2025-01-07 18:03    点击次数:94

灵通域和阻滞域TLS都更高效了

当今彩娱乐招商加盟,大模子不错帮你梳理新闻时期线了,以后吃瓜就更绵薄了!

AI Agent的风,我们赛博乐子东说念主也得吹吹。

这即是来自阿里巴巴通义实验室与上海交通大学的新探究,他们建议了一种基于Agent的新闻时期线摘抄新框架——CHRONOS。

它不仅不错帮你从海量新闻中转头出紧迫事件,更紧迫的是,它还不错梳理出显然的时期线,以后上网冲浪时各样复杂事件都一目了然。

其中的CHRONOS一词取自希腊据说中的时期之神柯罗诺斯。

该框架通过迭代多轮的自我发问姿色,皆集检索增强生成时期,从互联网上检索关联事件信息,并生成时期规矩的新闻摘抄,为新闻时期线摘抄生成提供了一种全新的科罚决策。

先来一皆瞅瞅几个例子。

比如对于新闻“国足1-0巴林”,CHRONOS概况转头海量新闻,呈现事件的有始有终。

对于遮掩时期更长的新闻“中国探月工程”,CHRONOS也能聚焦要点事件,呈当前期线发展,使得用户概况一目了然。

补皆灵通域TLS短板

时期线转头(Timeline Summarization, TLS)任务是一种当然言语处理界限的经典时期挑战,它旨在从多量文本数据中索要环节事件,并依时期规矩陈设,以提供对某一主题或界限历史发展的结构化视图。

举例,在新闻界限,时期线转头不错匡助用户快速了解一个新闻事件的有始有终。该任务不仅条件识别出紧迫的事件,还需要意会事件之间的时期关系和因果谋划,以便生成一个连贯、简略且信息丰富的时期线摘抄。

凭证可检索事件的源泉,不错将TLS任务细分为阻滞域(closed-domain)和灵通域(open-domain)两个设定:在阻滞域TLS任务中,时期线是从一组预界说的、与特定主题或界限关联的新闻著作中创建的,而灵通域TLS指的是从互联网上径直搜索和检索新闻著作来生成时期线的经由。

昔时的职责东要聚会于科罚阻滞域上时期线生成问题,而灵通域TLS则需要遍及的信息检索和筛选才气,以及在莫得全局视图的情况下识别和扶持事件之间谋划的才气,为这项任务建议了新的要乞降挑战。

迭代检索的CHRONOS框架

为了搪塞上述挑战,团队建议CHRONOS框架,通过迭代发问进行关联事件检索,生成准确、全面的时期线摘抄,概况有用地科罚灵通域和阻滞域两种设定下的TLS任务。

1. 动机

时期线生成的中枢在于扶持事件之间的时期和因果关系。

每个新闻事件都不错被示意为一个不同的节点,任务的方向是扶持这些节点之间的边,以展示它们的关联性,并最终酿成一个异构图,从主题新闻的节点起先。

因此,通过一个检索机制来检索关联的新闻著作,不错有用扶持这些边,酿成事件之间的谋划。

2. 轮廓

CHRONOS行使大模子的才气,通过模拟东说念主类信息检索的经由,即通过建议问题、基于检索死心进一步建议新的问题,最终收罗对于关联事件的全面信息并转头为时期线。

CHRONOS包括以下几个模块:

自我发问 (Self-Questioning):当先搜索粗粒度的新闻配景信息,然后迭代地建议问题,以检索更多关联新闻。

问题改写 (Question Rewriting):将复杂或发达欠安的问题领会为更具体、更易检索的查询。

时期线生成 (Timeline Generation):通过归并每一轮检索生成的时期线来转头一个特出紧迫事件的时期线。

3. 自我发问3.1 粗粒度配景调研

在自我发问的开动阶段,CHRONOS使用方向新闻的标题行为环节词进行搜索,以收罗与方向新闻最径直关联的信息。

这些信息组成了新闻配景(News Context),为自我发问打下初步基础。

3.2 发问示例领受

在粗粒度配景调研之后,CHRONOS行使大模子的高下体裁习才气,通过一丝样本提醒来携带模子生成对于方向新闻的问题。

为了评估问题样骨子量,引入了时序信息量(Chrono-Informativeness, CI)的认识,用来忖度模子建议的问题检索与参考时期线对皆事件的才气,即高CI值的问题更有可能携带检索到与方向新闻事件关联的著作,用检索生成的时期线和参考时期线中包含日历的F1分数进行忖度。

基于最大化问题集时序信息量的方向,构建一个“新闻-问题”的示例池,用于携带新方向新闻的问题生成。

对于每个新的方向新闻,通过余弦相似性动态检索与方向新闻最相似的样本,确保了样本的高下文关联性和时期信息的准确性。

3.3 迭代发问

CHRONOS通过连气儿迭代发问,彩娱乐app迟缓深远探索事件的细节。

每一轮迭代都基于前一轮的检索死心,以发现新的问题和信息,直到满足时期线中事件数目或达到最大迭代次数。

3.4 问题改写

查询改写(Query Rewriting)是检索增强生成中常用的优化圭表。

在CHRONOS框架中,团队通过对开动发问阶段产生的平常或复杂问题改写为2-3个更易于检索的子问题,概况生成更具体、更有针对性的查询,从而提高搜索引擎的检索恶果。

他们相通在提醒中加入一丝样本,携带大模子进行有用改写,将复杂问题滚动为更具体的查询,同期保捏问题的原始意图。

3.5 时期线生成

CHRONOS通过两阶段生成无缺的时期线转头:生成(Generation)和归并(Merging)。

生成:通过分析每一轮检索到的新闻著作来识别环节事件和夺目信息。行使大模子的意会和生成才气,索要每个事件的发诞辰期和关联细节,并为每个事件撰写简略的描摹。这些事件和描摹被组织成初步的时期线,按照时期规矩陈设,为后续的归并阶段提供基础。

归并:将多轮检索生成的初步时期线整合成一个连贯的最终摘抄。这依然由波及对皆不同时期线中的事件、科罚任何日历或描摹上的冲破,并领受最具代表性和紧迫性的事件。

全新数据集OPEN-TLS

为了评估TLS系统,探究团队还收罗了由专科记者撰写的对于近期新闻事件的时期线,构建了一个名为Open-TLS的新数据集。

与以往阻滞域的数据集比较,Open-TLS不仅在数据集限度和内容上愈加各样化,遮掩政事、经济、社会、体育和科学时期等多个界限,并且在时效性上更具上风,为灵通域TLS任务提供了一个更全面和更具挑战性的基准。

实验死心

1. 实验设定

实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B鉴识构建CHRONOS系统,评测灵通域和阻滞域两个设定下TLS的性能发达。使用的评估策划主要有:

ROUGE-N: 忖度生成时期线和参考时期线之间的N-gram重迭。具体包括:(1)Concat F1:通过将总共日历摘抄不时起来计较ROUGE,以评估举座的一致性;(2)Agree F1:仅使用匹配日历的摘抄计较ROUGE,以评估特定日历的准确性;(3)Align F1:在计较ROUGE之前,先凭证相似性和日历接近性对忖度摘抄和参考摘抄进行对皆,评估对皆后的一致性。

Date F1:忖度生成时期线中日历与参考时期线中确切日历匹配进度。

2. 灵通域TLS

在灵通域TLS的实验中,CHRONOS与几个基线圭表进行了比较,包括径直搜索方向新闻(DIRECT)和重写方向新闻以创建查询用于检索(REWRITE)。

对比之下,CHRONOS通过迭代自我发问和检索关联新闻著作的圭表,权贵提高了事件转头的质地和日历对皆的准确性,在总共策划上都跳动于基线圭表。

3. 阻滞域TLS

在阻滞域TLS的实验中,CHRONOS与之前的代表性职责进行了比较,包括:(1)基于事件团聚圭表的CLUST (Gholipour Ghalandari and. Ifrim, 2020);(2)基于事件图模子EGC(Li et al., 2021)和(3)行使大模子进行事件聚类的LLM-TLS(Hu et al., 2024)。

在Crisis和T17这两个经典数据集上的比较死心裸露,CHRONOS达到了与这些职责访佛的发达,在两个数据集的AR-2策划上得到了SOTA恶果,证据了其在不同类型事件和时期跨度上的遍及性能和符合性。

4. 运行时期分析

CHRONOS的另一个上风体当今遵守方面。

与相通基于大模子、但需要处理新闻库中总共著作的LLM-TLS圭表比较,它通过检索增强机制专注于最关联的新闻著作,权贵减少了处理时期。

这种遵守的栽种使其在推行应用中更为实用,尤其是在需要快速反映的场景中。

格拉利什当初作为维拉的绝对核心,在联赛当中的表现非常出色,获得了加盟曼城的机会,1亿英镑的转会费直接让他在赖斯加盟阿森纳之前成为了英格兰球员的转会标王,并且维持了几个赛季的时间。但是,格拉利什在加盟曼城之后的位置和角色都发生了变化,从自己熟悉的中场位置来到了边路,瓜迪奥拉也主要利用他在边路的持球能力以及传球能力,球队中场核心的角色是属于罗德里和德布劳内的,格拉利什很难在曼城获得这样的位置和角色,作用也也被削弱了很多。

案例探究:苹果产物发布时期线

团队深远分析了模子在处理具体新闻事件时的发达,通过领受具有代表性的新闻事件,如苹果公司的首要产物发布,概况不雅察到CHRONOS何如通过轮回渐进的自我发问和信息检索来生成时期线。

在案例探究中,CHRONOS展示了其概况准确索要环节事件和日历的才气,同期也揭示了在某些情况下可能需要转换的场地,举例对某些事件的遗漏或日历幻觉。

结语

CHRONOS框架通过皆集大型言语模子的迭代自我发问和检索增强生成时期,为时期线转头任务提供了一种新颖且有用的科罚决策。

这种圭表的中枢在于模拟东说念主类的信息检索经由,通过不休地建议和回复新问题来迟缓深远意会事件,最毕生成一个全面且连贯的时期线摘抄。

实验死心已经充分证据了CHRONOS在复杂事件检索和构建时期线方面的才气,展示了该框架在推行新闻时期线生成应用中的应用后劲和准确性。

同期,这种迭代发问的检索生成圭表是否具有泛化到通用任务上的才气也值得异日进一步探究。

Reference:

[1] Demian Gholipour Ghalandari and Georgiana Ifrim. 2020. Examining the state-of-the-art in news timeline summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1322–1334, Online. Association for Computational Linguistics.

[2] Manling Li, Tengfei Ma, Mo Yu, Lingfei Wu, Tian Gao, Heng Ji, and Kathleen McKeown. 2021. Timeline summarization based on event graph compression via time-aware optimal transport. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6443–6456, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.

[3] Qisheng Hu, Geonsik Moon, and Hwee Tou Ng. 2024. From moments to milestones: Incremental timeline summarization leveraging large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7232–7246, Bangkok, Thailand. Association for Computational Linguistics.

— 完 —彩娱乐招商加盟



Powered by 彩娱乐 @2013-2022 RSS地图 HTML地图