
论文第一作者为喷鼻港中文年夜学(深圳)理工学院在读博士生郭永新,领导教师为通信作者为喷鼻港中文年夜学(深圳)理工学院 / 人工智能学院助理教学唐晓莹,课题组研讨偏向包含年夜模子、联邦进修、充电智能优化与博弈等。放工回家后你正深陷于一部两小时的综艺节目中,盼望找到那些让人捧腹的爆笑片断,却犹如海底捞针。或许,在缓和安慰的足球赛中,你盼望捕获到那决议性的绝杀霎时,但传统 AI 视频处置技巧效力低下,且模子缺少泛化才能。为处理这些成绩,喷鼻港中文年夜学(深圳)唐晓莹课题组结合腾讯 PCG 宣布 TRA沙巴足球体育平台CE 技巧,经由过程因果变乱建模为视频懂得年夜模子供给精准的时光定位才能。


论文题目:TRACE: Temporal Grounding Video LLM via Causal Event ModelingVTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding论文地点:https://arxiv.org/pdf/2410.05643https://arxiv.org/pdf/2405.13382Github:https://github.com/gyxxyg/TRACE一. 配景在长视频内容检索的研讨范畴中,用户常面对时光线导航效力低下的窘境。传统的视频检索方式采取逐帧剖析的线性处置战略,犹如逐帧查字典,效力低下且泛化才能差。而现有的多模态年夜模子,固然泛化才能更强,然而后果依然差能人意。咱们以为这背地的抵触实质上源于视频懂得年夜模子的输出仍然应用天然言语建模,无奈清楚正确地描写视频自身的构造。TRACE 的绝妙之处是给视频变乱构建构造化表征,将每个模子的输出表现为一系列变乱,进一步把每个变乱拆成三元组「时光戳 - 明显性分数 - 文本描写」,经由过程因果推理链重构视频逻辑骨架。TRACE 技巧冲破了传统方式的范围,不再依附不清楚构造的笔墨描写,而是经由过程变乱级其余因果建模,明显晋升了时序懂得与定位精度,为视频内容检索实现了 “海底捞针”。二. 方式TRACE 方式引入了却构化建模翻新:把视频懂得年夜模子的输出拆解成「时光戳 - 明显性分数 - 文本描写」三元变乱单位,实现因果变乱建模 —— 经由过程视觉输入、文本指令跟已有变乱猜测下一个变乱

I:文本指令,F:视频帧的输入,tk, sk 跟 ck:时光戳、明显性分数跟文本描写。咱们经由过程前提概率剖析发明,因果变乱建模可表现为自回归模子,存在特别的 token 次序。基于这一发明,咱们提出了视频年夜模子 TRACE(Temporal grounding via Causal Event modeling)。并且,TRACE 还为时光跟分数计划了公用的 tokenizer,就像给它们创立了特定的表征体系。如许,模子就能更正确地舆解跟天生时光戳跟明显性分数了,并为每个义务计划差别的编码器跟解码器头,解码器头能依据义务主动切换,从而进步团体机能跟顺应性。