当前位置: 首页  科学研究  学术交流  学术报告

计算机科学与技术学科机器学习与视觉研究所学术报告(李国荣 副教授 中国科学院大学)

发布者:戴 情   发布时间:2022-05-11  浏览次数:10

报告题目:基于层级结构的视频描述生成方法

报告人:李国荣 副教授(中国科学院大学)

报告时间2022512日(周1400-1500

报告地点腾讯会议ID:  850-140-157

摘要:视频描述任务致力于根据视频内容生成描述语句,因此视频的表征学习至关重要。现有的大多数方法仅利用标注语句逐字监督模型生成的语句,忽略了语句天然的层级结构。句子中包含天然的层级信息:单词、短语、句子,从不同粒度描述了句子的语义信息。为了利用这些信息,我们提出了一种层级模块化的网络,从实体、谓语、句子三个层面建模视觉与文本的关联关系,从而利用不用粒度的语义信息监督视觉特征的学习。在实体层面上,该网络选择视频中相对重要的物体,使之与实体名词相对应;在谓语层面上,所提网络学习视频中依赖于物体的动作特征信息,与句子的谓语相对应;在句子层面上,网络学习视频的全局表征,与句子的整体语义相对应。实验表明,所提模型能够学习更有效的视觉特征,进而产生质量更高的视频描述。

报告人简介:李国荣,中国科学院大学计算机科学与技术学院,副教授,中国科学院青促会会员。主要从事图像处理、计算机视觉、多媒体内容分析与检索等方面的研究,重点围绕群体数目估计、跨模态分析、视觉目标跟踪分割等方向开展工作,在IJCVTIPCVPRICCVECCVACM等国内外高水平期刊和会议发共发表论文70余篇,其中包括IJCVTIPTKDETCSVTTMM等在内的IEEE/ACM汇刊/CCF A类期刊会议论文30余篇,学术引用2000余次。担任IEEE高级会员、CCF高级会员,多次担任多个国际顶级期刊的受邀审稿人和国际会议的程序委员会成员。研究成果入选2021年度北京地区广受关注学术论文,并在相关企业得到应用验证。