本网讯(大数据与统计学院 王丁)近日,大数据与统计学院数据科学与大数据团队青年教师宣寒宇与南京理工大学、法国国家信息与自动化研究所和美国伊利诺伊理工学院等国内外高校研究人员合作,揭示了多模态对比学习用于声源定位任务的有效性及其机理。相关成果发表在人工智能领域顶级期刊IEEE《模式分析与机器智能》(T-PAMI) ,安徽大学为第一单位。
图(a)跨模态实例鉴别和多模态MoCo示意图,图(b)基于跨模态实例鉴别和多模态MoCo的声源定位示意图
该项研究针对现有的基于图(map)的声源定位方法只能提供对声源位置的粗粒度和间接性描述、难以对大规模视听样本数据的分布进行有效推理、随机抽样构建的对比集包含大量错误负样本等关键问题,提出了两种新的基于提案(proposal)的声源定位方法,即xID4SSL和3MoCo4SSL,并提出了一种新的主动对比集挖掘算法,用于挖掘具有丰富信息和多样化的对比集。