X

全球AI顶会比赛前五,恭喜我的同事们

近日,天翼云研发三部AI算法团队在第五届UG2+挑战赛中获得了第五名的好成绩。这是天翼云首次在国际AI顶会比赛中崭露头角,意味着天翼云的科研实力位居世界领先行列。

UG2+挑战赛由 CVPR主办,IEEE国际计算机视觉与模式识别会议(CVPR) 是全球计算机视觉三大顶会之一。

今年,第五届UG2+大赛围绕雾霾条件目标检测、黑暗场景视频行为识别、大气湍流失真图像模糊缓解三大方向,面向全世界进行赛队招募,共吸引了海内外上百支优秀队伍,包括NVIDIA,新加坡南洋理工大学等人工智能企业、高等院校及科研机构队伍参赛。

天翼云研发三部AI算法团队首次参加该比赛,在第二赛道“黑暗场景视频行为识别”以87.43%的Top 1分类准确率,一举夺得第五名的好成绩。

该赛道中,主办方提供了来自 HMDB51、UCF101、Kinetics-600和 Moments in Time数据集的精选子集,其中包括11个类别标签(喝酒、跳跃、捡、倒、推、跑、坐、站、转、走和挥手)共 2625 个清晰视频,以及另一组来自ARID (Action Recognition In the Dark)数据集中11个相同类别但无标签的黑暗场景视频共3088 个作为训练集。

下图显示了ARID的全部动作类别的视频剪辑样例。视频分辨率为320*240,最短的剪辑长度是1.2秒,相比传统在白天情况下清晰的视频识别,黑暗场景下的图像识别难度很大。

参赛队伍需使用人工智能技术将黑暗场景的目标视频分类到11个类别中,评价指标是测试集上的Top1分类准确率。

为了提升黑暗场景下的行为识别模型的鲁棒性,天翼云研发三部AI算法团队使用图像增强方法对黑暗视频进行预处理,让图像从曝光强度的线性响应变成更接近人眼感受的响应,提升暗部细节。代表队对比了现有的先进视频分类算法(R3D,X3D,Timesformer,Slowfast,UniFormer,i3D等),进行网络和训练参数优化,并结合Multigrid方法加速模型训练。由于在黑暗环境下拍摄的视频具有低亮度和低对比度等特点,而通过图像处理合成的暗视频不能很好的模拟低对比度特性,所以这种合成的暗视频不能直接应用于模型训练。

天翼云研发三部AI算法团队利用CycleGAN做风格迁移,生成黑暗视频来进行数据增强,并采用半监督算法同时利用清晰视频和黑暗视频,联合使用自适应损失和标记数据的交叉熵分类损失进行模型优化。经过两个月的算法与模型优化,天翼云研发三部AI算法团队将黑暗场景下图像识别率提升了4倍。最终在未知的黑暗视频测试集上的top1分类准确率达到87.43%,夺得了第五名的好成绩。

该视频分析技术有较高的应用价值,可应用在夜间安全监控场景中,适用于大雨、大雾、雾霾等恶劣天气下的图像处理与视频分析。

通常夜间工作的安全摄像头没有充足的光线,难以捕捉连肉眼也无法识别的动作。尽管可借助红外成像传感器等其他手段识别暗夜环境中的动作,但其成本较高,大规模部署不够经济。因此,探索对黑暗具有鲁棒性的视频分析技术,从黑暗视频中提取有效的动作特征,对精准且经济地做好安全监控工作意义重大。

小到行程码识别,大到智慧城市建设,一直以来,天翼云探索视频智能分析和图像处理相关技术,自研算法通过天翼云诸葛AI平台产品赋能千行百业。目前,天翼云研发三部AI算法团队,在起草制定人工智能相关行业标准的同时,已完成百余项核心算法的自主研发。未来,天翼云将继续发挥云上数智优势,努力打造央企云计算原创技术策源地。