北京时间6月25日,在刚刚落下帷幕的CVPR2021上,字节跳动与合作院校的14篇论文入选,方向涵盖神经网络架构搜索、图像修复、行为识别等,并在移动目标检测、细粒度图像识别、视频分类等多个计算机视觉细分领域的竞赛中优势夺冠。
CVPR(Conference on Computer Vision and Pattern Recognition,计算机视觉模式识别大会)与ICCV、ECCV并称为计算机视觉领域三大顶级国际性盛会。近年来,CVPR的论文投稿量持续增加,CVPR2019的有效投稿为5160篇,CVPR2020年增长至6656篇。本届CVPR的论文有效投稿量再创新高,多达7500篇,接收率仅为23.7%。
计算机视觉是一门研究如何使机器“看”的科学。英国机器视觉协会(BMVA)对机器视觉的定义是「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。借助云计算等新技术的推动,在一些场景下,计算机系统快速检测视觉输入并做出反应的准确度甚至胜过人类。从工业质检到医学成像,计算机视觉技术可深度应用到各行各业,被视为人工智能实现的关键。
近年来,字节跳动在CVPR等顶级学术会议及核心期刊的论文发表数量逐年增加。在神经网络架构搜索、目标检测等前沿领域,字节跳动技术团队的相关重磅论文被收录进CVPR2021口头报告(Oral)。
其中,“HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers”在神经网络架构搜索(NAS)领域,突破性地提出了一种新型网络框架。与此前的技术相比,新框架可以适用于图像分类、分割、检测等多种计算机视觉任务,较好地解决不同的计算机视觉任务对不同分辨率模型的需求。
“Sparse R-CNN: End-to-End Object Detection with Learnable Proposals”提出了基于可学习候选框的端到端的稀疏目标检测器。这一全新的检测范式既突破了当前目标检测领域主流方法的技术局限,又保证了检测的速度和精度。
另外,在图像修复这一实用性较强的领域,字节跳动此次也有两篇论文入选。标题分别为“Progressive Temporal Feature Alignment Network for Video Inpainting”和“Human De-occlusion: Invisible Perception and Recovery for Humans”。上述论文针对视频中常见的,涂抹掉任意区域/物体后填充自然背景,以及人像合照顺序替换、修补等问题,提出了更加优化的技术方案。
值得一提的是,在与学术会议同时进行的CVPR2021 workshop竞赛中,来自字节跳动的多支团队表现出众。其中,四支团队以绝对优势夺得了移动目标检测、细粒度图像识别、视频分类等前沿领域竞赛项目的冠军。
据悉,目前,字节跳动已将部分计算机视觉前沿技术落地应用在头条寻人、经典电影修复、物种识别等社会公益、文化和科普领域。(永文)