,AI精彩集锦生成工具,只需输入球员并选定比赛场次

CVPR上诞生的技术逐渐“出圈”。

啤酒、烧烤、欧洲杯是这个夏天很多球迷的酷炫工具。但你可能没想到的是,那些精彩的进球花絮和明星的慢动作回放,可能是由人工智能制作的。

在今年的 CVPR 大会上,百度向我们证实了这一点。

他们的人工智能可以准确、实时地分割动作片段,例如进球、射门和犯规,而无需人工干预。基于此能力,团队开发了一系列应用工具并成功实现,包括:

1.自定义足球精彩片段生成器。只需输入一名球员并选择一场比赛,AI就可以自动生成视频精彩片段和球员精彩片段的慢动作回放。相关产品已经登陆百度百科的400多个足球运动员和球队页面。

2.足球图文、战报一键转换到视频平台。只需输入文字直播内容或直播间地址,AI即可智能聚合生成对应的视频内容。

3.基于图像场景识别的智能视频生产线。产线可以快速了解上传的长视频,检测是否有目标,准确定位视频中的目标时刻,完成自动剪辑。

最近,这些技术也帮助他们拿到了双重量级冠军。

在刚刚结束的CVPR 2021大会上,百度在SoccerNet-v2足球视频理解大赛的两项任务中均获得冠军,这是全球首个旨在全面理解足球比赛视频的比赛。

而且,这只是百度今年CVPR成绩单的一部分。

作为参加AI峰会多年的“中国军团”“老兵”,百度在今年的CVPR上再次刷新纪录:不仅入选了22篇优质论文,还获得了连续10次挑战冠军,去年8次夺冠。在实现新突破的基础上。

此外,百度还举办了重量级学术研讨会和Tutorial,并受邀在大会上做同声传译专题演讲和PaddleCV技术分享演讲。

这种全方位的发声方式,不仅让我们看到了百度在CV领域的研究和实施成果,也展示了公司在NLP、AutoDL等领域的前沿探索以及多领域的融合创新。

在本文中,我们将看看这些。

十大CV冠军,专注自动驾驶、智能交通、智慧城市、智能创造等多个赛道

CVPR 2021 涵盖了计算机视觉的多个领域。百度参与并在七项挑战中获得十项冠军。其中,六项冠军成果可加速自动驾驶、智能交通、智慧城市等领域的落地应用,部分成果可助力智能创造工具的打造。

六位冠军助力自动驾驶、智能交通和智慧城市应用落地

对于百度来说,自动驾驶可以说是CVPR舞台上的一门“传统艺术”。早在2018年,百度Apollo就占领了CVPR自动驾驶的主场;2019年,Apollo在CVPR上发布了国内唯一的自动驾驶纯视觉城市道路闭环解决方案——Apollo Lite。这些备受瞩目的时刻在今年的几场比赛中得到了延续。

今年夺得的十个冠军中,“语义分割、高分辨率人体分析、雾环境检测”赛道的三个冠军或将直接帮助百度加强自动驾驶能力。

以AutoNUE 2021挑战赛的语义分割赛道为例,重点关注街景图像的语义分割。与普通的语义分割数据集不同,街景数据集的对象更多,场景更复杂。针对这个赛道的问题,百度提出了基于CNN和Transformer的融合算法策略。通过异构模型的互补方法,实现了更强的驱动场景特征表达能力,从而提高了分割性能。针对稠密目标,百度提出了区域渐进算法,将稠密任务分成若干稀疏子任务,降低模型复杂度,加速模型收敛,提高测试准确率。到底,

除了复杂的街景,雾霾等极端天气也是阻碍自动驾驶落地的一大难题。今年的CVPR有一场雾霾天气的专项检测比赛——UG2+(SEMI-)SUPERVISED OBJECT DETECTION IN HAZE CONDITIONS。

在本次比赛中,百度使用了最新的Swin Transformer模型,以cascade-rcnn结构为基础模型,根据任务特点优化了anchor选择,提高了模型的识别能力。提高模型的泛化性能。此外,针对样本不平衡的问题,团队采用了基于样本分布的抽样平衡方法,有效提升了模型的性能。

上述比赛所展现出来的技术能力,或许已经在百度自动驾驶的过程中逐渐展现出来。目前,百度Apollo自动驾驶汽车可以应对早晚在车流密集的路口左转、让行人让行、车辆在车辆盲区突然冲撞行人和车辆等一系列长尾场景。想象。4月13日,百度Apollo获得北京颁发的中国首批夜间和特殊天气测试资质。机器之心在上个月还经历了一场雨中的 Apollo GO 自动驾驶汽车夜间试驾。

图片[1]-,AI精彩集锦生成工具,只需输入球员并选定比赛场次-老王博客

Apollo 车辆平稳地通过人流密集的十字路口。

除了自动驾驶,百度在智能交通和智慧城市方向的技术进步在第五届AI CITY智慧城市挑战赛中得到更多体现。AI CITY专注于交通相关的流量统计、重识别、异常事件分析等应用场景。一共有5首曲目。多次是百度的“私人场所”。今年,百度还拿下了流量统计和异常事件检测两个赛道。到冠军。

在流量统计任务中,比赛需要在终端设备上实施整体技术方案,在终端上对速度和效果指标进行综合评分。百度基于复杂场景交叉口车辆多目标检测与跟踪技术,实现了车道的交通统计,并通过模型的小型化和流水线的并行处理,实现了性能的全面提升和效果,最后拿下冠军。

在异常事件检测赛道上,百度采用双向多粒度融合异常检测算法,结合视频防抖、区域特殊提取、背景建模等预处理,通过车辆检测和跟踪跟踪判断异常,并集成崩溃判断逻辑准确找到最终得分的异常开始时间。

百度表示,此次赢得AI CITY挑战赛的技术已应用于百度自主研发的智能交通和智慧城市系统,集检测、跟踪、3D定位、分割、身份重识别、事件分析于一体。这种视觉技术是保障业务落地的坚实基础。

SoccerNet-v2 Challenge Champion 支持足球视频创作

前段时间,百度智能云携云智能一体化智能媒体产品及解决方案亮相第28届中国国际广播电视信息网络展览会(CCBN 2021)),展示一站式智能创作平台等媒体智能解决方案和创新应用。百度智能创作平台基于自然语言处理、知识图谱、视觉、语音等综合技术能力,为创作者提供多种能力,辅助新闻信息制作的策划、获取、编辑、审核、分发。过程。在今年的CVPR的SoccerNet-v2足球视频理解比赛中,平台相关技术再次亮相。

SoccerNet-v2 包含两个任务:动作发现和回放接地。事件定位的难点在于有些事件难以区分(如犯规、越位、射门、射门等),有些事件不是直接拍摄的,需要根据上下文进行推测。回放溯源的难点在于回放和原始事件之间可能有数百秒的时间间隔,而且拍摄角度往往不同,所以不容易匹配。

为了解决这些问题,百度研究院 VidPress 团队设计了一个两阶段的系统:首先使用特征提取器提取足球视频特征,然后将提取的特征作为特定任务模块的输入第二阶段。找到或播放源。其中,Transformer架构用于事件定位和回放回溯阶段。该架构在两个任务中体现了视觉语义特征的精确时间处理能力,优于基准算法中连体网络的学习能力和训练速度。

基于获得双冠王的SoccerNet-v2 Challenge的AI技术能力,百度已经支持了开头提到的应用工具,比如生成自定义足球花絮、一键转换足球图文等。和战斗报告。该技术能力也已基于智能创作平台实现。

PaddleCV:优秀的解决方案都应运而生

作为中国人工智能的“头鹅”,百度的计算机视觉技术研究早在11年前多媒体部门成立时就开始了。这帮助百度积累了全方位的技术能力,也为飞桨视觉模型库PaddleCV提供了强大的核心动力。

PaddleCV不仅包括经过长期行业实践打磨的主流机型,也包括百度在国际比赛中的获奖机型。在CVPR 2021的技术分享中,百度高级算法工程师为参会者详细分享了PaddleCV的技术报告。PaddleCV作为Paddle Paddle开发的视觉模型库,为开发者提供图像分类(PaddleClas)、目标检测(PaddleDetection)、图像分割(PaddleSeg)、文本识别(PaddleOCR)、图像生成(PaddleGAN)的视觉场景。多种端到端开发包和海量视觉定向模型,其中PaddleOCR和PaddleDetection开发包被能源、金融、工业、农业等多个领域的企业广泛使用。

PaddleCV 划桨全景

演讲、工作坊、教程,全方位展示AI前沿探索

作为计算机视觉和模式识别领域的世界级学术会议,CVPR不仅是业界展示领先科技成果的平台,也是探索学术前沿的平台。在CVPR举办的同时,百度不仅积极参加各类比赛,还举办了重量级的学术研讨会和教程,并受邀在大会上做同声传译专题演讲。

Workshop的主题是AutoDL的核心方向——NAS(Neural Network Structure Search)。在之前的 WAVE SUMMIT 2019 深度学习开发者峰会上,百度为在内存紧张、功耗有限、存储有限的设备上进行深度学习研究的开发者提供了一个巨大的惊喜——一个名为 PaddleSlim 的开源模型压缩工具库。除了支持网络剪枝、参数量化、知识蒸馏等传统方法外,PaddleSlim还可以通过NAS+蒸馏+量化一站式模型压缩,生产出业界领先的小模型。这些创新的方法包括百度开发的很多NAS算法。借助这些方法还有什么类似于bp神经网络算法的学习算法嘛,百度视觉团队近两年在CVPR、ECCV等国际赛事中获得七项世界冠军,并全面应用于各类业务。这体现了NAS在这个方向上的研究价值。

为推动NAS的进一步发展,百度联合悉尼科技大学、北卡罗来纳大学举办了CVPR 2021 NAS工作坊,还举办了首届国际轻量级NAS大赛,探讨NAS的现状和未来NAS。大赛从NAS研究的关键问题出发,设置了超级网络一致性、模型性能预测、未知数据三大赛道,吸引了来自全球59个国家和地区的600余支队伍参赛。本次大赛征集了众多优质NAS解决方案,其中清华大学基于飞桨的解决方案已在AI Studio和GitHub平台开源。在本次工作坊中还有什么类似于bp神经网络算法的学习算法嘛,获奖团队不仅宣讲了技术方案,同时还邀请了马毅、纪荣融、黄高、徐畅、Alan Yullie、Sara Sabour等国内外著名学者发表演讲,分享神经网络结构搜索技术(NAS)。该领域的最新发展和未来趋势。

百度CVPR 2021 NAS研讨会主席开幕致辞

本教程的主题是“基于能量的生成模型的理论与应用”。谈到生成建模,我们总是首先想到生成对抗网络。但近年来,人们对 ConvNet 参数化 EBM(基于能量的生成模型)的兴趣与日俱增。该框架解决了生成模型在表示、生成、效率和可扩展性方面的需求。具体来说,与当前流行的生成模型(如生成对抗网络、变分自编码器)不同,基于能量的生成模型可以将自下而上的表示和自上而下的生成统一到一个框架中,并且可以通过“综合分析”进行训练无需引入额外的辅助模型。这使得直接优化算法更容易。

本教程由百度美国研究院认知计算实验室主办,特邀美国加州大学洛杉矶分校统计学系教授吴颖念主讲。它全面介绍了计算机视觉中的基于能量的生成建模和学习,还列出了基于能量的生成框架成功解决的不同类型的计算机视觉任务,旨在帮助研究人员将基于能量的学习原理应用到计算机视觉的其他环境中。

教程目录

同声传译专题演讲的主讲人是美国百度研究院深度学习实验室主任黄亮。报告内容来源于他在ACL 2019大会上做的同名主题报告,其核心是百度研究院2018年同声传译的重大突破。高质量的同声传译首次成为可能,并将同声传译从一个冷门问题转变为自然语言处理的热门话题。在本次演讲中,黄亮教授介绍了其团队在此基础上取得的新进展。

现在,CVPR 2021 已经正式落下帷幕,会议中诞生的想法也在陆续进入现实世界。百度表示,在培养人工智能技术“内功”的同时,将通过以构建的飞桨和智能云为代表的人工智能平台,不断向各个行业场景输出技术能力和解决方案,进一步推动产业发展。智能升级。继续在中国乃至世界人工智能领域领先。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论