
在自动驾驶时代,无论是对于汽车制造商、零部件制造商还是自动驾驶服务商来说,数据就是金钱,而相关的企业都深知这个公式。
去年,滴滴出行与比亚迪合作,推出了全球首款定制化网约车服务。
公司CEO程维表示,滴滴计划在2025年推出D3,普及100万辆具备自动驾驶功能的网约车;2030年,希望去掉驾驶舱,计划实现全自动驾驶。
今年年初,百度与吉利宣布合资成立新的网联智能汽车公司,基于后者的开放式动力底盘平台,结合百度人工智能、Apollo自动驾驶、小度车、百度地图等软件,目标是让每个人都可以使用自动驾驶汽车。
合资公司(极地汽车)CEO夏一平表示,公司打算以合理的成本,为千家万户提供4级自动驾驶技术,“就像别人希望普及电动汽车,我们也希望普及自动驾驶汽车。”驾驶。驾驶技巧。”
而这些企业,无论以何种方式进入“造车”,目的只有一个,希望打造属于自己的大规模数据训练和功能迭代闭环。
就像行业龙头特斯拉在量产中利用车辆的智能处理能力识别出非智能场景,并将数据回传迭代算法,不断提升自动驾驶能力,逐步打造自己的车辆。规模和技术壁垒。
另一方面,高质量的训练数据对于确保自动驾驶汽车的安全运行至关重要。这就需要行业加强审计,避免“垃圾进垃圾出”。
这就要求负责训练模型的团队不仅要面临自身专业性的挑战,还要面临保证数据标注过程质量的巨大挑战。
在这方面,Appen可以说是当之无愧的模范生。
解决市场困境
相关研究发现,在AI行业中,符合28法则的有两个层次。
首先,在同一种算法的应用中,同类型技术方案的公司会有很大差异。
这里的关键是数据量。同一算法对最终结果的影响,80%来自数据,20%来自技术。
总之,算法模型本身的优化在提高AI应用输出精度方面非常有限,而不同AI应用精度的关键区别在于是否有大量高质量的训练数据。
其次,很多AI或者算法公司在做研发的时候,80%的时间或者人力需要用来处理数据,只有20%用来处理算法和代码。
事实上,这种做法是不合理的。为了提高整个系统的健壮性,工程师应该更多地关注算法或应用层面,而在数据层面,更专业的供应商可以帮助他们提高质量和效率。
另一方面,目前用于人工智能研究的算法基本都是基于机器学习和神经网络算法。在实践中,训练数据的准确率至少要达到 90%,有些项目甚至要求 99.@ >9% 的准确率。
比较难的部分是,这不仅仅是对某一批数据的要求,而是要不断满足这个要求。
有业内人士表示,人工智能在自动驾驶领域的部署需要大量高质量的训练数据,需求增长迅速,需求和场景越来越多样化,难度越来越大。
随着行业需要从 2D 平面图像转向 3D LiDAR 数据,行业对标注人员的专业性要求也随之提高。
在完成这些数据任务时,标注者可能会面临诸多挑战,包括:内部标注者不足和引入偏差问题,在时间限制下难以达到所需的规模和准确性。
此外,当前数据行业各类服务商水平参差不齐,优质头部数据服务商服务资源稀缺,CR5的集中度仅为20-30%。
该行业还普遍缺乏执行复杂注释项目所需的专业工具。这无疑给数据质量带来了更多挑战。
“这也是澳鹏本身的初衷。” 澳鹏中国市场开发高级总监董程说。
作为澳大利亚上市公司,澳鹏自1996年成立以来一直专注于人工智能训练数据领域。
目前,他在语音、文本、图像和视频标注领域积累了25年以上的经验。服务范围覆盖170多个国家,235+种语言。全球正式员工1100+,全球众包资源100万+。截至 2020 年,该公司的收入已达到 4.1 亿美元。
其中国分公司成立于2019年,总部位于上海,在无锡、大连、北京设有配送中心和分公司。业务覆盖全中国及亚太地区,拥有1000多名配送人员。
目前澳鹏的合作客户已覆盖国内领先的大型互联网公司和高科技企业。
作为数据行业的优质典范,澳鹏具有强大的交付能力和资源管理优势,服务于数百个客户和项目。
澳鹏无锡和大连交付中心经验丰富的交付团队处理过2D和3DLiDAR等各种数据以及不同客户的业务需求。汽车2D、3D点云周投放能力超百万帧;卓越运营中心的管理模式 持续的高质量交付有保障。
在自动驾驶领域,澳鹏高精度、高性能的自动驾驶工具套件也是其为客户构建海量数据资产的有力工具,这也是澳鹏的核心优势之一。
数据质量全面保障
为适应瞬息万变的市场形态,澳鹏构建了完整的数据质量生命周期管理系统,可实现实时自动数据采集、标注、模型训练、数据可视化、模型部署和再训练。模型再训练和改装。
其自主研发的人工智能辅助数据标注平台可支持像素级语义分割、2D图像复合标注、3D点云绘制及语义分割等功能。
采集贴标一体化任务迭代尺度算法中的w收敛,实现采集-质检-贴标-质检-客户验收双向协同流程,使整个数据生产线的各个环节无缝衔接。
内置多轮质检模块,可按需配置,满足不同复杂度项目的需求。
2D图像合成标注是全结构化模型训练工具,支持点、线、框、多边形融合标注(常用工具有单模、点、线或折线、多边形)和连续框;
此外迭代尺度算法中的w收敛,该工具还支持像素级语义分割,可以标记图像中的目标对象实例,保证像素级质量。其中丰富的可配置选项可灵活处理id,实战中每张图10分钟即可完成。
澳鹏中国市场开发高级总监董诚介绍,澳鹏采用机器学习辅助标注等技术手段提升数据质量。通过预识别系统,先对算法进行预识别,然后根据结果进行人为调整。质量显着提高。
例如,在 3D 点云数据中,由于车道线(环岛、交叉口)的多样性以及外部光照和车辆遮挡的影响,3D 点云数据中的车道线标注一直是一个困难且耗时的课题。澳鹏3D点云车道线自动识别的开发是解决这一问题的重大突破。
“我们的3D点云拉框可以支持自动拟合、连续框映射、3D/2D融合标注,具有目标预识别功能,灵活配置数据有效性验证规则,客户直接上线的最小交付粒度。接受和返回无缝。在实战中可以达到99.@>9%的准确率和1秒/帧的速度质检。澳鹏中国市场开发高级总监董程说。
此外,在每个澳鹏项目中,除了有专职项目经理外,还有专职的QA/质检人员、Team Leader等对品控进行把关;大部分项目采用多轮质检计划来保证数据。质量无限接近完美。
值得一提的是,澳鹏对安全合规性的要求非常高。除了完善的数据安全管理流程外,澳鹏还设立了DPO(Data Privacy Officer)来保障数据安全。
所有项目在签约和立项前均需经数据合规官审核批准,并在项目执行过程中根据数据合规要求采取相应的数据保护措施。
“我们对人工智能模型使用的数据给予最大的关注和保护,并致力于为客户提供最高级别的数据安全标准,符合全球多项严格的数据安全认证。
同时,我们的平台每天都会进行漏洞扫描,最大限度地保障客户数据资产的安全。”澳鹏中国市场开发高级总监董程说。
平台具有权限控制、数据加密传输、PII信息加密存储等严格的数据安全管控策略。交付管理包括:定期对平台进行系统漏洞扫描,避免恶意代码/病毒攻击;24×7 全球 IT 支持团队和应急响应团队确保及时响应 IT 事件等。
目前,澳鹏已在全球获得ISO27001安全认证,包括位于上海的商业和研发总部,以及位于无锡和大连的数据服务交付中心。
在全球范围内,澳鹏还通过了GDPR、SOC 2 Type II、HIPAA等不同国家和地区的数据安全合规认证。
一位与澳鹏合作的客户负责人表示:“澳鹏与我们的团队合作得非常好,它的平台帮助我们确保根据项目的需要不断优化流程。我们也期待这个试点项目能够投入生产。尽快。”
请登录后发表评论
注册
社交帐号登录