精选文章 图森未来如何借助云缩短60%模型训练时间

图森未来如何借助云缩短60%模型训练时间

作者:一肥仔啊 时间: 2020-08-05 05:30:01
一肥仔啊 2020-08-05 05:30:01

简介: 阿里云飞天AI加速器+Serverless容器,帮助图森未来提升资源利用率。

图森未来如何借助云缩短60%模型训练时间1

图森未来(TuSimple)成立于2015年,是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。
公司于2019年9月完成总额2.15亿美元D轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过3亿美元,最新估值超过12亿美元,是卡车无人驾驶头部企业,也是全球第一家无人驾驶卡车独角兽企业。
图森未来的业务主要在美国和国内两地展开,在美国主要是高速公路干路货运场景,国内业务开始以连接枢纽场景的干线物流货运为主。

在美国,图森未来已经向包括UPS、USPS、McLane、U.S. Xpress在内的18家客户提供无人驾驶物流服务。
今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的情况下,自动自我调整,化险为夷,避让既礼貌又安全。
国内方面,2018年 10月,图森未来拿到国内第一张针对无人驾驶卡车在公开道路测试的测试牌照。依托上海市政府的政策支持,以及临港片区真实场景的需求,图森未来的无人驾驶卡车已经在东海大桥上进行了长时间的测试,截至2020年7月,累计测试里程已超过5万公里,具备了在东海大桥上不需要接管的无人驾驶能力。

图森未来如何借助云缩短60%模型训练时间2
(在港口卸货的图森未来自动驾驶卡车)

在北京,图森未来携手北汽福田、首发集团等合作伙伴,实现了在京礼高速(延崇北京段)总长14公里(包括9.8公里连续特长隧道群路段)的三车无人驾驶队列跟弛测试,顺利完成中国首次高速公路全封闭环境下、基于C-V2X车路协同技术的队列跟驰测试工作。

飞天AI加速器提升训练性能,加速模型迭代
一台车自动驾驶卡车,两个星期会产生大约50TB的数据。图森未来目前有超过70台卡车在上路,意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明,就需要不断地积累更多的真实数据集训练它目标检测与物体识别框架的能力。
随着业务高速发展,迭代越来越快,图森未来的模型也越来越复杂。每次模型迭代,都需要短时间调度大规模的GPU资源来分布式地进行模型训练。
然而,GPU服务器采购成本高,运维复杂,图森未来不得不投入越来越多的精力到运维工作中;更重要的是,图森未来发现,随着所用GPU数量增长,GPU的利用率却并不高。
为什么会这样?理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。
阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。
图森未来如何借助云缩短60%模型训练时间3

飞天AI加速器是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

Serverless容器,提升仿真测试效率,缩短60%模型测试时间
每次迭代的模型训练完成之后,图森未来需要对优化后的模型进行测试。如果每次都要上路测试,成本大、风险高、而且不能验证各种极端情况。
幸亏,图森未来有个汽车仿真平台,模拟在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚),模型的处理能力。
这种测试任务依赖开发人员的开发节奏,具有突发、临时、短期的特征,并且需要的算力规模非常大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需求来了可能算力又不够用,仿真模拟任务需要排队完成,影响开发人员的开发效率和模型的迭代速度。
由于图森未来的整体业务架构早已实现容器化,为这类临时高峰场景做好了敏捷的业务储备。通过阿里云ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森未来可以在需要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩短了60%的模型测试时间;完成测试之后迅速释放算力,避免资源浪费。
阿里云ASK是Serverless免运维的K8s容器服务,底层使用阿里云ECI(Elastic Container Instance弹性容器实例)作为容器计算基础设施,提供高弹性、低成本、免运维的Serverless容器运行环境,免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。
图森未来如何借助云缩短60%模型训练时间4
另外,ASK的计费粒度精确到秒,非常适用于仿真计算这类突发的高并发短时任务;针对长期的训练任务,图森未来则使用包年包月的ACK(Alibaba Cloud Kubernetes)。通过适用于长短任务的ACK+ASK产品搭配,即提升了图森未来的资源利用率,又节省了成本。

勿删,copyright占位
分享文章到微博
分享文章到朋友圈

上一篇:爬虫所使用的的HTTP代理是什么?

下一篇:目标检测与位姿估计(三):深度信息获取解决方案

您可能感兴趣

  • 云端俭省之道 — 竞价实例篇

    云端构建大规模系统的挑战 云计算平台“按需获取”的特性使得用户可以随时获取所需计算资源,实现计算资源与业务规模的动态匹配。云计算时代计算资源已不再是构建大规模系统的瓶颈,多数情况下成本成为了企业在构建大规模应用时的最大挑战。 如何降低云端系统的成本 降低云端系统的成本,最核心的就是要充分利用云计算的特点,尤其是“按需获取”和“按使用付费”。例如,根据业务量变化来及时伸缩计算资源就是常见的降低...

  • 收藏!NLP在金融投资领域的应用

    标星★置顶公众号 爱你们♥ 作者:泰极 | 华泰证券数字科技 1 引言 2017年被称为中国金融科技的元年,这两年来,以人工智能为代表的新技术对金融业产生越来越重要的影响,人工智能不是一个新名词,在历史的长河里,它从人们曾忘却的暗流慢慢汇聚成今天的大江大河。自然语言处理作为人工智能的支流,也随着它的发展浪潮逐渐展现它的潜能。这次浪潮如此之大,让全球的金融行业都感受到它的湿意,虽然人工智能不能...

  • A Comprehensive Survey on Graph Neural Networks(图神经网络综述)

    目录 摘要 1.引言 2.定义 3.分类和框架 A.图神经网络(GNN)的分类 B.框架 4.循环图神经网络(GRN) 5.卷积图神经网络 A.基于频谱的ConvGNNs B.基于空间的CGNN C.图池化模型 D.理论方面的讨论 6.图自动编码器 A.网络嵌入 B.图生成 7.时空图神经网络 8.应用 A.数据集 B.基准和开源实现 C.实际应用 9.未来方向展望 10.结论: 名词解释 ...

  • 吐血整理!万字原创读书笔记,数据分析的知识点全在这里了

    导读:今天这篇文章是「大数据」内容合伙人JaneK关于《Python数据分析与数据化运营》的一篇读书笔记。在大数据公众号后台对话框回复合伙人,免费读书、与50万「大数据」同行分享你的洞见。 作者:JaneK,希望能够成为数据分析师 本文目录: Python数据分析与挖掘 01 基本知识 02数据获取 03数据预处理 04 分析与挖掘方法 Python数据化运营案例 05 会员数据化运营 06...

  • 美通企业日报 | 高交会新产品新技术发布活动将达70场;短视频招聘平台多面上线...

    今日看点 2019年高交会于11月13-17日在深圳会展中心举行。今年新产品新技术发布活动场次计划安排约70场,其中包括10场精品发布活动。届时海内外重要机构、企业和嘉宾将采用主题演讲的形式发布各自的新产品和新技术成果,让参展商和观众能够全面地了解到最前沿的高科技产品和技术研究。 匹克在天猫双十一创下同比增长703%的记录。双十一匹克:6分钟,超去年全天销售额;1小时,匹克“单品之王”态极1...

  • PyTorch 和 TensorFlow的区别

    自 2012 年深度学习重新获得重视以来,许多机器学习框架便争相成为研究人员和行业从业人员的新宠。从早期的学术成果 Caffe 和 Theano ,到背靠庞大工业支持的 PyTorch 和 TensorFlow,大量的选择让我们很难跟踪最流行的框架到底是哪个。 如果你平常只看 Reddit,可能会认为每个人都在切换到 PyTorch。如果根据 Francois Chollet 的Twitte...

  • 一文读懂人脸识别技术

    2019-08-27 17:06:26 本文内容涵盖人脸识别发展历程、市场研究、核心技术、商业应用以及产业落地、个人看法等干货研究。注意,本文干货满满,约有2万7千字,强烈建议大家先收藏后学习! 01 发展史 1. 人脸识别的理解 人脸识别(Face Recognition)是一种依据人的面部特征(如统计或几何特征等),自动进行身份识别的一种生物识别技术,又称为面像识别、人像识别、相貌识别、...

  • 德勤全球AI发展白皮书:八大新趋势+三个关键技术

    关注ITValue,看企业级最新鲜、最具价值报道! 图片来源@视觉中国 | 文章来源@世界人工智能大会 | 前沿导读:目前AI已在金融、医疗、安防等多个领域实现技术落地,且应用场景也愈来愈丰富,正在实现全方位的商业化,引发了各个行业的深刻变革,这对加速企业数字化、改善产业链结构、提高信息利用效率等方面都起到了积极作用。与此同时,AI也已全面进入机器学习时代,未来AI的发展将是关键技术与产业的...

华为云40多款云服务产品0元试用活动

免费套餐,马上领取!
CSDN

CSDN

中国开发者社区CSDN (Chinese Software Developer Network) 创立于1999年,致力为中国开发者提供知识传播、在线学习、职业发展等全生命周期服务。