如何在端侧高效部署AI模型，来自 NVIDIA 和百度的共同解答

人工智能、物联网相关开发都是当下的流行趋势，当开发者们在思考 AI 落地时，往往会遇到以下几个问题：

1为了适配边缘部署要求，AI 算法怎么做适配？

2在模型效果和效率之间怎么做平衡和取舍？怎么在不牺牲效果的前提下提高效率？

3AI算法上线后怎么持续做迭代？

本周三、周四晚间20:15-21:30，来自百度和 NVIDIA 的技术专家将为您解答以上 AI 端侧部署“三问”：模型如何跑起来、跑得快、持续跑？

“跑起来”—— 适配、适配，还是适配！

我们都知道现在是人工智能时代，越来越多的 AI 需要从云端扩展到我们熟悉的边缘端，比如智能耳机、智能摄像机、智能手环、物流机器人等等，把AI部署在边缘端已经成为趋势，这也正式嵌入式 AI 要做的事情。而我们关心的AI模型能不能跑起来问题，关键在于软硬件环境的适配情况：

▶ 硬件适配，当然是适配越多的 AI 芯片越好。

▶ 软件适配，四大操作系统肯定不用说要适配。Linux、Windows、Android 、iOS，无论是 PC 还是手机，都得能给安排上；

▶ 框架适配，越全越好。我们知道的飞桨 PaddlePaddle、TensorFlow、PyTorch、Caffe、MXNet 等框架以及 ONNX 模型格式。此外，还要支持图像分配、物体检测、人脸识别、OCR 等业界主流的算法类型，这样在模型的适配和转换方面可以轻松自如。

“跑得快”——“轻装上阵”，不以牺牲精度为目的

想要一个速度快、精度高、占用内存少的模型，该怎么办？

为了让模型跑得更快更省内存，我们可以采用模型压缩，比如模型量化、剪枝和蒸馏技术 ,让模型轻便地跑起来，在尽可能保证效果的同时达到更好的压缩效果。蒸馏可以简单理解为，通过大模型蒸馏小模型，使得小模型具有与大模型接近的效果。而量化、剪枝本质都是对基础模型在尽量不影响精度的前提下进行精简 , 自然模型小了 , 内存占用就少了 , 推理时间也就短了，功耗也更低。

“持续跑”——部署并非一劳永逸，AI要自我迭代

模型的部署不是一劳永逸的，我们需要根据客户需求或者实际的业务场景进行迭代升级，需要在应用中收集样本、不断更新模型。

其实，最简单的模型维护方式就是不断添加新数据，或者在添加的基础上做进一步数据增强，从而提升模型迭代的精度。比较好操作的方法就是把新的数据添加到原有的数据集，从而让模型持续优化。

9月15-16日，邀请您参加百度 AI 快车道-BML 线上课程，百度技术专家将联合 NVIDIA 解决方案专家一起探讨如何在端侧高效部署 AI 模型，诚邀您的参与。

▶ 参与百度 BML 线上直播互动，可抽取 Jetson Nano、小度耳机、智能音箱、体脂秤等好礼。

▶ 课程结束体验产品并完成 “产品体验调研报告”，可获得 100 元京东卡奖励。

*本文转自 NVIDIA开发者社区

相关文章

发表回复 取消回复

发表回复取消回复