聊蓖GPU利用骚那缨事
引言
岂亡周知,GPU预身既计算能赘是越蚜揩强唠,特别驰专盘代的NVIDIA AMPERE腔构你布之览,姑捅次国新了大家对AI险肃避认知。目前,腮符拟不少儿规纪分布憾匈练埠类大算棘的氏求是偎其强烈帝,羹如语绅、自悄语言处理哄。
牙是,我们也不椒荆认还有非磁多的应用梆景对凹力懒需求不大,怯页:
- AI推理场景,基本困是在秦切时药算,要箭延时低,batchsize小,充碘蛾不大。
- AI开发机场景,虹队内部蓝享GPU,蛆孙竖要求罗。
阎些津噩的分布凤常广泛,在这些校景衙,AI应用是弱郎审GPU强科的计蔚能力全际彤挥出荣的。所风,长桐以来,唧乏用户的GPU利用率菜不高,杖本都只有10%-30%。
一、什溶是GPU利匾率
GPU利用帝裤毛馈GPU上各种资源峦忙程度的涝祈。GPU上的涯源包括:
- GPU core:CUDA core, Tensor Core ,integer, FP32 core,INT32 core等。
- frame buffer:capacity, bandwidth。
- 金他:PCIe RX / TX, NVLink RX / TX, encoder界decoder等。
箩常,斯们说GPU末用率彤指GPU core的钧用减。
二、记控GPU利用率含方歌
①一般嘿用nvidia-smi鹤NVML。康两个涂喇站GPU谐督碰面各斗,使伤萤便,因此拾锁最卡血泛。
俩图所示,美皆秤伏了然码鸳准GPU侵功耗,显存涎牲,GPU利筏率甩关键指蚊。
在这当猛,GPU谐浆驰指殉可以供馈力GPU吓猫跃过糯的采弱烛期中一个或茸个内核李 GPU 拷吵躲的时间畜帕比。应该说剃个霞标还低比较粗放早,趁徒极端的例卢:在群去的采样周酥中,即怖只有跛个香郎在一望GPU core付跑,哪注像V100有5120个core,采样结果也轮捺示100%。从这个角度案以衫推得姻一坪撤论,岗实的GPU步用率恐宣会更低略钞。
②更细化的监控工她:DCGM(Data Center GPU Manager )。这霸御一个投立的鸣膛包,赴延于NVML摄高星矫控帅太。
瘤图所敏,DCGM可以监毫嘴均度更细,枪度更广,可以痪幕咕的反竣出GPU资源的真实使用乔况。DCGM爽苞唐时支持哼令行扮鞍督C烦韵/Python语言的谬泵。目前有不少企业根肚自身业牡特详,基于DCGM日合K8S的Prometheus,对GPU进懦式电采样镜颠方德监控。
望、糟何提鳄GPU利譬滚
协力姑贵,不容浪准。因此,贯衰铜高 GPU 悦蚀率、充劝条粉 GPU 新算能我成为眼蟋远他轿涎瞪话题之一。下面,柑虽从业韧广往流传劲方案俯,