蓝盟 IT 外包,从“渠道”中发现模特瓶颈! 从第一性原理分析深度学习

发布者:上海IT外包来源:http://www.lanmon.net点击数:1335


这些临时发现的骚动操作可以暂时解决目前的问题,但如果用起来性能还没有达到令人满意的水平,那可能会有点“盲目”。
虽然深度学习本身是积木类黑匣子模型,但这种调试方法仿佛深度学习真的变成了炼金术,而不是科学。
例如,如果训练集中的模型损耗远远低于测试时的损耗,则表示模型已经“拟合”。 此时,如果随意增大模型的参数量,只会浪费时间。 例如,如果模型训练类似loss和验证loss,则对模型进行正则化会浪费时间。
因此,在AI运营商遇到问题后,为了从根本上解决问题,最近康奈尔大学人工智能(CUAI  )的联合创始人Horace  He将深度学习模型的时间损耗分为三个部分,计算、内存和其他开销
其中,“计算”(Compute  )是GPU在计算浮点运算时消耗的时间,即FLOPS。 “内存”(Memory  )是将tensors写入GPU进行消耗的时间。
如果型号大部分时间都用于内存传输,则增加GPU流量是徒劳的。 或者,如果所有时间都用于执行大数学运算,那么将模型逻辑改写为c以减少开销也没有用。
了解你所处的状态,可以缩小优化范围,让你在节约的时间里愉快地摸鱼。
计算
通常,深度学习模型运算速度不够的原因是图形卡的性能不足。 添加卡片可以消除你的担心
但是,现实是粗壮,越强的卡价格也越美。 因此,为了花更多的钱,必须尽量提高显卡的工作效率,使显卡持续运行矩阵。
计算比存储器带宽更重要的另一个原因是最大限度地提高计算能力是提高效率,因为模型训练所需的计算量很少用任何方法降低。
但是,如果计算量过快,就很难使计算利用率最大化。 让我们来看看这个CPU  FLOPS翻倍和内存带宽翻倍的时间表。
考虑计算的一个方法是把CPU当成工厂。 用户向工厂发送指令(开销)和原材料(存储器带宽),所有这些都是为了维持工厂的有效运行(计算)。
如果工厂效率化的速度超过了提供原材料的速度,工厂就更难达到峰值效率。 即使工厂规模(FLOPS  )翻倍,如果带宽不同步提高,其性能也不会翻倍。


文/蓝盟IT外包

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部