发布者:上海IT外包来源:http://www.lanmon.net点击数:1447
蓝盟IT小贴士,来喽!
在人工智能/机器学习环境中,使用内部部署或直接连接存储(DAS )创建计算服务器群集并不常见。 即使共享存储使用容量并且工作负载均匀分配给计算节点的效率很高,许多组织也希望以这些效率为代价消除计算节点和共享存储之间的网络延迟。
NVMe光纤网络(NVMe-oF )是专为基于内存的存储设备(如闪存和非易失性内存)设计的下一代网络。 这提供了与DAS NVMe几乎相同的延迟。 NVMe深度命令和队列深度非常适合高度并行的工作负载,并且人工智能/机器学习可以是所有工作负载中最并行的技术。 NVMe-oF专为内存存储设计,但专为人工智能/机器学习而定制。
如果NVMe-oF能够解决计算和存储之间的延迟问题,将启用第二个要求,即共享存储。 使用NVMe-oF连接的共享存储解决方案,工作负载可以从共享存储的所有自然属性中受益。 首先,所有节点都可以访问所有数据意味着工作负载可以更均匀地分配计算负载。 这意味着具有图形处理单元(GPU )的节点可以访问所有数据。 由于GPU的价格远远高于CPU,因此当务之急是让GPU处理负荷,共享存储使这项工作更加简单。
测量几十到几百PB的工作负载容量需求可以通过提高存储效率显着降低成本。 在每个计算节点都有专用硬盘的群集中,IT团队无法轻松地将可用存储容量分配给群集中的其他节点。 直接连接存储(DAS )机型没有资源池,这意味着制造商无法有效地使用大容量的硬盘。 目前,双工节点(计算和存储)可能包含16TB闪存驱动器或18TB硬盘,并且可能无法在单个节点上使用。 如果人工智能/机器学习存储体系结构从专用服务器集中使用这些硬盘,则可以进行更精细的分配。 人工智能/机器学习工作负载需要直接访问存储节点以满足性能要求,以及扩展以满足容量要求。
并行访问意味着存储基础设施内的每个节点提供对人工智能/机器学习集群中的每个计算节点所需的数据的直接访问。 各个控制节点不会成为瓶颈。 高级并行性对于人工智能/机器学习至关重要,因为需要同时访问存储池的计算节点很多。 这样的并行性使硬盘能够成为人工智能/机器学习存储基础设施中的组件。 并行文件系统几乎需要客户端或代理,但该代理通常不仅提供并行访问,而且需要比常规NFS协议更少的开销。需要并行访问才能进行处理,但另一个要求是多协议访问,对于将数据提取到存储基础架构尤其有用。 许多人工智能和机器学习项目正从物联网(IoT )设备接收数据,并且这些设备通常需要与所附的协议通信。 许多设备通过服务器消息块(SMB )或网络文件系统(NFS )进行通信,使用S3分组。 更重要的是,很少有人使用本地并行文件系统客户端。
分享到: