BetVictor Sports(伟德体育)国际官网(访问: hash.cyou 领取999USDT)
在“Volta”V100 GPU 一代中,2017 年 5 月推出的 DGX-1 设计或多或少保持不变,系统的价格标签——Nvidia 曾经给出过价格,还记得吗?– 与 FP32 和 FP64 CUDA 核心上 41.5% 的性能提升相比,提升了 15.5%,在称为张量核心的新事物上,半精度 FP16 数学性能提升了 5.7 倍,从而使性能提升了 79.6%在这种精度下的降压。它还提供用于 AI 推理的 INT8 处理。
“这就是让它成为可能的原因,”Nvidia 联合创始人兼首席执行官黄仁勋在对 Blackwell 机架规模设计进行组装和拆卸时解释道。“那是背面,DGX NVLink 主干,130 TB/秒传输到该机箱的背面 – 这超过了互联网的总带宽,因此我们基本上可以在一秒钟内将所有内容发送给每个人。因此,我们有 5,000 根 NVLink 电缆——总共两英里。这是令人惊奇的事情。如果我们必须使用光学器件,我们就必须使用收发器和重定时器,而仅这些收发器和重定时器就需要花费 20,000 瓦(光是收发器就需要 2 千瓦)来驱动 NVLink 主干。我们通过 NVLink Switch 完全免费地完成了这项工作,并且能够节省 20 千瓦的计算电量。整个机架有 120 千瓦,因此 20 千瓦会产生巨大的差异。”
Buck 向我们解释说,这实际上并不是一个计算问题,而是一个 I/O 和计算问题。通过这些Expert modules的混合,可以实现更多层的并行性以及这些层之间和内部的通信。数据并行性——将数据集分成块并将部分计算分派给每个 GPU——这是 HPC 和早期人工智能计算的标志。然后是张量并行性(跨多个张量核心打破给定的计算矩阵)和管道并行性(将神经网络处理层分派到各个 GPU 以并行处理它们以加快速度)。现在我们有了模型并行性,因为我们有一组专家进行训练和推理,这样我们就可以看到哪一个最擅长给出这种答案。
顺便说一句,其中 8 个 GB200 72NVL 机架现在包含一个 SuperPOD,您可以将它们与 800 Gb/秒 InfiniBand 或以太网互连,或者进行实验并链接半排机架中的所有 576 个 GPU,以创建更大的共享记忆系统。后者的网络费用可能几乎与计算费用一样大。但是,有了 576 个 GPU 内存和计算域,这可能是值得的......毕竟,几年后,该行将成为新节点。根据当前趋势,大约两年后。不久之后,数据中心将成为新节点。
HASHKFK