Blackwell B200 — сверхмощный GPU для ИИ от NVIDIA, новый шаг в развитии нейросетей
На конференции GTC 2024 компания Nvidia представила новое поколение искусственного интеллекта на графических процессорах с архитектурой Blackwell. По заявлению производителя, эти новые ускорители позволят создавать еще более масштабные нейронные сети, включая языковые модели с триллионами параметров, и при этом будут до 25 раз более энергоэффективными и экономичными по сравнению с Hopper.
Архитектура GPU Blackwell получила название в честь американского математика Дэвида Блэквелла и включает в себя ряд инновационных технологий для ускорения вычислений. Эти технологии будут использоваться в обработке данных, инженерном моделировании, автоматизации проектирования электроники, квантовых вычислениях и генеративном искусственном интеллекте. Глава Nvidia Дженсен Хуанг отметил, что графические процессоры Blackwell станут двигателем для новой промышленной революции.
Новый графический процессор B200, разработанный Nvidia, объявлен самым мощным чипом в мире. В вычислениях FP4 и FP8 он обеспечивает производительность до 20 и 10 петафлопс соответственно. B200 состоит из двух кристаллов, произведенных по специальной версии 4-нм техпроцесса TSMC 4NP и объединенных 2,5D-упаковкой CoWoS-L. Это первый GPU Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. В общей сложности новинка насчитывает 208 миллиардов транзисторов.
На стороне кристаллов GPU разместились восемь стеков памяти HBM3E общим объемом 192 гигабайта с пропускной способностью 8 Тбайт/с. Для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения с пропускной способностью до 1,8 Тбайт/с в обоих направлениях. С помощью этого интерфейса в одну связку можно объединить до 576 GPU.
Основными источниками повышения производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более точно подбирать необходимую точность вычислений для различных задач, что положительно сказывается на скорости обучения нейросетей и их работе. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватает FP4. Однако Blackwell поддерживает работу с различными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64.