Роман Цапик

Blackwell B200 — сверхмощный GPU для ИИ от NVIDIA, новый шаг в развитии нейросетей

На конференции GTC 2024 компания Nvidia представила новое поколение искусственного интеллекта на графических процессорах с архитектурой Blackwell. По заявлению производителя, эти новые ускорители позволят создавать еще более масштабные нейронные сети, включая языковые модели с триллионами параметров, и при этом будут до 25 раз более энергоэффективными и экономичными по сравнению с Hopper.

Архитектура GPU Blackwell получила название в честь американского математика Дэвида Блэквелла и включает в себя ряд инновационных технологий для ускорения вычислений. Эти технологии будут использоваться в обработке данных, инженерном моделировании, автоматизации проектирования электроники, квантовых вычислениях и генеративном искусственном интеллекте. Глава Nvidia Дженсен Хуанг отметил, что графические процессоры Blackwell станут двигателем для новой промышленной революции.

Новый графический процессор B200, разработанный Nvidia, объявлен самым мощным чипом в мире. В вычислениях FP4 и FP8 он обеспечивает производительность до 20 и 10 петафлопс соответственно. B200 состоит из двух кристаллов, произведенных по специальной версии 4-нм техпроцесса TSMC 4NP и объединенных 2,5D-упаковкой CoWoS-L. Это первый GPU Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. В общей сложности новинка насчитывает 208 миллиардов транзисторов.

На стороне кристаллов GPU разместились восемь стеков памяти HBM3E общим объемом 192 гигабайта с пропускной способностью 8 Тбайт/с. Для объединения нескольких ускорителей Blackwell в одной системе новый GPU получил поддержку интерфейса NVLink пятого поколения с пропускной способностью до 1,8 Тбайт/с в обоих направлениях. С помощью этого интерфейса в одну связку можно объединить до 576 GPU.

Основными источниками повышения производительности B200 стали новые тензорные ядра и второе поколение механизма Transformer Engine. Последний научился более точно подбирать необходимую точность вычислений для различных задач, что положительно сказывается на скорости обучения нейросетей и их работе. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватает FP4. Однако Blackwell поддерживает работу с различными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64.

2024-03-20

А вот и решения вопроса с тем, что вычисления ИИ будут требовать много ресурсов и много потреблять и тут же у нас нарисовалось сверхмощное и энергоэффективное решение, для построения супер нейросетей, класс!

2024-03-20

Вот бы рендерить на таком..))

2024-03-20

Лучше про эту новость напишите
https://www.turbosquid.com/ai-3d-generator/early-a...

2024-03-21

КнопкодавВот бы рендерить на таком..))

Тензорные ядра не подходят для рендера.

2024-03-21

Kirill none
Тензорные ядра не подходят для рендера.

Ну если "рендерит" нейросеть, то вполне. Щас такие картиночки выдают уже, ничего рендерить не нужно, особенно если речь о статическом арте. Нафигачил нужную позу грубо, запихнул в img2img нейросеть с моделью заточенную "под рендер" и пожалуйста. Я где-то скачивал дотренированную модель на базе SDXL, как-раз обученная только на 3D картинках, у меня волосы зашевелились в разных местах когда я результаты увидел. На моей 4090 считается три секунды. Там даже что-то более-менее реальной каустики есть. Года через три нафиг нужен будет традиционный рендер. Запихнут в SORA какую-нибудь и все.

2024-03-21

Дмитрий ВолоснихинНу если "рендерит" нейросеть, то вполне.

Если придерживаться терминологии, то это "генерация".

2024-03-21

Kirill none Если придерживаться терминологии, то это "генерация".

Если брать конечный результат - то какая разница, верно ведь? На уровне прям визуализаторов, которые вместо передачи набора полигонов в трассировщик будут передавать в нейросеть запросы и хотелки.

Один фиг придем к этому. Стандартные рендеры думаю значительно "подвинуться" в ближайшее время.

Да и сейчас многие рендеры оснащены денойзерами, которые тоже частично "генерируют" картинку, и ничего, вроде, народ не напрягается с этим как-то. По большому счету все-равно как получен результат, при одинаковом качестве выигрывает тот кто делает это быстрее. Так что если все-же мы имеем в виду "отреднедерную картинку" именно как результат, а не способ, то вполне. А на таком железе как в статье, уж и подавно...

2024-03-21

Дмитрий ВолоснихинЕсли брать конечный результат - то какая разница, верно ведь?

RT-ядра тоже не стоят на месте. в сл. поколении обещают ускорить в 2 раза. Таким образом если заменить TC на RT, то одна стойка будет выдавать финальное качество практически в реалтайме.
Как ни странно, SORA представляет большую угрозу для видеостоков, когда надо что-то по теме. А если конкретно то и это - альтернатив классическому 3Д пока не предвидится.

2024-03-21

Привет, матрица.

2024-03-21

Kirill none RT-ядра тоже не стоят на месте. в сл. поколении обещают ускорить в 2 раза. Таким образом если заменить TC на RT, то одна стойка будет выдавать финальное качество практически в реалтайме.
Как ни странно, SORA представляет большую угрозу для видеостоков, когда надо что-то по теме. А если конкретно то и это - альтернатив классическому 3Д пока не предвидится.

Вы правы конечно, но значимая разница будет в том, что вам не нужны будут ни модели, ни текстуры, которые в каких-то особо кастомных вещах съедают 90% всего бюджета на создание 3д ролика. Если использовать готовые ассеты везде, то поменьше, но все-равно не мало экономит. Особенно для небольшой компании. Поэтому выигрыш при использовании ИИ может быть более значимым, чем чистая числовая производительность.

Конечно останется всегда своя ниша "премиального, сделанного руками" 3D, но боюсь бОльшую часть задач можно будет там закрыть просто правильными запросами через ИИ. Как я недавно убедился, это уже больше не случайные картинки, которые невозможно повторить (как я думал еще несколько месяцев назад) и где сложно добиться того что хочешь. Если использовать модели типа img2img и которые по наброскам через 3-4 итерации "понимают" что ты хочешь и дорабатываются несколькими дополнительными запросами....Это совсем другое дело. Будет серьезный выбор: или продолжать использовать RT + иметь штат моделлеров, аниматоров, художников или тензорные ядра, пару человек и правильно настроенную модель для генерации. Тут скользкая дорожка, в большинстве случаев в небольших компаниях выбор будет очевиден.

А было время, у нас на работе моделлеры по несколько дней на один персонаж тратили. А тут тык-тык и готово, и потом добавляешь в какой позе должен быть, а теперь еще в новых вариантах сервисов и как двигаться должен. Так что RT то RT, но боюсь старый-добрый ламповый рендеринг сильно подвинется....