Архитектура NVIDIA Blackwell. Описание архитектуры и технологий.
В этом посте я подготовил свой перевод документа описывающего новую архитектуру NVIDIA Blackwell, и используемую в ускорителях NVIDIA GeForce RTX 5000 серии. Публикация познакомит вас с новыми технологиями и спецификациями графических чипов. Эта публикация является первой в серии статей посвященных новым архитектурам NVIDIA, AMD и Intel с точки зрения архитектур и изменений в них.
Введение
Архитектура NVIDIA RTX Blackwell основана на базовых технологиях искусственного интеллекта, применявшихся в предыдущих графических процессорах NVIDIA, что позволяет создавать игровые и профессиональные приложения с искусственным интеллектом следующего поколения. Blackwell позволит игровым, творческим и инженерным приложениям достичь новых уровней реализма в графике, интерактивности и профессиональных возможностей в области дизайна.
Производительность GPU и качество изображения постоянно улучшаются, даже несмотря на то, что закон Мура подходит к концу, благодаря использованию нейронных технологий рендеринга. Технологии NVIDIA DLSS Super Resolution и Frame Generation значительно увеличили частоту кадров, обеспечивая при этом качество изображения на уровне нативного рендеринга и генерируя подавляющее большинство пикселей по цене, значительно меньшей, чем при традиционном рендеринге. Аналогичным образом, DLSS Ray Reconstruction (RR) значительно сокращает количество лучей, которые необходимо использовать для создания сцен с трассировкой лучей или трассировкой по пути очень высокого качества, используя передовые методы с ИИ для устранения шумов и восстановления недостающих деталей. Будущие технологии искусственного интеллекта будут продолжать улучшать качество изображения при гораздо меньших вычислительных затратах и объеме памяти, чем традиционные методы.
Новые технологии Neural Rendering и Neural Shading на основе ИИ в Blackwell ускорят использование разработчиками искусственного интеллекта в своих приложениях, включая внедрение и использование методов генеративного рендеринга и моделирования на основе искусственного интеллекта в режиме реального времени. Generative AI поможет разработчикам игр динамично создавать разнообразные ландшафты, реализовывать более реалистичные физические симуляции и генерировать более сложные модели поведения персонажей и предыстории «на лету». Профессиональные приложения для 3D-проектирования могут использовать возможности RTX Blackwell Generative AI для создания интерактивных рабочих процессов, позволяющих создавать множество вариантов дизайна быстрее, чем когда-либо, на основе заданных критериев, для более быстрой итерации и точной настройки параметров для получения оптимальных результатов. Эти и многие другие сценарии применения будут дополнены возможностями RTX Blackwell Generative AI и нейронного рендеринга.
Семейство GPU на базе архитектуры NVIDIA Blackwell, включающее графические процессоры класса RTX Blackwell и Blackwell для центров обработки данных, было названо в честь Дэвида Х. Блэкуэлла, американского математика и статистика, известного теоремой Рао-Блэкуэлла и многими другими достижениями в области теории вероятностей, теории игр, статистики и динамического программирования.
Рис 1. Ключевые цели создания GPU RTX Blackwell
Следующие ключевые функции включены в архитектуру NVIDIA RTX Blackwell и будут описаны более подробно в следующих разделах:
- Новые функции в потоковых мультипроцессорах (SM), созданные для Neural Shading — новые функции RT Core и Tensor Core, описанные ниже, расширяют и ускоряют возможности нейронного рендеринга. Потоковый мультипроцессор в NVIDIA RTX Blackwell обеспечивает удвоение производительности целочисленных вычислений за такт по сравнению с графическими процессорами NVIDIA Ada, что позволяет повысить производительность рабочих нагрузок по генерации адресов, которые имеют решающее значение для нейронного затенения.
- Новые функции в MaxQ обеспечивают улучшенную энергоэффективность — RTX Blackwell включает в себя множество новых функций управления питанием MaxQ. Усовершенствованная система управления питанием и новые силовые разъёмы шины обеспечивают точное управление и подачу энергии к различным подсистемам на кристалле. Тактовая частота может адаптироваться к динамическим рабочим нагрузкам в 1000 раз быстрее, чем у предыдущих архитектур графических процессоров NVIDIA.
- Новые RT-ядра 4-го поколения — в Blackwell были внесены значительные улучшения в архитектуру RT-ядра, что позволило использовать новые возможности трассировки лучей и нейронные технологии рендеринга.
- Новые тензорные ядра 5-го поколения — включают в себя новые возможности FP4, которые позволяют удвоить пропускную способность ИИ при одновременном снижении вдвое требований к памяти. Также включена поддержка нового ядра второго поколения FP8 Transformer Engine, используемого в GPU Blackwell класса для центров обработки данных.
- NVIDIA DLSS 4 — архитектура NVIDIA RTX Blackwell поддерживает мультикадровую генерацию с помощью ИИ, которая повышает частоту кадров в DLSS 4 в 2 раза по сравнению с предыдущей версией DLSS 3/3.5, сохраняя или превосходя исходное качество изображения и обеспечивая низкую системную задержку.
- RTX Neural Shaders — преобразуют небольшие нейронные сети в программируемые шейдеры, открывая новую эру графических инноваций.
- AI Management Processor (AMP) — позволяет нескольким моделям искусственного интеллекта, включая речь, перевод, зрение, анимацию, поведение и многие другие, совместно использовать GPU одновременно с графическими рабочими нагрузками.
- Память GDDR7 — GDDR7 является новым стандартом памяти DDR со сверхнизким напряжением, в котором используется сигнальная технология PAM 3 (амплитудно-импульсная модуляция), позволяющая повысить быстродействие подсистем памяти и повысить энергоэффективность.
- Технология Mega Geometry — новая технология RTX, направленная на значительное повышение детализации геометрии, что возможно в приложениях с трассировкой лучей.
GeForce RTX 5090, RTX 5080, RTX 5070 Ti и RTX 5070 — это первые видеокарты NVIDIA GeForce, основанные на новой архитектуре RTX Blackwell. В основе GeForce RTX 5090 лежит графический процессор GB202, который является самым мощным графическим процессором в семействе NVIDIA RTX Blackwell. GeForce RTX 5080 основана на графическом процессоре GB203, а RTX 5070 использует графический процессор GB205. Все три графических процессора были разработаны таким образом, чтобы обеспечить исключительную производительность в своем классе графических процессоров и предоставить новаторские возможности с ИИ геймерам и создателям/профессиональным пользователям.
RTX Blackwell — архитектура нейронного рендеринга
Инженеры NVIDIA ставят четкие цели при проектировании каждой новой архитектуры GPU. Архитектура NVIDIA Turing с революционными RT-ядрами, тензорными ядрами и технологией DLSS заложила основу для новой эры в графике, объединив программируемое затенение, трассировку лучей в реальном времени и алгоритмы искусственного интеллекта для создания реалистичной и физически точной графики для игр и профессиональных приложений.
Архитектура NVIDIA Ampere обновила потоковый мультипроцессор, расширив возможности ядер RT и Tensor, включила инновационную подсистему памяти GDDR6X, улучшила возможности DLSS и обеспечила колоссальный прирост общей производительности. Архитектура GPU NVIDIA Ada была разработана для обеспечения более высокой производительности и визуальной точности при трассировке лучей и нейронной графике на основе искусственного интеллекта, а также для добавления новых функций генерации кадров на дисках и реконструкции raidи реконструкции лучей. NVIDIA Ada стала переломным моментом, когда трассировка лучей и нейронная графика стали популярными.
Рис. 2. Наступила эпоха нейронного рендеринга — значительное увеличение ИИ производительности на кадр
Благодаря нейронному рендерингу качество изображения растет быстрее, чем согласно закону Мура, и подобные технологии рендеринга с использованием искусственного интеллекта будут продолжать расширяться. DLSS значительно увеличил частоту кадров, генерируя подавляющее большинство пикселей при меньших затратах на собственный рендеринг. Технология DLSS-RR (Ray Reconstruction) позволила добиться реалистичного освещения с использованием трассировки траектории за счет резкого сокращения количества лучей, которые необходимо отбрасывать и затенять.
Blackwell представляет DLSS 4 с мультикадровой генерацией, которая еще больше повышает производительность игр при одновременном снижении задержки. Новые методы нейронного затенения, включая RTX Neural Materials, RTX Neural Faces, RTX Neural Radiance Cache (NRC) и новые трансформенные модели на основе искусственного интеллекта, повышают вычислительную эффективность и позволяют восстанавливать изображения с еще лучшим качеством. Как показано выше, на рисунке 2, достигнут переломный момент в рендеринге с использованием нейронных технологий — наступила эпоха нейронного рендеринга.
Чип GB202 является флагманом линейки графических процессоров RTX Blackwell и поддерживает работу видеокарты NVIDIA GeForce RTX 5090. GB203 используется в видеокарте GeForce RTX 5080, а GB205 - в GeForce RTX 5070. Эти графические процессоры основаны на одной и той же базовой архитектуре и сконфигурированы для различных моделей использования и сегментов рынка.
В приведенном ниже разделе основное внимание уделяется архитектуре графического процессора GB202. Для получения дополнительной информации о спецификациях GB203 и GB205, можно обратиться к приложению B, посвященному GPU Blackwell GB203, и к приложению C, посвященному GPU Blackwell GB205.
Blackwell GB202 GPU
Полноценный графический процессор GB202 включает в себя 12 кластеров обработки графики (Graphics Processing Clusters (GPC)), 96 кластеров обработки текстур (Texture Processing Clusters (TPC)), 192 потоковых мультипроцессора (Streaming Multiprocessors (SM)) и 512-разрядный интерфейс памяти с шестнадцатью 32-разрядными контроллерами памяти.
Рис. 3. Блок-диаграмма GPU GB202 (весь чип).
Примечание: GPU GB202 также включает в себя 384 ядра FP64 (по два на SM), которые не показаны на диаграмме выше. Скорость передачи данных FP64 составляет 1/64 от скорости передачи данных FP32. Небольшое количество ядер FP64 используется для обеспечения корректной работы любых программ с кодом FP64. Аналогично, для корректности работы программы используется минимальное количество тензорных ядер FP64.Полный GPU GB202 включает в себя:
- 24576 CUDA Cores
- 192 RT Cores
- 768 Tensor Cores
- 768 Texture Units
Рис. 4. Blackwell GPC с Raster Engine, 8 TPC, 16 SM, и 16 ROP.
GPC является доминирующим высокоуровневым аппаратным блоком во всех графических процессорах на основе архитектуры Blackwell, при этом все ключевые графические процессоры находятся внутри GPC. Каждый GPC включает в себя выделенный растровый движок, два раздела с растровыми операциями (ROPs), каждый из которых содержит восемь отдельных модулей ROP и восемь TPC. Каждый TPC включает в себя один полиморфный движок и два SM. Полноценный графический процессор GB202 включает в себя 128 МБ кэш-памяти L2, в то время как RTX 5090, в частности, включает в себя 96 МБ кэш-памяти L2. Все приложения выигрывают от наличия такого большого объема быстрой кэш-памяти, а сложные операции, такие как трассировка лучей (в частности, трассировка по пути), принесут большую пользу.
Архитектура потокового мультипроцессора (SM)
NVIDIA Streaming Multiprocessor (SM) является основным компонентом архитектуры графических процессоров NVIDIA, играющим ключевую роль в возможностях параллельной обработки данных GPU, обеспечивая массовый параллелизм благодаря различным ядрам (CUDA, Tensor, RT), эффективному планированию, управлению памятью и поддержке современных рабочих нагрузок, таких как искусственный интеллект. Каждый полноценный чип GB202 содержит 192 SM, а каждый SM включает в себя 128 ядер CUDA, одно RT-ядро Blackwell четвертого поколения, четыре тензорных ядра Blackwell пятого поколения, 4 текстурных модуля, регистровый файл объемом 256 КБ и 128 КБ общей памяти L1, которые могут быть сконфигурированы для различных объемов памяти в зависимости от потребности в графике и вычислительных нагрузках.
Рис. 5. Потоковый мультипроцессор Blackwell (Blackwell SM)
Обратите внимание, что количество возможных целочисленных операций INT32 в Blackwell удваивается по сравнению с Ada за счет их полного объединения с ядрами FP32, как показано на рисунке 6 ниже. Однако унифицированные ядра могут работать только как ядра FP32 или INT32 в течение любого заданного такта. На рисунке 6 показано, как развивалась архитектура SM между Ada и Blackwell.
Архитектура Ada была разработана и оптимизирована для стандартных шейдеров. Blackwell SM был разработан и оптимизирован для нейронных шейдеров.
Рис. 6. Ada SM vs Blackwell SM
Количество текстурных блоков увеличилось с 512 в GeForce 4090 до 680 в GeForce 5090. Текстурные блоки отвечают за обработку операций отображения текстур, выполнение таких задач, как извлечение текселей из текстур, применение фильтрации текстур и обработка текстурных координат. Тексели представляют информацию о текстуре, включая цвета и паттерны, которые применяются к 3D-поверхностям, определяя внешний вид текстуры, применяемой к поверхности объекта.
С увеличением количества текстурных единиц скорость обработки текселей с билинейной фильтрацией RTX Blackwell также увеличивается. RTX 5090 выдает 1636.76 гигатекселей в секунду по сравнению с 1290.2 гигатекселями в секунду у RTX 4090. Обратите внимание, что RTX Blackwell SM также удваивает производительность точечной выборки текстур за цикл по сравнению с Ada, что может ускорить некоторые алгоритмы доступа к текстурам, такие как стохастическая фильтрация текстур (Stochastic Texture Filtering (STF)), используемая с новыми методами Blackwell Neural Texture Compression, описанными ниже.
Подсистема памяти GDDR7
Компания NVIDIA уже много лет тесно сотрудничает с производителями DRAM, разрабатывая архитектуру DRAM, схемы и сигнализацию для обеспечения максимальной скорости работы графической памяти. С запуском архитектуры GPU NVIDIA Ampere, компании NVIDIA и Micron выпустили первые устройства GDDR6X и совместными усилиями обеспечили еще более высокую скорость работы памяти для графических процессоров Ada. GeForce RTX 4080 поставляется с памятью GDDR6X со скоростью 22.4 Гбит/с, что на тот момент было самым быстрым среди всех графических процессоров с памятью на базе GDDR, а GeForce RTX 4090 обеспечивает максимальную пропускную способность памяти 1 ТБ/с.
Рис. 7. Сравнение GDDR7 с предыдущим поколением GDDR6/6x
Совместно с архитектурой Blackwell компания NVIDIA реализовывает поддержку GDDR7, новый стандарт памяти DDR со сверхнизким напряжением, в котором используется сигнальная технология PAM 3 (амплитудно-импульсная модуляция), что позволяет существенно продвинуться в разработке высокоскоростной памяти. Сотрудничество NVIDIA с технологической ассоциацией JEDEC, мировым лидером в разработке стандартов для индустрии микроэлектроники, в которую входят более 360 компаний, помогло сделать PAM3 (амплитудно-импульсная модуляция 3 уровня) базовой технологией высокочастотной сигнализации для GDDR7 DRAM.
Видеокарта GeForce RTX 5090 оснащена памятью GDDR7 со скоростью 28 Гбит/с и обеспечивает максимальную пропускную способность 1.792 ТБ/с, а видеокарта GeForce RTX 5080 оснащена памятью GDDR7 со скоростью 30 Гбит/с, обеспечивая максимальную пропускную способность 960 Гбит/с.
Переход от сигнализации PAM4 (4 уровня, обеспечивающие 2 бита за цикл) в GDDR6X к сигнализации PAM3 (3 уровня, обеспечивающие 1.5 бита за цикл) в GDDR7 в сочетании с инновационной схемой pin-кодирования позволяет GDDR7 достичь значительно улучшенного отношения сигнал/шум (SNR). Эта эволюция также удваивает количество независимых каналов при минимальной нагрузке на плотность ввода-вывода.
Благодаря увеличенной плотности каналов, улучшенным схемам PAM3 SNR с усовершенствованным выравниванием, усовершенствованной архитектуре синхронизации и усовершенствованному обучению ввода-вывода, GDDR7 обеспечивает значительно более высокую пропускную способность. Эти достижения также позволяют значительно повысить энергоэффективность, обеспечивая превосходную производительность и увеличенное время автономной работы, особенно в системах с ограниченным энергопотреблением.
Реализация GDDR7 для карт серии RTX 50 включает поддержку Enhanced CRC для RAS (надежность, доступность, удобство обслуживания).
Таблица 1. Базовые спецификации GeForce RTX 5090, GeForce RTX 4090, GeForce RTX 3090
Пятое поколение тензорных ядер в архитектуре Blackwell
Тензорные ядра - это специализированные высокопроизводительные вычислительные ядра, предназначенные для выполнения математических операций матричного умножения и накопления, которые используются в приложениях искусственного интеллекта и высокопроизводительных вычислениях. Тензорные ядра обеспечивают потрясающую производительность матричных вычислений, которые имеют решающее значение как для обучения нейронных сетей глубокого обучения, так и для операций логического вывода.
Как и тензорные ядра графического процессора NVIDIA Ada, тензорные ядра RTX Blackwell поддерживают FP16, BF16, TF32, INT8, INT4 и ядро трансформер Hopper FP8. RTX Blackwell добавляет новую поддержку операций с тензорными ядрами FP4 и FP6, а также новый движок второго поколения FP8 Transformer Engine, аналогичный тому, что используется в GPU Blackwell для центров обработки данных.
Поддержка FP4
Возможности моделей с генеративным ИИ, в сравнении с первыми моделями, выпущенными в 2022 году, улучшились. Но улучшения часто сопровождаются увеличением параметров и размера. Поскольку требования к вычислительной мощности и памяти у моделей растут, запускать такие модели даже на новейшем оборудовании может быть сложно.
Новые тензорные ядра в GeForce RTX 50 серии поддерживают формат данных FP4, что помогает решить эту проблему. В FP4 реализован метод квантования с меньшими затратами, аналогичный сжатию файлов, что позволяет уменьшить размеры модели. По сравнению с точностью формата FP16, используемого по умолчанию в большинстве моделей, — для FP4 требуется менее половины памяти, а графические процессоры серии 50 обеспечивают более чем в 2 раза большую производительность по сравнению с предыдущим поколением. FP4 позволяет практически без потери качества использовать передовые методы квантования, предлагаемые NVIDIA TensorRT Model Optimizer.
Например, для модели FLUX.dev от Black Forest Labs на FP16 требуется более 23 ГБ видеопамяти, что означает, что она может поддерживаться только GeForce RTX 4090, RTX 5090 и профессиональными GPU с большими объемами памяти. С FP4 для FLUX.dev требуется менее 10 ГБ памяти, поэтому он может работать локально на большем количестве графических процессоров GeForce RTX.
С GeForce RTX 4090 с FP16 модель FLUX.dev может генерировать изображения за 15 секунд, выполнив 30 шагов. С GeForce RTX 5090 с FP4 изображения могут быть сгенерированы чуть более чем за пять секунд.
Рис. 8. Blackwell 5th Generation Tensor Cores с FP4, двойная пропускная способность FP8
Blackwell 4th Generation RT Cores
Современные игры более реалистичны, чем когда-либо, с богато детализированными мирами и высококачественными визуальными эффектами. Трассировка лучей обеспечивает физически точное освещение, тени и отражения, создавая виртуальные пространства, которые точно отражают реальность.
Разработчики также улучшают игры, увеличивая геометрическую детализацию и используя различные передовые методы затенения. Инженеры NVIDIA улучшили несколько важных функций ядра RT, чтобы обеспечить высокопроизводительную трассировку лучей в очень сложной геометрии.
Например, ядра RT в графических процессорах Turing, Ampere и Ada включают в себя специальные аппаратные модули для ускорения оценки структуры данных с иерархией ограничивающих объемов (Bounding Volume Hierarchy (BVH)) и выполнения тестовых вычислений пересечения лучей с треугольниками и пересечения лучей с объемами. Благодаря выделенным ресурсам для этих основных функций трассировки лучей, работа с SM разгружается, освобождая его для выполнения других задач пиксельного, вершинного и затенения поверхностей.
Тестирование пересечения лучей и треугольников — это дорогостоящая вычислительная операция, которая выполняется с высокой частотой при рендеринге сцены с трассировкой лучей. Ядро RT четвертого поколения в архитектуре Blackwell обеспечивает удвоенную пропускную способность для тестирования пересечения лучей и треугольников в Ada.
Рис. 9. Блок-диаграмма RT Core четвертого поколения (RTX Blackwell Architecture)
В дополнение к вышеуказанным функциям, ядра RT, используемые как в графических процессорах Ada, так и в графических процессорах Blackwell, включают в себя специальный модуль, известный как Opacity Micromap Engine. Он оценивает микрокарты непрозрачности и выполняет прямой тест непрозрачности геометрии, что позволяет значительно сократить время вычислений непрозрачности на основе шейдеров. Новая технология Mega Geometry обеспечивает трассировку лучей на уровне кластеров треугольников с RTX-ускорением. Новое ядро Blackwell RT включает в себя Triangle Cluster Intersection Engine, который еще больше ускоряет трассировку лучей в Mega Geometry, а также включает стандартное тестирование пересечений лучей и треугольников. Blackwell также добавляет л Linear Swept Spheres в качестве аппаратно-ускоренного пути для трассировки лучей в геометрии, подобной волосам.
Mega Geometry
Mega Geometry — это новая технология RTX, направленная на значительное повышение геометрической детализации, что возможно в приложениях с трассировкой лучей. В частности, Mega Geometry позволяет игровым движкам, таким как Unreal Engine 5, которые используют современные системы уровня детализации (LOD), такие как Nanite, с максимальной точностью отображать геометрию с помощью лучей. Больше нет необходимости использовать прокси-геометрию с низким разрешением для создания эффектов трассировки лучей, что обеспечивает новый уровень качества теней, отражений и непрямого освещения. Mega Geometry также помогает перенести методы, ранее использовавшиеся для продакшн-рендеринга, такие как поверхности подразделения с картами смещения (displacement), в область трассировки лучей реального времени.
Level-of-Detail
Есть два основных ограничения, которые препятствуют простой интеграции трассировки лучей в такие системы, как Nanite. В состав Mega Geometry входят новые расширения для RTX API, а также высокопроизводительная реализация драйверов и специальные оптимизации в RT-ядрах Blackwell, которые решают обе эти проблемы:
Cluster-based LOD updates. По мере приближения или удаления объекта от камеры игровой движок, как правило, корректирует уровень детализации объекта. То есть количество треугольников в визуализируемой геометрии со временем меняется. Многие традиционные методы предварительно вычисляют варианты геометрии, которые представляют различные уровни LOD для данного объекта. Такие системы, как Nanite, обновляют LOD путем постепенной замены небольших групп из примерно 128 треугольников, известных как кластеры. Конфигурация кластеров, составляющих конечную визуализированную геометрическую сетку, может часто меняться, например, в каждом кадре, что приводит к желаемым плавным переходам LOD без выскакивания. Однако для трассировки геометрии лучами необходимо создать отдельную структуру данных — иерархию ограничивающих объемов (BVH). Многочисленные сборки BVH, которые система в стиле Nanite запускала бы для большого количества объектов с большим количеством точек в каждом кадре, привели бы к перегрузке существующих реализаций трассировки лучей, что сделало бы систему непригодной для приложений реального времени, таких как игры.
Mega Geometry предоставляет новые возможности построения BVH, которые используют кластеры треугольников в качестве первоклассных примитивов. Новые Cluster-level Acceleration Structures (CLAS) могут быть созданы из пространственно компактных блоков, содержащих до 256 треугольников. Коллекция CLASS затем используется в качестве входных данных для построения окончательного BVH. CLASS может быть сгенерирован по запросу, например, когда объект загружается с диска, а затем закэширован для визуализации будущих кадров. Поскольку каждый CLASS представляет собой коллекцию из порядка 100 треугольников, обработка, требуемая при последующих построениях BVH, сокращается на два порядка по сравнению с классическими методами, основанными на простых треугольниках. Следовательно, игровой движок может планировать гораздо больше сборок BVH для каждого кадра и обрабатывать изменения в журнале кластеров, просто восстанавливая BVH затронутых объектов из классов.
Рис. 10. BVH и Mesh Using Clusters
В качестве дальнейшего совершенствования существующих решений для трассировки лучей все API Mega Geometry разработаны таким образом, чтобы они были полностью согласованы, а их входные параметры полностью управлялись из памяти GPU. Это позволяет игровому движку эффективно выполнять логику, такую как выбор LOD, анимация, отбраковка и другие, на графическом процессоре, минимизируя при этом нагрузку на центральный процессор. При эффективном использовании API Mega Geometry приложение может практически исключить нагрузку на центральный процессор, связанную с управлением BVH.
Рис. 11. TLAS/BLAS Acceleration Structures и Cluster BLAS
Большое количество объектов. Игровые движки, которые делают упор на высокую детализацию геометрии, как правило, стремятся к увеличению количества объектов в сценах. Без Mega Geometry приложению приходится создавать атлас из всех объектов в сцене, из каждого кадра. Это хорошо работает при количестве объектов до нескольких тысяч, но становится непомерно дорогим по мере увеличения размеров мира.
Рис. 12. NVIDIA «Zorah Demo» использует Mega Geometry и другие новые технологии Blackwell
Чтобы решить эту проблему, Mega Geometry представляет новый тип TLAS, называемый Partitioned Top-Level Acceleration Structure (PTLAS). Вместо того, чтобы создавать новый TLAS с нуля для каждого кадра, PTLAS может использовать тот факт, что большинство объектов в сцене статичны от кадра к кадру. Приложение управляет объектом постоянного PTLAS, объединяя объекты в разделы и обновляя только те из них, которые были изменены. Например, в игре различные сектора статичного игрового мира могут быть разделены на отдельные разделы, в то время как динамические объекты могут быть разделены в «глобальном разделе», который перестраивается каждый кадр. Чем меньше обновлений разделов требуется, тем больше экономия времени выполнения по сравнению с традиционным TLAS.
Рис. 13. Partitioned Top-Level Acceleration Structure (PTLAS)
Subdivision Surfaces
Хотя одной из главных целей Mega Geometry было обеспечение первоклассного сочетания трассировки лучей с современными системами управления детализацией в игровых движках, область ее применения шире. Гибкое, управляемое графическим процессором формирование кластеров, наряду с невероятно быстрым построением BVH, открывает множество новых возможностей для применения передовых методов работы с геометрией. Одним из примеров этого являются поверхности подразделения.
Поверхности подразделения — это тип представления геометрии, обычно используемый в производственных процессах рендеринга. Итеративное повышение детализации геометрической сетки на основе прямоугольных граней с использованием метода подразделения Catmull-Clark, часто с дополнительным применением карт смещения, приводит к получению гладких поверхностей при сохранении высокой эффективности моделирования и удобства анимации.
Быстрая трассировка лучей на поверхностях подразделения обычно достигается путем их тесселяции в виде треугольников. Для анимации или изменения точек обзора в каждом кадре требуется новая тесселяция, что приводит к большому количеству дорогостоящих перепостроений BVH. Mega Geometry позволяет приложению сопоставлять процесс тесселяции непосредственно с генерацией кластеров и чрезвычайно быстро создавать BVH на основе полученных кластеров CLASS. Этот метод обеспечивает беспрецедентную производительность в режиме реального времени для трассировки лучей анимированных поверхностей с подразделением и картами смещения.
Mega Geometry API и поддерживаемые архитектуры
Функциональность, связанная с управлением BVH, является основой любой системы трассировки лучей. Mega Geometry — это базовая технология, которая выводит возможности BVH на новый уровень и позволяет приложениям создавать более креативные и эффективные геометрические конвейеры, чем когда-либо. Таким образом, Mega Geometry будет поддерживаться широким спектром API и аппаратного обеспечения:
API-интерфейсы: Mega Geometry доступен во всех API-интерфейсах поддерживающих трассировку лучей, и поддерживаемых NVIDIA:
- DirectX 12 (DXR) расширен через NVAPI для поддержки кластеров и PTLAS
- В Vulkan добавлены расширения вендора для кластеров и PTLAS
- В OptiX 9.0 добавлена встроенная поддержка кластеров
Архитектуры GPU: Mega Geometry поддерживается на всех GPU с RTX, начиная с поколения NVIDIA Turing.
Оптимизации Blackwell RT Core для Mega Geometry
RT-ядра Blackwell 4-го поколения созданы специально для работы с Mega Geometry. Специальные кластерные движки в аппаратном обеспечении реализуют новые схемы сжатия геометрических данных и данных BVH, обеспечивая при этом в 2 раза большую скорость пересечения лучей и треугольников, чем в RT-ядрах третьего поколения. В результате Blackwell сокращает объем видеопамяти в типичных случаях использования, таких как сцены Nanite, на несколько сотен мегабайт.
Linear Swept Spheres (LSS)
Различные варианты примитивов на основе кривых обычно используются ядрами визуализации для представления волос, меха, травы и других объектов, похожих на нити. Для трассировки лучей эти примитивы обычно реализуются в программном обеспечении с использованием пользовательских шейдеров пересечений. Однако тестирование пересечения лучей и кривых требует больших вычислительных затрат, что ограничивает использование кривых при рендеринге с трассировкой лучей в реальном времени и увеличивает время рендеринга для автономных средств рендеринга.
Альтернативным подходом для сценариев применения в реальном времени является использование относительно грубых моделей для волос, например с картами текстур, но это приводит к ухудшению качества изображения. Лучшим, но более дорогим методом является моделирование отдельных прядей треугольниками. Например, одним из таких методов является Disjoint Orthogonal Triangle Strips (DOTS), в которых используется геометрия из треугольных полосок, расположенных в виде триангулированных граней, непересекающихся друг с другом, где треугольные полоски независимы друг от друга и не имеют общих вершин. Несмотря на более высокое качество, чем у плоскостей с текстурами, непересекающийся узор создает искажения по краям, которые приводят к заметным недостаткам при визуализации, как показано ниже на рисунке 14.
Рис. 14. Sequence of Disjoint Orthogonal Triangle Strips (DOTS)
В Blackwell RT Core реализована аппаратная поддержка тестирования пересечения лучей для нового примитива, называемого Linear Swept Spheres (LSS). LSS похож на мозаичную кривую, но строится путем развертывания сфер в пространстве линейными сегментами. Радиусы сфер могут различаться в начальной и конечной точках каждого сегмента, что позволяет гибко аппроксимировать различные типы сегментов волосков. В качестве особого случая LSS аппаратный примитив Blackwell также поддерживает сферы напрямую (без линейного сегмента), что полезно для применения в таких задачах, как моделирование с системами частиц.
Обычные варианты использования, такие как рендеринг человеческих волос, выполняется примерно в 2 раза быстрее и с меньшими затратами по сравнению с DOTS, а также требуют примерно в 5 раз меньше видеопамяти для хранения геометрии.
Рис. 15. Sequence of Linear-Swept Spheres (LSS)
Shader Execution Reordering (SER) 2.0
SER — это технология с богатыми возможностями, которая позволяет приложениям для трассировки лучей эффективно реорганизовывать массивно-параллельные потоки на графическом процессоре для максимального использования аппаратного обеспечения. Динамическое изменение порядка работы с SER особенно эффективно при сложных рабочих нагрузках по трассировке лучей, которые требуют больших объемов выполнения или различий в доступе к памяти, таких как трассировка путей. Поскольку потоки, которые согласованно выполняют рабочие нагрузки с нейронными сетями, могут быть отправлены непосредственно в тензорные ядра, SER также значительно ускоряет нейронный шейдинг.
Рис. 16. Концептуальная диаграмма Shader Execution Reordering (SER)
Впервые представленная в архитектуре Ada, технология SER в Blackwell дополнена несколькими нововведениями в аппаратном и программном обеспечении, которые еще больше повышают ее эффективность. Основная логика изменения порядка в SER в Blackwell в два раза эффективнее, что сокращает затраты на изменение порядка и повышает его точность. Более высокая точность приводит к более разумному выделению когерентности и позволяет разработчикам использовать больше знаний о конкретных приложениях для изменения порядка операций, что, в свою очередь, повышает общую производительность рабочей нагрузки.
SER полностью контролируется приложениями с помощью небольшого API, что позволяет разработчикам легко изменять порядок там, где рабочие нагрузки наиболее эффективны. API дополнительно привнес новую гибкость в использование шейдеров трассировки лучей в модели программирования, что позволило более рационально структурировать реализации средств визуализации, используя преимущества переупорядочивания. В нескольких играх с трассировкой пути, а также в ряде приложений применяемых в производственном рендеринге, уже используются возможности SER. Эти приложения получат непосредственную выгоду от улучшений Blackwell SER без каких-либо изменений в коде.
AI Management Processor (AMP)
AI Management Processor (AMP) — это полностью программируемый на GPU планировщик контекстов, предназначенный для разгрузки CPU от планирования контекстов GPU. AMP расширяет возможности планирования контекстов GPU в Windows для более эффективного управления различными рабочими нагрузками, выполняемыми на графическом процессоре. Контекст GPU содержит всю информацию о состоянии, необходимую графическому процессору для выполнения одной или нескольких задач. Несколько контекстов могут использоваться для лучшей изоляции задачи при выполнении нескольких задач и обеспечения того, чтобы несколько приложений могли использовать графический процессор одновременно без конфликтов. Примером может служить координация и планирование асинхронных рабочих нагрузок с использованием моделей искусственного интеллекта, таких как NVIDIA Avatar Cloud Engine (ACE) с используемыми в нем моделями речи, перевода, визуализации, анимации и поведения, а также G-Assist, которые выполняются одновременно с другими графическими нагрузками на GPU.
AI Management Processor реализован с использованием выделенного процессора RISC-V, расположенного в начале GPU-конвейера, и он обеспечивает более быстрое планирование контекстов GPU с меньшей задержкой, чем предыдущие методы, управляемые процессором. Архитектура планирования Blackwell AMP соответствует архитектурной модели Microsoft, которая описывает настраиваемое ядро планирования на GPU с помощью Windows Hardware-Accelerated GPU Scheduling (HAGS), представленного в Windows 10 (обновление от мая 2020 года). HAGS позволяет графическому процессору более эффективно управлять собственной памятью, сокращая задержку и потенциально повышая производительность в играх и других приложениях интенсивно работающими с графикой.
Роль AMP заключается в том, чтобы взять на себя ответственность за планирование задач GPU, уменьшая зависимость от CPU, который часто является узким местом в производительности игр. Фактически, предоставление графическому процессору возможности управлять собственной очередью задач может привести к снижению задержки из-за меньшего количества обратных связей между графическим процессором и центральным процессором. Это обеспечивает более плавную частоту кадров в играх и лучшую многозадачность в Windows, поскольку нагрузка на центральный процессор меньше.
Рис. 17. AI Management Processor (AMP) Schedules AI / Graphics Workloads
По сути, AMP используется для координации, корректного планирования и обеспечения более плавного игрового процесса без снижения производительности. В LLM это достигается за счет сокращения времени на получение первого ответа, а в играх работа с игровым движком становится приоритетной для предотвращения сбоев. Выполняя работу в более предсказуемые сроки, AMP может значительно повысить качество обслуживания в зависимости от рабочей нагрузки.
Новые возможности RTX Blackwell для вывода изображения и кодирования видео
В то время как Ada и предыдущие архитектуры GPU обеспечивали поддержку цветовую субдискретизацию форматов 4:4:4 и 4:2:0 в видео закодированном H.264 и H.265, GPU на базе архитектуры Blackwell добавляет аппаратную поддержку кодирования и декодирования для видео с цветовой субдискретизацией формата 4:2:2.
В видеофайлах используется формат цвета YUV. Вместо того, чтобы сохранять цвет в виде значений красного, зеленого и синего (RGB), цвет сохраняется в виде яркости (Y), цветности с разницей в синем цвете (U) и цветности с разницей в красном цвете (V).
Хроматическая дискретизация использует тот факт, что человеческий глаз более чувствителен к изменениям яркости, чем к изменению цветности. В видео в формате YUV 4:4:4 каждый канал сохраняет свое полное значение во всех каналах; однако это приводит к увеличению размера файлов и увеличению пропускной способности, необходимой для передачи видеоданных. Хроматическая дискретизация снижает требования к объему памяти и пропускной способности за счет сохранения меньшего количества информации в каналах цветности видео. Для видео в формате YUV 4:2:0 полная информация сохраняется в канале яркости, но два канала цветности содержат только 25% исходной информации о цвете. Это приводит к тому, что для каждого видеокадра требуется половина данных несжатого видеокадра формата 4:4:4, а компромиссом является потеря информации о цвете. Эта потеря цветопередачи не означает низкого качества изображения, поскольку стандарты от Blu-Ray до HDR10 и потоковые платформы сегодня распространяют контент среди своей аудитории в формате 4:2:0.
При записи, в камере, а также во время редактирования и цветокоррекции, перед окончательным выбором цвета, формат YUV 4:2:2 обеспечивает баланс между сохранением большего количества информации о цвете и уменьшением размера файла и требований к пропускной способности. В видео в формате YUV 4:2:2 сохраняется полное значение яркости и половина исходной информации о цветовой насыщенности. Видеокадр, сжатый в формате 4:2:2, требует лишь двух третей данных, необходимых для несжатого видеокадра в формате 4:4:4, но обеспечивает в 2 раза большее цветовое разрешение по сравнению с цветным кадром в формате 4:2:0.
Поскольку цветовая дискретизация формата YUV 4:2:2 обеспечивает более низкие требования к данным, чем 4:4:4, но более высокую точность цветопередачи, чем 4:2:0, он стал популярным вариантом для потребительских и профессиональных видеокамер. Однако программное декодирование в формате 4:2:2 может привести к высокой нагрузке на CPU, что затрудняет работу с форматом 4:2:2.
Рис. 18. Формат цвета 4:2:2 предоставляет в 2 раза больше информации о цвете, чем формат RAW-файла в 1.3 раза, использующий формат цвета 4:2:0.
Дополнительная информация о цвете, сохраняемая в формате 4:2:2 по сравнению с 4:2:0, может быть особенно полезна для HDR-контента, а также для сохранения мелких деталей, таких как текст или тонкие линии, или для рабочих процессов, когда исходный материал будет корректироваться снова и снова, например, при цветокоррекции.
Девятое поколение NVENC
Новый кодировщик NVENC девятого поколения в архитектуре Blackwell улучшает качество кодирования AV1 и HEVC на 5% по сравнению с BD-BR PSNR и добавляет поддержку кодирования цвета в формате 4:2:2 для H.264 и HEVC. Существует также новый режим AV1 Ultra High Quality (UHQ), который требует дополнительного времени и обеспечивает дополнительное улучшение на 5% для достижения более высокого качества. (Обратите внимание, что AV1 UHQ также будет доступен на графических процессорах серии RTX 40 с использованием их кодировщиков в AV1 и дополнительной программной поддержки, но будет обеспечивать качество ниже, чем Blackwell.)
На приведенной ниже диаграмме показаны усовершенствования, внесенные в кодировщик AV1 в течение нескольких поколений, и то, как их сочетание с новым режимом AV1 UHQ может привести к улучшению PSNR BD-BR на 15%. Выигрыш еще больше при использовании измерений VMAF от Netflix — показателя, предназначенного для учета фактических субъективных улучшений.
Таблица 2. Данные измеренные на RTX 5090 и 4090 с использованием 4K60.
GPU NVIDIA GeForce RTX 5090 поддерживает до трех кодировщиков и двух декодеров, что позволяет увеличить скорость экспорта более чем на 50% по сравнению с предыдущим поколением и в 4 раза увеличить производительность по сравнению с графическим процессором RTX 3090 с одним кодировщиком.
Рис. 19. Девятое поколение NVENC улучшений кодировщик и повышение скорсоти кодирования.
Шестое поколение NVDEC
В дополнение к NVENC, графические процессоры Blackwell также оснащены улучшенным аппаратным декодером шестого поколения (NVDEC) с 2-кратным ускорением декодирования H.264 (что соответствует скорости декодирования HEVC и AV1), а также поддержкой декодирования H.264 и HEVC в соотношении 4:2:2.
Поддержка DisplayPort 2.1b
Графические процессоры на основе архитектуры Blackwell поддерживают DisplayPort 2.1b, обеспечивая пропускную способность до 80 Гбит/с в режиме передачи данных UHBR 20 (сверхвысокая скорость передачи данных при 20 Гбит/с на полосу).
DisplayPort 2.1b UHBR 20 позволяет использовать дисплеи с высоким разрешением с максимально возможной частотой обновления: 8K (7680x4320) при 165 Гц (требуется DSC) и 4K (3840x2160) при 480 Гц (требуется DSC). Обратите внимание, что для обеспечения самых высоких скоростей соединения требуется кабель, сертифицированный по стандарту DP80LL.
Улучшения в энергоэффективности с Blackwell Max-Q
Философия Max Q заключается в том, чтобы максимально увеличить производительность при ограниченном энергопотреблении платформы и позволить графическому процессору быстро переходить в более высокие режимы энергопотребления, чтобы максимально экономить энергию во время простоя и низкой нагрузки.
Рис. 20. Новые инновации в энергоэффективность Max Q для повышения времени работы от батареи.
Улучшенное управление питанием и энергопотреблением
Проблема перехода из состояния активного энергопотребления в состояние очень низкого энергопотребления заключается в том, что чем выше уровень питания, тем больше времени требуется для входа в это состояние и выхода из него. Blackwell сократил задержки при входе в различные состояния питания и выходе из них. Он также оснащен самым совершенным блоком управления мощностью из всех, которые мы когда-либо создавали, с несколькими новыми уровнями управления, позволяющими очень точно регулировать мощность.
Рис. 21. Advanced Clock, Power, и Rail Gating Provide Fine-Grain Control of Power.
Новые возможности синхронизации тактового сигнала позволяют очень быстро отключать ветвление тактовой частоты, экономя динамическую мощность даже в тех областях работы, где простаивает только часть чипа или где бездействие настолько короткое, что обычно считается «активным». Для Blackwell одним из основных направлений было управление питанием памяти для достижения максимальной эффективности за счет использования архитектуры тактовой частоты быстрого пробуждения GDDR7. Теперь впервые можно управлять всем ветвлением тактовых импульсов памяти.
Была добавлена новая шина напряжения для раздельного питания ядер графического процессора и системы памяти. Отдельные шины позволяют независимо регулировать напряжение на больших участках чипа, которые могут быть оптимизированы для каждой рабочей нагрузки, что повышает производительность. Это также позволяет Blackwell отключать неиспользуемые участки микросхемы во время небольших периодов простоя, уменьшая утечку энергии. Благодаря конструкции Blackwell можно вводить состояния с регулируемым управлением с высокой степенью детализации, что особенно полезно для игр и дазайна на системах с аккумуляторами. Отдельные направляющие питания позволяют снизить мощность когда графический процессор работает вхолостую, отключая графические ядра, когда они не нужны, что значительно повышает общую эффективность компьютеров, использующих систему управления питанием, таких как ноутбуки.
Accelerated Frequency Switching
В архитектуре Blackwell проведен крупнейший пересмотр архитектуры частоты за последние десять лет. Благодаря этому частоты могут адаптироваться к динамическим рабочим нагрузкам в 1000 раз быстрее, чем в предыдущих архитектурах GPU, что позволяет Blackwell быстро реагировать на динамический характер рабочих нагрузок на графических процессорах и повышать или понижать тактовую частоту в зависимости от рабочей нагрузки для достижения наилучшей производительности и энергоэффективности. Ранее тактовые частоты были эффективно синхронизированы на одной и той же частоте на протяжении всей генерации кадра.
Рис. 22. Accelerated Frequency Switching. Ускоренное переключение частот позволяет подстраивать тактовые частоты под динамические рабочие нагрузки в 1000 раз быстрее, чем раньше.
Ускоренное переключение частоты позволяет реализовать полную производительность графического процессора при ограниченном энергопотреблении. Кроме того, за счет быстрой адаптации к коротким периодам простоя – т.е. промежуткам между этапом работы с кадром, отправляемым на графический процессор от центрального процессора, — также экономится мощность, что позволяет графическому процессору работать на более высоких тактовых частотах в периоды, не связанные с простоем, и в результате обеспечивается свободная производительность.
Low Latency Sleep
В состояние низкого энергопотребления Blackwell входит быстрее, что позволяет тратить больше времени на экономию энергии, а, используя преимущества Advanced Power Gating, можно быстро постепенно отключать питание чипа, экономя больше энергии быстрее. В случае перехода в режим самого глубокого сна Blackwell переходит в режим ожидания в 10 раз быстрее, чем Ada, что позволяет значительно экономить электроэнергию в режиме ожидания с наименьшим энергопотреблением.
Рис. 23. Real-life Example of Running Inference on SLMs on Ada and Blackwell.
В реальном примере, например, при выполнении логического вывода на малых языковых моделях, как показано на рисунке 23 выше, можно получить экономию электроэнергии до 50% благодаря сочетанию производительности Blackwell (сокращение периода активности), переходных состояний с пониженным энергопотреблением за счет регулирования мощности и напряжения и 10-кратного перехода в режим глубокого сна быстрее, чем раньше.
DLSS 4
DLSS — это революционный набор технологий нейронного рендеринга, который использует ИИ для повышения частоты кадров, сокращения задержек и улучшения качества изображения. В последней версии, DLSS 4, реализовано новое поколение Multi Frame Generation (MFG) с более высокой производительностью и меньшим потреблением памяти, а также новая трансформенная модель, содержащая усовершенствования в области Super Resolution (SR), Ray Reconstruction (RR), and Deep Learning Anti-Aliasing (DLAA), которые повышают качество и стабильность изображения. Эти новые технологии основаны на возможностях архитектуры графических процессорах серии GeForce RTX 50 и тензорных ядрах пятого поколения и поддерживаются облачным суперкомпьютером NVIDIA AI, который постоянно улучшает игровые возможности вашего ПК.
Рис. 24. DLSS предоставляет обновление для всех геймеров на платформе RTX.
DLSS 4 Multi Frame Generation
Технология генерации кадров была впервые представлена в архитектуре Ada в 2022 году. Между каждой парой традиционно визуализируемых кадров был сгенерирован отдельный кадр с использованием поля оптического потока, векторов движения в игре и сети ИИ. Архитектура Blackwell, разработанная для нейронного рендеринга и использующая тензорные ядра пятого поколения, позволяет генерировать несколько кадров в DLSS для повышения частоты кадров, генерируя до трех дополнительных кадров на каждый визуализируемый традиционно кадр.
DLSS 4 Multi Frame Generation сочетает в себе множество аппаратных и программных инноваций Blackwell и DLSS, что делает создание нескольких кадров реальностью. Новая модель ИИ для генерации кадров на 40% быстрее, чем предыдущий метод генерации кадров, использует на 30% меньше видеопамяти, и для генерации нескольких кадров требуется только один запуск для каждого отрисованного кадра. Создание поля оптического потока было ускорено за счет замены аппаратного оптического потока на очень эффективную модель ИИ. В совокупности модели ИИ значительно снижают вычислительные затраты на создание дополнительных кадров.
Как только новые кадры сгенерированы, они распределяются равномерно, чтобы обеспечить плавное воспроизведение. В DLSS 3 Frame Generation используется процессорная синхронизация с изменчивостью, которая может усиливаться при добавлении дополнительных кадров, что приводит к менее последовательному переключению кадров между кадрами, что влияет на плавность воспроизведения.
Чтобы устранить сложности, связанные с созданием нескольких кадров, Blackwell использует усовершенствованный Flip Metering, который переносит логику изменения темпа кадра в механизм отображения, позволяя графическому процессору более точно управлять синхронизацией отображения. Технология Blackwell Display Engine была усовершенствована благодаря удвоенным возможностям обработки пикселей для поддержки более высоких разрешений и частоты обновления при аппаратном измерении с помощью DLSS 4.
Рис. 25. DLSS 4 Multi Frame Generation
Несколько функций, присущих только Blackwell, позволяют DLSS 4 работать эффективно. Тензорные ядра 5-го поколения обладают большей вычислительной мощностью, что позволяет им быстрее выполнять ряд моделей искусственного интеллекта, которые рассчитывают оптический поток и генерируют несколько кадров. AI Management Processor позволяет лучше планировать обработку данных DLSS AI, рендеринг графики и алгоритм синхронизации кадров.
Transformer Models
Впервые с 2020 года, когда был выпущен DLSS 2, DLSS переходит на совершенно новую архитектуру нейронной сети, и это приносит массу преимуществ. Способность искусственного интеллекта классифицировать изображения была революционной, и это произошло благодаря технологии, называемой Convolutional Neural Network, или CNN. CNN работает путем локального объединения пикселей и анализа данных в виде дерева от более низкого уровня к более высокому. Эта структура была эффективна в вычислительном отношении, вот почему она называется сверточной нейронной сетью.
DLSS 4 улучшает качество изображения и плавность рендеринга за счет внедрения более мощных моделей ИИ на основе моделей трансформеров для DLSS Super Resolution, DLSS Ray Reconstruction и Deep Learning Anti-Aliasing (DLAA), разработанных суперкомпьютерами NVIDIA для лучшего понимания и рендеринга сложных сцен. Нейронные сети, использующие архитектуру на основе трансформатора, превосходно справляются с задачами, связанными с последовательными и структурированными данными. Идея, лежащая в основе моделей трансформеров, заключается в том, что внимание к тому, как тратятся вычисления и как они анализируются, должно определяться самими данными, поэтому нейронная сеть должна научиться направлять свое внимание на те части данных, которые наиболее интересны или полезны для принятия решений.
По сравнению с моделями CNN, модели трансформеры используют функцию самонаблюдения и могут с большей легкостью распознавать паттерны на большом расстоянии в гораздо большем пиксельном окне. Трансформерные модели также более эффективно масштабируются, позволяя моделям, используемым для DLSS 4, использовать в 2 раза больше параметров, а также использовать большую вычислительную мощность тензорного ядра для восстановления изображений с еще лучшим качеством для всех владельцев RTX. В результате повышается стабильность при переходе от одного кадра к другому, улучшается детализация освещения и увеличивается детализация в движении. Изменение архитектуры нейронной сети с CNN на transformer привело к значительному повышению качества изображения во многих сценариях.
DLSS Super Resolution (SR)
DLSS Super Resolution (SR) повышает производительность за счет использования ИИ для вывода кадров с более высоким разрешением на входные данные с более низким разрешением. DLSS производит выборку нескольких изображений с более низким разрешением и использует данные о движении и обратную связь с предыдущими кадрами для создания высококачественных изображений. Конечный продукт модели transformer отличается большей стабильностью во времени, меньшим количеством ореолов, большей детализацией изображения в движении и улучшенным сглаживанием по сравнению с предыдущими версиями DLSS.
Рис. 26. Transformer Model vs CNN Model Super Resolution
DLSS Ray Reconstruction (RR)
RR улучшает качество изображения, используя искусственный интеллект для создания дополнительных пикселей для сцен с интенсивной трассировкой лучей. DLSS заменяет вручную настроенные шумоподавители на сеть искусственного интеллекта, обученную суперкомпьютером NVIDIA, которая генерирует пиксели более высокого качества между выбранными лучами. При работе с контентом с интенсивной трассировкой лучей модель transformer для RR обеспечивает еще большее повышение качества, особенно в сценах со сложным освещением. На самом деле, все характерные артефакты, характерные для обычных шумоподавителей, значительно уменьшены.
Рис. 27. Transformer Model vs CNN Model Ray Reconstruction
Deep Learning Anti-Aliasing (DLAA)
Технология DLAA обеспечивает более высокое качество изображения, используя технологию сглаживания на основе ИИ. В DLAA используется технология Super Resolution, разработанная для DLSS, что позволяет создавать более реалистичные изображения высокого качества при обычном разрешении. В результате достигается повышенная временная стабильность, детализация в движении и сглаживание углов и ребер в сцене.
Neural Shaders
Архитектура Blackwell была разработана, чтобы дать толчок будущему, в котором нейронные шейдеры станут преобладающей формой шейдерной технологии для разработки игр. Многие архитектурные улучшения в Blackwell были внесены специально для повышения производительности и результативности нейронных шейдеров, и в этом разделе описываются эти оптимизации.
Шейдер — это программа, которая запускается на графическом процессоре и управляет визуализацией графики, сложность которой варьируется в зависимости от требуемых визуальных эффектов и обработки. Новые методы затенения добавили новые уровни реализма. В своей основной форме шейдеры вычисляют уровни освещенности, темноты и цвета, используемые при рендеринге сцены в трехмерном пространстве в игре, в процессе, известном как затенение. Они выполняются на графическом процессоре и являются частью конвейера рендеринга.
Графика впервые была обработана на графическом процессоре с использованием непрограммируемых шейдеров, также известных как конвейер с фиксированной функцией, где операции в графическом конвейере были предопределены и настраивались, но не программировались. Это было связано с тем, что они были ограничены аппаратной конструкцией графического процессора, который был специально создан для выполнения предопределенного набора операций.
В GeForce 3 впервые появилась возможность программируемого затенения с помощью вершинных шейдеров. Вскоре после этого высокоуровневый язык затенения HLSL позволил использовать пиксельное затенение, так что все на экране можно было настраивать. В DX10 появились геометрические шейдеры. В DX11 появились вычислительные шейдеры, а затем в обновлении для DX12 появилась трассировка лучей DirectX с использованием ускоряющей структуры BVH (Bounding Volume Hierarchy), которая позволяла любому лучу пересекаться с геометрией сцены, а затем запускать каскад различных операций затенения.
С запуском Blackwell начинается эра нейронных шейдеров, созданных разработчиками, некоторые из которых также будут работать на графических процессорах предыдущего поколения. Нейронные шейдеры — это следующий эволюционный шаг в программируемом шейдинге. Вместо того, чтобы писать сложный шейдерный код для описания этих функций, разработчики обучают модели искусственного интеллекта приближать результат, который мог бы быть вычислен шейдерным кодом. Нейронные шейдеры станут преобладающей формой шейдеров в играх, и в будущем все игры будут использовать технологию искусственного интеллекта для рендеринга.
До этого момента NVIDIA использовала нейронное затенение для DLSS, используя CUDA чтобы задействовать тензорные ядра. Благодаря новому Cooperative Vectors API для DX12 и Vulkan доступ к тензорным ядрам в графических приложениях, можно получить с помощью любого типа шейдеров, включая трассировку пикселей и лучей, что позволяет использовать множество нейронных технологий. NVIDIA совместно с Microsoft создала новый Cooperative Vectors API. В сочетании с дифференцируемыми языковыми функциями затенения в Slang, Cooperative Vectors API открывают разработчикам игр возможность использовать нейронные технологии в своих играх, включая нейронное сжатие текстур, которое обеспечивает сжатие видеопамяти в соотношении семь к одному по сравнению с форматами блочного сжатия, и другие технологии, такие как RTX Neural Materials, Neural Radiance Cache, RTX Skin, и RTX Neural Faces.
Рис. 28. Ускорение за счет нейронных сетей в графике.
Нейронные шейдеры позволяют обучать нейронные сети эффективным аппроксимациям сложных алгоритмов, которые вычисляют, как свет взаимодействует с поверхностями, эффективно распаковывают текстуры, хранящиеся в видеопамяти в сверхсжатом виде, прогнозируют непрямое освещение на основе ограниченных данных и аппроксимируют подповерхностное рассеяние света — все это способствует более захватывающему игровому процессу. Потенциальные области применения нейронных шейдеров еще не до конца изучены, а это значит, что впереди нас ждут более интересные возможности для более быстрого и реалистичного (или стилизованного) рендеринга в реальном времени.
RTX Neural Materials
В высокобюджетных CGI-фильмах некоторые материалы могут быть очень сложными и состоять из нескольких оптических слоев. Возможность трассировки лучей в нескольких слоях в режиме реального времени — очень дорогостоящее мероприятие. Однако методы на основе ИИ заменяют исходную математическую модель материала нейронной аппроксимацией, что позволяет лучше представлять материалы и в то же время позволяет воспроизводить ресурсы кинографического качества с частотой кадров, необходимой для игры.
Рис. 29. Ассеты кинематографического качества в режиме реального времени.
RTX Neural Texture Compression (NTC)
По мере развития фотореалистичного рендеринга увеличивается объем требуемых текстурных данных, что увеличивает требования к хранилищу и оперативной памяти, а также влияет на производительность из-за ограничения полосы пропускания. При сжатии нейронных текстур RTX используются нейронные сети, доступ к которым осуществляется через нейронные шейдеры, для сжатия и распаковки текстур материалов более эффективно, чем традиционными методами. Обратите внимание, что в представленной демонстрации нейронных материалов используется 1110 мегабайт памяти для стандартных материалов на фонаре и ткани. Однако при использовании нейронных материалов для демонстрации тех же материалов используется всего 333 мегабайта - экономия более чем в 3 раза при гораздо более высоком качестве изображения.
Стохастическая фильтрация текстур (Stochastic Texture Filtering (STF)) используется для внесения случайности в процесс выборки текстур, чтобы уменьшить визуальные артефакты, такие как «ступенчатость» и узор муара, когда нецелесообразно применять традиционную трехлинейную или анизотропную фильтрацию, например, при нейронном сжатии текстур. В тех случаях, когда доступна аппаратная фильтрация текстур, этот инструмент по-прежнему полезен: он может обеспечить фильтрацию более высокого порядка, такую как кубическая или по Гауссу, за счет выборки из одной точки. STF особенно быстро работает на графическом процессоре с архитектурой Blackwell благодаря 2-кратному повышению скорости фильтрации текстур с точечной выборкой.
Для получения дополнительной информации о нейронном сжатии текстур, пожалуйста, обратитесь к соответствующей веб-странице на портале NVIDIA Research. (https://research.nvidia.com/labs/rtr/neural_texture_compression/)
Neural Radiance Cache (NRC)
Neural Radiance Cache (NRC) использует нейронный шейдер для кэширования и аппроксимации информации об освещенности. Используя результаты обучения нейронной сети, можно сохранять сложную информацию об освещенности и использовать ее для создания высококачественного глобального освещения (GI) и динамических световых эффектов при рендеринге в реальном времени. Это повышает эффективность за счет снижения вычислительной нагрузки на графический процессор, что приводит к повышению качества изображения и масштабируемости.
Рис. 30. Neural Radiance Cache
NRC — это нейронный шейдер, который принимает в качестве входных данных траекторию лучей после одного отскока и выводит конечные значения освещенности для многих отскоков. NRC обучает крошечные нейронные сети на основе игровых данных в режиме реального времени оценивать сигнал косвенного освещения; запускается начальный набор лучей, но они не отслеживаются полностью.
Вместо этого трассировщик траекторий отправляет траектории лучей в кэш после одного отскока и моделирует, как выглядела бы сцена, если бы луч был полной длины с большим количеством отскоков.
NRC повышает производительность, поскольку графическому процессору не нужно отслеживать лучи, выходящие за пределы небольшого начального количества отражений, а качество непрямого освещения улучшается, поскольку NRC может определять множество отражений при ограниченном бюджете лучей. Кроме того, он может сохранять качество изображения в сложных сценариях, поскольку обладает высокой адаптируемостью. Поскольку он тренируется во время игры, он учитывает различные сценарии, присутствующие в любой игре, что позволяет ему настраиваться таким образом, чтобы обеспечить точный профиль непрямого освещения для каждой игровой сцены.
RTX Skin (SSS Skin)
Кожа — это проблема для рендеринга, а типичные представления объектов в играх разнообразны.
По сути, кожа — это набор сеток, которые образуют внешнюю часть объекта. Это хорошо работает, если материал непроницаем для света, например, дерево или металл, где лучи, которые пересекаются с объектом, требуют только вычисления освещенности на основе того, что освещает сцену. Однако полупрозрачные материалы работают по-другому. На самом деле свет проникает в материал, в объект, который затем переносится или рассеивается внутри объекта, а затем излучается в других частях объекта. Чтобы сделать скин более качественным, NVIDIA позаимствовала технологию рендеринга из киноиндустрии под названием «подповерхностное рассеивание», реализовав ее в режиме реального времени для трассировки траекторий. RTX Skin — это первый пример подповерхностного рассеяния лучей в играх, и его можно применять аккуратно или интенсивно, по желанию художника.
Рис. 31. RTX Skin Enables Incredibly Life-like Translucent Materials
RTX Neural Faces
Другой трудностью для рендеринга в реальном времени является реалистичное отображение лиц. Люди с рождения приучены распознавать любые аномалии на человеческом лице, и существует термин «Зловещая долина», который обозначает разницу между тем, что визуализируется, и тем, что ожидается. Рендеринг применяемый в киноинудстрии решил эту проблему, но для создания изображения, которое убедительно соответствует фотографии, требуется на порядки больше времени, чем то, что может быть предоставлено в процессе игры.
Рис. 32. RTX Neural Faces
RTX Neural Faces предлагает инновационный подход к улучшению качества анимации и визуализации лиц с использованием генеративного искусственного интеллекта. Вместо рендеринга методом «брут форса», Neural Faces использует простое растеризованное лицо плюс данные о 3D-позе в качестве входных данных и использует генеративную модель ИИ в реальном времени для создания более естественного лица. Сгенерированное лицо обучается на основе тысяч офлайновых изображений этого лица под любым углом, при различном освещении, эмоциях и окклюзии. В процессе обучения могут использоваться реальные фотографии или изображения, сгенерированные искусственным интеллектом, с вариантами, созданными с использованием диффузионной модели. Обученная модель TensorRT — оптимизированный для определения лица в режиме реального времени. RTX Neural Faces представляют собой первый шаг на пути к переосмыслению графики в реальном времени с помощью генеративного искусственного интеллекта.
Общие сведения о модификациях новых GPU
Blackwell GB202 GPU
Архитектура GPU NVIDIA Blackwell представляет собой семейство графических процессоров, предназначенных для различных сегментов рынка. GB202 — это флагманский графический процессор NVIDIA, основанный на архитектуре Blackwell и обеспечивающий революционную производительность сегмента графических процессоров для игр, создания контента и искусственного интеллекта.
Полный чип GB202 состоит из 92.2 миллиарда транзисторов и содержит 12 GPC, 96 TPC, 192 SM и шестнадцать 32-разрядных контроллеров памяти (всего 512 бит). При том, что каждый SM содержит 128 ядер FP32 CUDA, полный чип содержит 24576 ядер CUDA, а также 192 ядра RT, 768 тензорных ядер, 768 текстурных блоков и 192 ROP. Подсистема памяти включает в себя 21760 КБ кэш-памяти L1, 43520 КБ регистрового файла и 98304 КБ кэш-памяти L2.
Blackwell GB203 GPU
Графический процессор GB203 — это продукт NVIDIA для сегмента высокопроизводительной графики. GB203 сохраняет все ключевые функции, присущие GB202, включая все инновации, внедренные в Blackwell SM, такие как RT Core четвертого поколения от Blackwell и Tensor Core пятого поколения, а также DLSS 4 и новые игровые функции с искусственным интеллектом.
Полный чип GB203 состоит из 45.6 миллиардов транзисторов и содержит 7 GPC, 42 TPC, 84 SM и восемь 32-разрядных контроллеров памяти (всего 256 бит). При том, что каждый SM содержит 128 ядер FP32 CUDA, полный чип содержит 10752 ядра CUDA, а также 84 ядра RT, 336 тензорных ядер, 336 текстурных блоков и 112 ROP. Подсистема памяти включает в себя 10752 КБ кэш-памяти L1, 21504 КБ регистрового файла и 65536 КБ кэш-памяти L2.
Blackwell GB205 GPU
Графический процессор GB205 — это идеальная отправная точка для геймеров, создателей контента и стримеров, которым нужны новые функции, которые NVIDIA предлагает в архитектуре Blackwell. GB205 разработан специально для сегмента производительных графических процессоров и включает в себя все архитектурные изменения, которые были внесены в архитектуру графических процессоров Blackwell, которые обсуждались ранее в этой публикации.
Полная реализация графического процессора GB205 состоит из 5 GPC, 25 TPC, 50 SM и шести 32-разрядных контроллеров памяти (192-разрядный интерфейс памяти). Чип содержит в общей сложности 31 миллиард транзисторов, 6400 ядер CUDA, 50 ядер RT, 200 тензорных ядер, 200 текстурных блоков и 80 ROP. Подсистема памяти включает в себя кэш-память L1 объемом 6400 КБ, регистровый файл объемом 12800 КБ и кэш-память L2 объемом 49152 КБ.