Render.ru
Поддержать
Сохранить

Развёрнутый обзор архитектуры NVIDIA Blackwell и тестирование GeForce RTX 5080 в профессиональных приложениях

ЖелезоБлог компании

32.jpg01.jpg

Обзор изменений в новых GPU NVIDIA и сравнение их технических характеристик с моделями предыдущих поколений. Протестировали NVIDIA GeForce RTX 5080 в связке с процессором AMD Ryzen 7 9800X3D. Особое внимание уделили синтетическим тестам с акцентом на профессиональные приложения и рабочие нагрузки в области вычислений.

02.jpg

Рис. 1. NVIDIA GeForce RTX 5080 в конфигураторе DigitalRazor

Новые ускорители 5000-й серии основаны на втором поколении архитектуры NVIDIA Blackwell. Обновление направлено на использование чипов в графических ускорителях для ПК и рабочих станций. Оно включает изменения в архитектуре GPU. К примеру, увеличено число тензорных ядер и добавлены ядра трассировки лучей. В отличие от архитектуры Ada Lovelace, в потребительских ускорителях на базе Blackwell отсутствует блок, который отвечает за шину NVLink (SLI). Благодаря освободившемуся пространству и увеличенной площади кристалла стало возможным увеличить количество стриминговых мультипроцессоров, которые содержат CUDA Cores, Tensor Cores и RT Cores.

В таблице представлены характеристики GPU GeForce RTX 5090, GeForce RTX 4090, GeForce RTX 3090 Ti, GeForce RTX 5080, GeForce RTX 4080 SUPER и GeForce RTX 3080 Ti.

03.jpg

Рис. 2. Характеристики ускорителей линейки NVIDIA GeForce 30, 40 и 50 серии. Ускоритель NVIDIA GeForce RTX 5080 выделен красным

В архитектуре Blackwell инженеры NVIDIA реализовали поддержку графической памяти GDDR7. Это новый стандарт ультранизковольтной GDDR-памяти, в котором использована технология сигнальной передачи PAM3 (трёхуровневая амплитудно-импульсная модуляция), позволившая значительно продвинуться в разработке высокоскоростной памяти.

Совместные усилия NVIDIA с ассоциацией JEDEC помогли сделать PAM3 основополагающей высокочастотной технологией передачи сигналов для GDDR7.
Использование памяти GDDR7 обеспечило пропускную способность в 960 ГБ/с. При скорости шины в 256 бит в NVIDIA GeForce RTX 5080 (чип GB203),аналогично предыдущему поколению GPU, пропускная способность памяти повысилась. Это стало возможным благодаря повышению частоты памяти на 400 МГц и пропускной способности чипов до 30 Гб/с (60 ГБ/с в двух каналах для RTX 5080). Шина PCI Express 5.0 увеличила пропускную способность и производительность в скорости передачи данных между CPU и GPU. Этот подход раскрывает потенциал современных CPU, например, AMD Ryzen 7 9800X3D.

Для сравнения, в GPU NVIDIA GeForce RTX 5090 (GB202) 512-битная шина, что обеспечивает пропускную способность в 1,79 ТБ/с. Но пропускная способность чипов составляет 28 ГБ/с (56 ГБ/с в двух каналах).

Ускоритель NVIDIA GeForce RTX 5080 в базовой версии работает на частоте 2295 МГц, а при бусте частота повышается до 2617 МГц. В тестировании мы использовали ускоритель от PALIT, который при бусте увеличивал частоту до 2917 МГц, что положительно сказалось на результатах тестирования.
Для тестов использовали сборку системы на базе ПК линейки DigitalRazor PROGAMING.

Характеристики тестовой системы:

  • CPU: AMD Ryzen 7 9800X3D
  • Motherboard: MSI MAG X870 TOMAHAWK WIFI
  • RAM: 32 ГБ (2x16ГБ DDR5-6000 (3000 МГц))
  • GPU: PALIT GeForce RTX 5080 GameRock OC
  • SSD: 1 ТБ M.2 SSD
  • ОС: Microsoft Windows 11 Pro
  • GPU Driver: 572.02 (beta release)

04.jpg

Информация о CPU, материнской плате и RAM в утилите CPU-Z

05.jpg

Рис. 3. Информация о GPU в утилите GPU-Z

На первый взгляд, представленные ускорители 5000-й серии незначительно отличаются от 4000-й серии по характеристикам, за исключением флагманов. Но новая архитектура Blackwell заслуживает особого внимания всех, кто хочет обновить системы с ускорителями 2000-й или 3000-й серий. И если нужен стек технологий, которые реализованы исключительно в ускорителях 5000-й серии. В частности, поддержка работы с массивной геометрией, создание изображений с высоким разрешением в реальном времени, генерация кадров и поддержка технологии DLSS 4, а также реконструкция лучей.

DLSS 4 — крупнейшее обновление с момента выпуска DLSS 2.0 в 2020 году. По заявлениям NVIDIA, DLSS Ray Reconstruction, DLSS Super Resolution и DLAA теперь работают на основе архитектуры глубоких нейронных сетей «трансформер» в режиме реального времени. Такая архитектура используется в передовых моделях ИИ. Например, в ChatGPT, Flux и Gemini. Модели трансформеры в DLSS улучшают качество изображения: повышают его стабильность и детализацию в движении, а также уменьшают количество так называемых «призраков».

Функция Frame Generation получила обновление для графических процессоров GeForce RTX 5000-й и 4000-й серий, повысив производительность и снизив нагрузку на VRAM.

На всех графических процессорах GeForce RTX игры с DLSS, реконструкцией лучей, сверхвысоким разрешением и DLAA можно обновить до новой модели DLSS.

DLSS 3 Frame Generation AI model использует игровые данные, включая векторы движения и глубину, а также доступный начиная с GeForce RTX 4000-й серии Optical Flow Accelerator для создания одного дополнительного кадра.

06.jpg

Рис. 5. Пример компонентов изображения используемых для генерации кадров в Unreal Engine 5.3

В DLSS 3 создание нескольких кадров было слишком затратным. Поскольку для каждого нового сгенерированного кадра требовались ускоритель оптического потока и модель искусственного интеллекта, а затраты на производительность ограничивали работу графического процессора. Это в итоге приводило к снижению частоты кадров.

07.jpg

Рис. 6. Создание дополнительного кадра в DLSS 3

DLSS 4 Multi Frame Generation объединяет несколько аппаратных средств архитектуры Blackwell и программных решений в DLSS, чтобы сделать генерацию нескольких кадров.

По заявлениям NVIDIA, новая модель ИИ для создания кадров работает на 40% быстрее, использует на 30% меньше видеопамяти и запускается только один раз на кадр для создания нескольких дополнительных кадров.

08.jpg

Рис. 7. Создание дополнительных кадров в DLSS 4

Разработчики ускорили создание Optical Flow Field, заменив аппаратный оптический поток очень эффективной моделью ИИ. В совокупности, ИИ-модель сильно сокращает вычислительные затраты на создание дополнительных кадров.

Даже при такой эффективности, для каждого визуализируемого кадра GPU всё равно необходимо выполнять 5 моделей ИИ для Superresolution, Ray Reconstruction и Multi Frame Generation. И всё это за несколько миллисекунд. Иначе DLSS Multi Frame Generation стала бы замедлителем. Для этого графические процессоры GeForce RTX 5000-й серии оснащены тензорными ядрами 5-го поколения, производительность которых в 2,5 раза выше.
После создания новых кадров они равномерно распределяются по времени для обеспечения плавности. При генерации кадров DLSS 3 использует неравномерное распределение по времени с использованием CPU. Это негативно сказывается на плавности.

GPU на основе архитектуры Blackwell использует аппаратную функцию Flip Metering, которая переносит логику чередования кадров на механизм отображения. Графический процессор более точно управляет временем отображения серии кадров. Механизм отображения в Blackwell также был усовершенствован за счёт удвоенной производительности обработки пикселей для поддержки более высоких разрешений и частот обновления при использовании аппаратной функции Flip Metering совместно с DLSS 4.

Благодаря совместному использованию новых аппаратных и программных инноваций DLSS 4 может генерировать 15 из каждых 16 пикселей с отличным качеством изображения, плавностью и минимальной задержкой.

В играх и приложениях DLSS 4 с генерацией нескольких кадров, реконструкцией лучей и сверхвысоким разрешением увеличивает частоту кадров до 8 раз по сравнению с рендерингом методом перебора. И повышает частоту кадров до 1,7 раза при переходе с генерации одного кадра на генерацию нескольких.
Благодаря чему достигается такая производительность в ИИ решениях используемых в DLSS 4? Стоит взглянуть на изменения в потоковых мультипроцессорах GPU NVIDIA Blackwell.

09.jpg

Рис. 8. Изменения в Blackwell SM в сравнении с Ada SM. Стриминговые мультипроцессоры в Ada были разработаны и оптимизированы для стандартных шейдеров. Стриминговые мультипроцессоры Blackwell были разработаны и оптимизированы для новых нейронных шейдеров (Neural Shaders)

Потоковый мультипроцессор NVIDIA Streaming Multiprocessor (SM) — это основной компонент архитектуры, который играет ключевую роль в возможностях параллельной обработки GPU. Он обеспечивает массовый параллелизм с помощью различных ядер (CUDA, Tensor, RT), эффективное планирование потоков, управление памятью и поддержку современных рабочих нагрузок, в том числе работу нейросетей. Каждый чип GB202 (RTX 5090) содержит 192 вычислительных модуля. А каждый вычислительный модуль включает 128 ядер CUDA, одно ядро RT четвёртого поколения Blackwell, четыре тензорных ядра пятого поколения Blackwell, 4 текстурных блока, 256 КБ регистровой памяти и 128 КБ памяти L1/Shared Memory, которые можно настроить на разные объёмы памяти в зависимости от потребностей графических и вычислительных задач.

Из рисунка выше понятно, что количество возможных целочисленных операций INT32 в Blackwell удвоено по сравнению с Ada за счёт их полного объединения с ядрами FP32. Однако объединённые ядра могут работать только как ядра FP32 или INT32 в течение одного тактового цикла.

Количество текстурных блоков увеличилось с 512 в GeForce 4090 до 680 в GeForce 5090. Текстурные блоки отвечают за обработку операций наложения текстур: получение текселей из текстур, применение фильтрации текстур и обработку координат текстур. Тексели представляют собой информацию о текстурах, включая цвета и паттерны, которые применяют к 3D-поверхностям.

С увеличением количества текстурных блоков также растёт и скорость обработки текстур с билинейной фильтрацией RTX Blackwell. Скорость заполнения текстур RTX 5090 составляет 1636,76 Gigatexels/sec в сравнении с 1290,2 Gigatexels/sec у RTX 4090. RTX Blackwell SM также удваивает производительность с точечной выборкой текстур за цикл по сравнению с Ada. Это может ускорить некоторые алгоритмы доступа к текстурам. Например, стохастическую фильтрацию текстур (Stochastic Texture Filtering, STF), которую используют совместно с новыми методами сжатия текстур Blackwell Neural, о которых поговорим ниже.
Архитектура NVIDIA Blackwell использует тензорные ядра пятого поколения, которые поддерживают операции с 4-битными числами с плавающей точкой (FP4). Это значительно уменьшает объем используемой памяти. Можно загружать больше данных в память GPU и быстрее выполнять операции с ними. Это самые компактные значения с плавающей точкой, представленные стандартом IEEE: 1 бит на знак, 2 бита на порядок и 1 бит на мантиссу. Поддержка формата FP4 — закономерное развитие реализации вычислений с числами с плавающей точкой на аппаратном уровне.

10.jpg

Рис. 9. Сравнение форматов чисел FP8 и FP4

Отличительной особенностью формата числа FP4 может быть снижение точности в вычислениях. Но для обработки массивов пикселей этого вполне достаточно. Применение формата числа FP4 благоприятно сказывается на качестве реконструкции лучей, повышении разрешения и частоты кадров в DLSS 4.
Ранее DLSS использовала свёрточные нейронные сети (Convolutional Neural Network (CNN)) для создания новых пикселей путём анализа локального контекста и отслеживания изменений в этих областях на последовательных кадрах. После нескольких лет непрерывных улучшений, разработчики NVIDIA достигли предела возможностей архитектуры DLSS CNN.

Новая модель-трансформер в DLSS использует Vision Transformer. Нейронная сеть оценивает относительную важность каждого пикселя во всём кадре и в нескольких кадрах секвенции одновременно. Новая модель использует вдвое больше параметров, чем CNN. Это нужно для более глубокого понимания сцен и генерации пикселей, которые обеспечивают большую стабильность, меньшее появление «призраков», повышенную детализацию в движении и более плавные края объектов в сцене.

В контенте с интенсивной трассировкой лучей новая модель-трансформер для Ray Reconstruction значительно повышает качество изображения. Особенно в сценах со сложными условиями освещения. Например, в Alan Wake 2 повышается стабильность изображения на детально проработанном сетчатом заборе, уменьшается эффект ореола на лопастях вентилятора и исчезает мерцание на линиях электропередач.

11.jpg

Рис. 10. Блок-диаграмма графического чипа GB202, который используется в NVIDIA GeForce RTX 5090

Перед тем как перейдём к результатам тестирования в различных алгоритмах рендеринга и под разными рабочими нагрузками, познакомимся с изменениями в новом драйвере 570-й версии.

Изменения в релизе 570 драйвера GPU NVIDIA GeForce RTX

В первую очередь, новая версия драйвера поддерживает новейшие ускорители NVIDIA GeForce RTX 5080, NVIDIA GeForce RTX 5090 и NVIDIA GeForce RTX 5090D. Разработчики включили поддержку следующих графических и вычислительных API:

OpenGL 4.6, Vulkan 1.4, DirectX 11, DirectX 12.
OpenCL 3.0, NVIDIA CUDA 12.8.

Компоненты драйвера обновлены до следующих версий:

HD Audio Driver 1.4.3.2
NVIDIA PhysX System Software 9.23.1019
DCH NVIDIA Control Panel 8.1.967.0

Выпуск обеспечивает оптимальную поддержку новых творческих приложений и обновлений: NVIDIA Broadcast, Blackmagic Design DaVinci Resolve, CapCut, Wondershare Filmora и обновление до DLSS 4 в D5 Render.

Начиная с релиза 570 и драйвера версии 511.65, NVIDIA OpenCL поддерживает новые предварительные спецификации расширений, предложенных консорциумом Khronos. Эти спецификации относятся к внешним семафорам OpenCL и внешней памяти.

Набор новых расширений External Memory и Semaphore Sharing предоставляет универсальную платформу. Она позволяет OpenCL импортировать из внешней памяти дескрипторы семафоров, экспортируемые внешними API, с помощью методологии, знакомой разработчикам на Vulkan. А затем использовать эти семафоры для синхронизации с внешней средой выполнения, координируя использование общей памяти.

  • В рамках расширений поддерживаются следующие ключевые функции:
  • Импорт памяти в буферы с помощью FD, Win32 KMT и дескрипторов NT;
  • Импорт памяти в образы с помощью FD, Win32 KMT и дескрипторов NT;
  • Импорт двоичных семафоров с помощью FD, Win32 KMT и дескрипторов NT;
  • Синхронизация с использованием Wait и Signal на импортированных семафорах;
  • Использование буферов и образов, импортированных в ядра OpenCL, и другие API, включая обычный cl_mem;
  • Поддержка импорта внешней памяти и семафоров с помощью дескрипторов FD в Linux. Дескрипторов Win32 NT и KMT в Windows. Другие типы дескрипторов в настоящее время недоступны;
  • Поддерживаются только двоичные семафоры;
  • Нет поддержки экспорта семафора или памяти из OpenCL;
  • API c lEnqueueAcquireExternalMemObjectsKHR и c lEnqueueReleaseExternalMemObjectsKHR в настоящее время не требуются. Так как передача управления может осуществляться с помощью ожидания и сигнала семафора. Однако в будущем они могут понадобиться для корректной работы.

Обновление компилятора NVIDIA OpenCL

В драйвере NVIDIA OpenCL использовался более старый JIT-компилятор OpenCL, основанный на устаревшей версии интерфейса Clang 3.4 и оптимизатора NVVM. NVIDIA работает над обновлением своего JIT-компилятора OpenCL, чтобы использовать новую 7-ю версию интерфейса Clang и компонента оптимизатора NVVM.

NVIDIA представила новый компилятор OpenCL в качестве дополнительной функции в выпуске драйвера 510 (511.09 для Windows и 510.54 для Linux). При этом компилятор OpenCL по умолчанию остался прежним. В версии 572.16, NVIDIA OpenCL использует новый компилятор на основе Clang + NVVM 7.0.
Переход на новые версии компиляторов может повлиять на корректность работы OpenCL-приложений. Возможно придётся подождать выхода обновлений приложений, которые поддерживают новые компиляторы и драйверы.

Для ряда целевых приложений в новом драйвере есть несколько исправлений ошибок, что может благоприятно сказаться на их работе.

  • ИСПРАВЛЕНО: Размытие движения в некоторых случаях некорректно отображается при визуализации в Blender Cycles;
  • ИСПРАВЛЕНО: [KeyShot2024] TDR при загрузке анимации ключевого кадра камеры сцены;
  • ИСПРАВЛЕНО: [Evernote/QQ/Asus Armoury Crate] Показывает более высокую загрузку процессора, чем обычно;
  • ИСПРАВЛЕНО: На некоторых мониторах с G-SYNC может появляться мерцание, когда частота кадров в игре падает ниже 60 кадров в секунду;
  • ИСПРАВЛЕНО: [G-SYNC] В игре Indiana Jones and the Great Circle при отключенной вертикальной синхронизации могут возникать микрозадержки;
  • Улучшена стабильность игр Ubisoft на движке Snowdrop.

В тестировании мы использовали доступную на тот момент beta-версию драйвера 570.02, куда были включены основные изменения и обновления.

Тестирование AMD Ryzen 7 9800X3D и NVIDIA GeForce RTX 5080

Переходим к знакомству с производительностью NVIDIA GeForce RTX 5080. Синтетические тесты позволяют оценить общую тенденцию в росте производительности компонентов компьютерной системы. А практические тесты показывают, насколько выросла производительность в алгоритмах, которые применяются в реальных приложениях. Также произвели сравнение с нашей базой данных тестов других графических ускорителей и процессоров.
Первое, что можно отметить после тестирования собранной нами сборки — это лучшая система среднего ценового диапазона, что мы собирали! Учитывая наличие современных решений от AMD и NVIDIA, удалось достигнуть высокой производительности, как в тестах CPU, так и в тестах GPU.

Основные комплексные тесты:

  • SPECwpc 3 (GPU Compute);
  • 3DMark Steam Edition;
  • Geekbench 6.

Индивидуальные тесты:

  • V-Ray 5 Benchmark;
  • Idigo Benchmark.

Тесты прикладных приложений

  • Blender 3.6 LTS;
  • Blender 4.2 LTS.

В качестве референс-системы для сравнения производительности в тестах мы использовали рабочую станцию DigitalRazor PERFORMANCE PRO с GeForce RTX 3090. А также данные предыдущих тестов следующих графических ускорителей:

  • NVIDIA GeForce RTX 2080 SUPER;
  • NVIDIA GeForce RTX 3060 Ti;
  • NVIDIA GeForce RTX 3080;
  • NVIDIA GeForce RTX 3090;
  • NVIDIA GeForce RTX 4060 Ti;
  • NVIDIA GeForce RTX 4080;
  • NVIDIA GeForce RTX 4080 SUPER;
  • NVIDIA GeForce RTX 4090.

Производительность ядра визуализации Cycles сравнили в трёх версиях Blender, включая альфу 4.4. Последняя выходит в марте и, вероятнее всего, получит поддержку нового API OptiX 9.0.

Тестирование NVIDIA GeForce RTX 5080

Первые тесты выполнили с помощью комплексного набора тестирования SPECwpc, который используют для оценки производительности рабочих станций в вычислительных и графических рабочих нагрузках.

Тест содержит в себе как вычислительные тесты, которые используют GPU, так и графические для оценки производительности графических ядер различных профессиональных приложений.

Группа тестов GPU Compute показала закономерный прирост в производительности ускорителя для энтузиастов нового поколения.

12.jpg

Рис. 11. Результаты теста SPECwpc GPU Compute

Тест опирается на возможности API OpenCL. В вычислениях общего назначения на GPU с применением OpenCL получили вполне удовлетворительный и ожидаемый результат.

Как и ожидали, высокий результат видеоускоритель показал в тесте LuxRender. Он занимает твёрдую усреднённую позицию в сравнении с RTX 3090 и RTX 4090. На результат повлияли как возможности самой архитектуры NVIDIA Blackwell, так и оптимизация ядра LuxRender, который использовали в тесте. GPU карты RTX 5080 по характеристикам близок к RTX 3090. Но благодаря изменениям в архитектуре и оптимизации, вычисления общего назначения выполняются быстрее в сравнении с другими моделями GPU предыдущих поколений.

Глобально тест GPU Compute демонстрирует закономерное повышение производительности чипов на архитектуре NVIDIA Blackwell в сравнении с архитектурой NVIDIA Ampere. Это заметно в тестах caffe (глубокое обучение) и FAH (Folding@Home). В тесте caffe ускоритель RTX 5080 достаточно близко приблизился к результатам теста RTX 4090, уступив на 7,75%.

В процентном соотношении тесты показывают прирост производительности RTX 5080 над RTX 3090 на 35,7%. Но если сравнивать с RTX 4090, то ускоритель на архитектуре Ada на 14,6% производительнее ускорителя на базе архитектуры Blackwell.

А что-же с графическими ядрами, которые используют как DirectX, так и OpenGL?

13.jpg

Рис. 12. Результаты графических тестов SPECwpc

Так как видеокарта в первую очередь «рисует графику», обойти вниманием производительность в различных графических API было бы упущением. В результатах тестов видим, что в моделях, которые имитируют графические ядра различных 3D-приложений и САПР (Системы Автоматизированного Проектирования), RTX 5080 показывает заметный прирост над RTX 3090. Но всё же незначительно уступает RTX 4090. Особенно провальный тест был в случае с ядром Siemens NX (snx-03). Этот пакет САПР не понаслышке требователен к графическим ускорителям. В основном за счёт активного использования многих специфических для OpenGL возможностей и реализованных в драйвере NVIDIA для профессиональных GPU линейки Quadro/RTX. Это негативно сказалось на итоговом результате. Результат также можно списать на тестовую версию драйвера, который использовали в тестировании. А вот полностью опирающийся на возможности DirectX тест на основе ядра 3ds Max (3dsmax-06) показал близкий к RTX 4090 результат. Схожий результат наблюдаем и в тесте, который имитирует ядра САПР Creo (creo-02) и CATIA (catia-05). Особенностью тестов графических ядер является определённая оптимизация под профессиональные ускорители и возможности драйверов для них. Но сейчас эта граница стирается, особенно с выходом драйвера NVIDIA Studio, сделавшего доступными многие функции GPU Quadro в GPU линейки GeForce.

В ходе предстоящего тестирования RTX 5090 уделим больше внимания работе GPU с графическими API и реализацией их возможностей в новой архитектуре.
Как новая архитектура показывает себя в нагрузках приложений, которые используют DirectX и его возможности? Интерактивная графика особенно интенсивно использует возможности GPU и всех компонентов системы. Как и многие другие обозреватели, мы проверили конфигурацию с помощью набора тестов 3DMark.

14.jpg

Рис. 13. Результаты тестов 3DMark

3DMark Fire Strike моделирует рабочую нагрузку видеоигр на основе DirectX 11 для высокопроизводительных ПК в разрешении Full HD. Ускоритель NVIDIA GeForce RTX 5080 продемонстрировал прирост производительности в сравнении с RTX 4090 на 11,7% и на 40,5% в сравнении с RTX 3090. Учитывая, что тест Fire Strike предназначен для разрешения Full HD (1920х1080), результат вполне обоснован. Но следующие тесты немного остудили «прыть» RTX 5080 и расположили её между RTX 3090 и 4090.

Тест Fire Strike Extreme также моделирует видеоигры и приложения на основе API DirectX 11. Но этот тест использует большее разрешение — 2.5K (2560х1440). В Extreme-тесте получили превосходство RTX 5080 над RTX 3090 на 48,3%. В сравнении с RTX 4090 видим, что RTX 5080 уступила на флагману предыдущего поколения на 2,2%.

В тесте Fire Strike Ultra для разрешения 4K, разница в результатах между RTX 5080 и RTX 4090 составляет 11,5% в пользу последней. Что близко к результату в тесте с разрешением Full HD. Зато ускоритель RTX 5080 превзошёл модель RTX 3090 на 47,83%.

Благодаря тестам стало понятно, что в синтетике новые ускорители показывают стабильный прирост производительности. Как в соотношении с предыдущим поколением ускорителей, так и с более ранним поколением. О чём мы уже говорили, RTX 5000-й серии будет отличным решением для апгрейда систем с GTX 1000-серии, RTX 2000-й и 3000-й серий. В качестве бонуса можно получить новейшие нейросетевые технологии и повышение производительности в современных играх и приложениях.

Следующая группа тестов Time Spy моделирует игровые приложения, которые используют DirectX 12. В тесте Time Spy Standard, который работает в разрешении 2,5K, RTX 5080 на 45,4% производительнее, чем RTX 3090. Но показала на 21,8% меньшую производительность в сравнении с RTX 4090.
Тест Time Spy Extreme, который моделирует 4K-гейминг, показал производительность RTX 5080 на 58% большую в сравнении с RTX 3090. Но RTX 5080 на 29,4% менее производительна, чем RTX 4090.

Одним из интересных технологических тестов является Mesh Shader Feature Test. Эта фича может быть очень востребованной в современных играх, которые используют DirectX 12 для повышения производительности.

NVIDIA в архитектуре Blackwell провела большую работу над расширением функциональности RT-ядер для реализации поддержки больших массивов геометрии и оптимизации трассировки лучей. Это существенно повышает уровень детализации в играх и предоставляет больше возможностей для создания реалистичных пространств с высокой детализацией.

15.jpg

Рис. 14. Новые возможности добавлены и в ядра трассировки лучей, которые являются неотъемлемой частью стримингового мультипроцессора. RT Cores получили новые функциональные возможности

Рассмотрим новые возможности RT-ядер в стриминговых мультипроцессорах архитектуры NVIDIA Blackwell. Первой новинкой стала технология Mega Geometry. Она направлена на значительное повышение детализации геометрии, которая доступна в приложениях с трассировкой лучей. Технология позволяет игровым движкам со встроенными системами уровня детализации (LOD) наподобие Nanite в Unreal Engine 5, выполнять трассировку лучей для геометрии с полной точностью. Больше не нужно использовать прокси-геометрию с низким разрешением для эффектов с трассировкой лучей. Это позволяет добиться нового уровня качества теней, отражений и непрямого освещения. Mega Geometry также позволяет использовать методы, которые ранее применяли лишь для фотореалистичного студийного рендеринга. Такие, как поверхности подразделения со смещением с трассировкой лучей в реальном времени.
Есть два основных препятствия, которые мешают простой интеграции трассировки лучей в системы вроде Nanite. Mega Geometry состоит из новых расширений API RTX, а также высокопроизводительной реализации драйвера и специальных оптимизаций в RT Cores от Blackwell, которые решают обе проблемы. Объясним подробнее.

Cluster-based LOD updates. По мере приближения или удаления объекта от камеры, игровой движок обычно корректирует уровень его детализации. То есть количество треугольников в отображаемой геометрии постоянно меняется. Многие традиционные методы предварительно вычисляют небольшое количество геометрии и представляют разные уровни LOD для заданного объекта. Системы вроде Nanite обновляют LOD, постепенно заменяя небольшие группы, примерно из 128 треугольников, которые называются «кластерами». Конфигурация кластеров, из которых состоит конечная отображаемая геометрия, может меняться очень часто. Например, в каждом кадре. Это ведёт к плавным переходам между уровнями детализации без резкого изменения формы и детализации объекта. Однако для трассировки лучей в геометрии нужно создать отдельную структуру данных — иерархию ограничивающих объёмов (Bounding Volume Hierarchy, BVH). Частые построения BVH перегрузили бы существующие реализации трассировки лучей. А это делает систему непригодной для приложений реального времени, включая видеоигры.

Mega Geometry содержит новые возможности построения BVH, где кластеры треугольников используют в качестве первоклассных примитивов. Новые структуры ускорения на уровне кластеров (CLAS) можно создавать на основе пространственно-компактных групп из 256 треугольников. Затем набор CLAS используют в качестве входных данных для построения окончательного BVH. CLAS можно создавать по запросу, например, при загрузке объекта с диска, а затем сохранять для будущих кадров. Поскольку каждый CLAS представляет собой набор примерно из 100 треугольников, обработка для последующих построений BVH сокращается на два порядка по сравнению с классическими методами. Игровой движок может планировать гораздо больше построений BVH на кадр и обрабатывать переключение кластерных уровней детализации, просто восстанавливая BVH затронутых объектов на основе CLAS.

16.jpg

Рис. 15. BVH и Mesh использующие кластеры (CLAS)

В качестве дальнейшего усовершенствования решений для трассировки лучей все API Mega Geometry предназначены для пакетной обработки, а их входные параметры полностью управляются из памяти графического процессора. Это позволяет игровому движку эффективно обсчитывать выбор уровня детализации, анимацию, отсечение и другие задачи на графическом процессоре, сводя к минимуму количество обращений к CPU. Благодаря эффективному использованию API-интерфейсов в Mega Geometry, приложение может практически полностью разгрузить центральный процессор от нагрузки, которая связана с управлением BVH.

17.jpg

Рис. 16. TLAS/BLAS Acceleration Structures и Cluster BLAS

Большое количество объектов. Игровые движки, которые делают акцент на высокой геометрической детализации, как правило, стремятся к увеличению количества объектов в сценах. Без Mega Geometry приложению приходится создавать TopLevel Acceleration Structure (TLAS) для всех объектов сцены в каждом кадре. Это хорошо работает при количестве объектов до нескольких тысяч, но становится слишком затратным по мере увеличения размеров игрового мира.

18.jpg

Рис. 17. NVIDIA Zorah Demo использует Mega Geometry и другие новые технологии Blackwell

Чтобы решить эту проблему, Mega Geometry представляет новый тип TLAS под названием Partitioned TopLevel Acceleration Structure (PTLAS). Вместо того, чтобы создавать новый TLAS с нуля для каждого кадра, PTLAS считает большинство объектов в сцене статичными от кадра к кадру. Приложение управляет постоянным объектом PTLAS, объединяя 3D-модели в разделы и обновляя только те, которые изменились. Например, игра разделяет секторы статичного игрового мира, сохраняя динамические объекты в «глобальном разделе», который перестраивается для каждого кадра. Чем меньше разделов обновляется, тем больше экономия времени по сравнению с традиционным TLAS.

19.jpg

Рис. 18. Partitioned Top-Level Acceleration Structure (PTLAS)

Поверхности подразделения. Хоть одной из основных целей Mega Geometry было создание первоклассной комбинации трассировки лучей с современными системами уровней детализации в игровых движках, её применение выходит за рамки этого конкретного случая. Гибкая генерация кластеров на основе графического процессора, а также невероятно быстрое построение BVH открывают множество новых возможностей для продвинутых техник работы с геометрией. Одним из примеров являются поверхности подразделения (Subdivision Surfaces).

Поверхности подразделения — это тип представления геометрии, который обычно используют в кинопроизводстве и других процессах высококачественного фотореалистичного рендеринга. Итеративное повышение плотности геометрии на основе четырёхугольников с помощью алгоритма подразделения Catmull-Clark и с дополнительным применением карт смещения позволяет получить деформируемые поверхности, сохраняя при этом высокую эффективность моделирования и удобство анимации.

Быстрая трассировка лучей на поверхностях подразделения обычно достигается путём разбиения их на треугольники. Для анимации или изменения точек обзора в каждом кадре нужна новая разбивка на треугольники. Это приводит к большому количеству дорогостоящих построений BVH. Mega Geometry позволяет приложению напрямую сопоставлять процесс тесселяции с генерацией кластеров и очень быстро создавать BVH на основе полученных CLAS. Метод обеспечивает высокую производительность в реальном времени при трассировке лучей на анимированных поверхностях с картами смещения.

Поддержка архитектуры и API Mega Geometry. Функциональность, связанная с управлением BVH, является основополагающим компонентом любой системы трассировки лучей. Mega Geometry — базовая технология, которая выводит возможности BVH на новый уровень и позволяет приложениям создавать более креативные и эффективные геометрические конвейеры. Уверены, что в будущем, Mega Geometry будет поддерживаться широким спектром API и аппаратного обеспечения.

Технология Mega Geometry доступна во всех API с трассировкой лучей и поддерживаемых NVIDIA:

  • DirectX 12 (DXR) расширен с помощью NVAPI для поддержки кластеров и PTLAS;
  • Vulkan добавляет расширения поставщиков для кластеров и PTLAS;
  • OptiX 9.0 добавляет встроенную поддержку кластеров.

Приятной новостью является то, что Mega Geometry поддерживают все графические процессоры RTX, начиная с Turing.

Улучшения в Blackwell RT Core для Mega Geometry

RT Cores 4-го поколения в Blackwell оптимизированы для работы с Mega Geometry. Специальные кластерные движки в аппаратном обеспечении реализуют новые методы сжатия геометрии и данных BVH. Обеспечивают в два раза более высокую скорость вычислений пересечения лучей с треугольниками по сравнению с RT Corers 3-го поколения. В результате Blackwell сокращает объём видеопамяти в типичных сценариях использования, например, в сценах Nanite, на несколько сотен мегабайт.

Linear Swept Spheres (LSS)

Для визуализации волос, меха, травы и других объектов, которые похожи на нити, рендер-движки используют различные варианты примитивов кривых. Для трассировки лучей эти примитивы обычно реализуют в программном обеспечении с использованием пользовательских шейдеров, которые вычисляют пересечение лучей. Однако выявление пересечения лучей и кривых требует больших вычислительных затрат. Это ограничивает использование кривых при рендеринге с трассировкой лучей в реальном времени и увеличивает время рендеринга для автономных средств рендеринга изображений.
Альтернативный подход для сценариев в режиме реального времени — использовать относительно грубые приближения для моделей волос. Например, карты текстур. Но это снижает качество изображения. Более эффективный, но и более дорогой метод — моделировать отдельные пряди с помощью треугольников. Одна из таких техник — Disjoint Orthogonal Triangle Strips (DOTS). Она использует геометрию из треугольных полос, расположенных в виде геометрической сетки. Полосы независимы друг от друга и не имеют общих вершин. Несмотря на более высокое качество, чем у метода на основе текстурных карт, при использовании разрозненного шаблона возникают артефакты на краях. Это приводит к ухудшению качества изображения, как показано на рисунке ниже.

20.jpg

Рис. 19. Sequence of Disjoint Orthogonal Triangle Strips (DOTS)

RT Core в Blackwell поддерживает аппаратное выявление пересечения лучей для нового примитива под названием Linear Swept Spheres (LSS). LSS похожа на тесселированную кривую, но строится путём развёртывания сфер в пространстве вдоль линейных сегментов. Радиусы сфер могут отличаться в начальной и конечной точках каждого сегмента, что позволяет гибко аппроксимировать различные типы нитей. В качестве частного случая аппаратный примитив LSS в Blackwell также поддерживает стандартные сферы (без развёрнутого линейного сегмента), что полезно, например, для систем частиц.
В распространённых сценариях использования, вроде рендеринга волос на людях, LSS примерно в два раза быстрее, чем DOTS. При этом требует примерно в пять раз меньше видеопамяти для хранения геометрии.

21.jpg

Рис. 20. Sequence of Linear-Swept Spheres (LSS)

В процессе тестирования, с обновлением драйвера и набора тестов 3DMark, удалось получить превосходный результат в тесте с геометрическими шейдерами — Mesh Shaders. Новый ускоритель RTX 5080 продемонстрировал значительный прирост производительности при использовании геометрических шейдеров в сравнении с тестом без них. Без шейдеров тест демонстрирует частоту в 384,94 FPS, а при использовании шейдероов — 837,87 FPS.

Мы обязательно протестируем новые технологии в видеоиграх, как только станет доступна флагманская видеокарта RTX 5090. Также на данный момент далеко не все игры поддерживают новые возможности, реализованные в DirectX 12 или Vulkan, и в которых доступна технология Mega Geometry. Мы ожидаем внедрения в игры поддержки примитивов Linear Swept Spheres (LSS), которые позволят моделировать реалистичное затенение волос и меха в моделях персонажей. И повысят качество затенения на сложных материалах.

Для тестирования GPU в рабочих нагрузках и разных вычислительных задачах, прогнали RTX 5080 через наборов тестов Geekbench 6.

22.jpg

Рис. 21. Результаты тестов Geekbench 6 GPU OpenCL API

В тесте Geekbench 6 GPU на основе API OpenCL получили аналогичный предыдущим тестам результат. Новый ускоритель RTX 5080 демонстрирует уверенное превосходство над ускорителями 3000-й серии. Взяв за основу данные наших тестов для RTX 3080 Ti и RTX 4080 SUPER, ускоритель RTX 5080 показал прирост на 7,6% в сравнении с RTX 4080 SUPER . RTX 5080 на 47,9% эффективнее RTX 3080 Ti и на 29,7% — RTX 3090 Founders Edition. Ожидаемо, что новый ускоритель уступил модели RTX 4090. Флагман 4000-й серии в тесте Geekbench 6 продемонстрировал производительность выше RTX 5080 на 24,8%.

Обратите внимание, что это ускорители из разных ценовых категорий и со значительными отличиями в характеристиках. Наиболее полно архитектура NVIDIA Blackwell продемонстрирует себя в сравнении представителей флагманских моделей: RTX 3090, RTX 4090 и RTX 5090. Но учитывая доступные значения для моделей RTX X080, мы видим значительный буст по отношению к 3000-й серии и удовлетворительный в сравнении с 4000-й серией.

23.jpg

Рис. 22. Результаты тестов Geekbench 6 GPU Vulkan API

В ходе теста на основе API Vulkan получили интересный результат. Новый ускоритель RTX 5080 превзошёл RTX 4090 на 14%. Что удивительно. Но если просматривать базу данных Geekbench 6, подобный результат для 4090 наблюдается во многих тестах. Но есть и исключения. Мы считаем, что дело в особенностях драйвера видеокарты и системах, которые принимали участие в тестировании. Но если сравнивать с ускорителями одного модельного ряда, то RTX 5080 превосходит RTX 4080 SUPER на 6,3% и RTX 3080 Ti на 58,2%. Сравнивая новинку с RTX 3090, получили результат в тесте выше на 50%, что ещё раз показывает неплохие перспективы для апгрейда системы.

24.jpg

Рис. 23. Результаты тестов Geekbench 6 CPU Single-Core

Для тестирования использовали конфигурацию с CPU AMD Ryzen 7 9800X3D, поэтому не упустили возможность заодно оценить и производительность новинки AMD. Новый процессор в однопоточном тесте Geekbench 6 показал наилучший результат в сравнении с другими CPU. Он обошёл процессор Intel Core i9-14900KF на 1,6%. Если же сравнить с процессорами предыдущих поколений, новый процессор AMD на 69,5% превзошёл референс в лице Intel Core i9-10900KF и на 19,2% предшественника — AMD Ryzen 7 7800X3D.

25.jpg

Рис. 24. Результаты тестов Geekbench 6 CPU Multi-Core

В многопоточном тестировании дают о себе знать меньшее количество потоков в сравнении с Intel Core i9-14900KF. У Intel доступны 8 P-ядер, 16 E-ядер и 32 потока благодаря технологии Hyper-Threading. У нового процессора AMD 8 полноценных ядер на базе архитектуры Zen 5 и 16 потоков благодаря поддержке Simultaneous Multithreading (SMT). Наличие эффективных ядер позволяет процессору Intel в многопоточных алгоритмах лидировать даже в сравнении с последними моделями процессоров AMD. Intel Core i9-14900KF в Multi-Core тесте на 30,5% производительнее, чем AMD Ryzen 7 9800X3D. Процессор Intel Core i5-14600KF также показал результат на 10% лучше. Это также объясняется большим количеством потоков у процессора Intel.

Если сравнить новый AMD Ryzen 7 9800X3D c предшественником AMD Ryzen 7 7800X3D на базе архитектуры Zen 4, новый процессор на 8% производительнее.
Неоспоримым преимуществом последних поколений процессоров AMD и Intel является наличие поддержки PCI Express 5.0. Что позволяет использовать возможности ускорителей RTX 5000-й серии по максимуму. Выбрать подходящий процессор, можно в конфигураторе DigitalRazor.

Ознакомившись с результатами групповых тестов и оценив производительность новой архитектуры NVIDIA Balckwell, перейдём к результатам тестов на основе реальных ядер визуализации, которые используют в производстве компьютерной графики.

Первым делом протестировали ядро визуализации V-Ray 5 с помощью V-Ray 5 Bechmark.

ВАЖНО! Сегодня уже доступен V-Ray 6 Benchmark, но в ходе тестирования мы выявили нестабильность работы теста с драйвером NVIDIA 572.02. Впоследствии разработчики из Chaos обновили тест, а NVIDIA выпустила стабильный драйвер 572.16. Как только GeForce RTX 5090 будет доступна, мы протестируем обе модели GPU 5000-й серии с помощью V-Ray 6 Benchmark.

Систему визуализации V-Ray 5 до сих пор используют в производстве компьютерной графики. А результаты теста V-Ray 5 Benchmark регулярно собирают для множества процессоров и графических ускорителей. Тест позволяет оценить производительность новой архитектуры GPU в CUDA, гибридной и RTX-версиях ядра V-Ray.

26.jpg

Рис. 25. Результаты тестов V-Ray 5 Benchmark GPU Engine

В тесте на основе полноценного ядра визуализации V-Ray, наблюдаем аналогичный комплексным испытаниям результат. Графический ускоритель NVIDIA GeForce RTX 5080 демонстрирует серьёзное превосходство над ускорителями 3000-й серии. В версии ядра V-Ray GPU CUDA он обошёл по производительности ускоритель RTX 3090 на 76%, а модель 3060 Ti — на 111%. Также новая видеокарта оказалась на 55% производительнее RTX 4060 Ti.
Если сравнить с флагманом 4000-й серии, то RTX 4090 производительнее RTX 5080 на 9,5%. Но это и понятно. Ведь технически RTX 4090 обладает большим числом CUDA-ядер, что положительно сказывается на скорости визуализации в V-Ray GPU CUDA.

В гибридном тесте (V-Ray GPU CUDA+CPU) на результат влияет не только производительность GPU, но и CPU. В гибридном тесте RTX 5080 на 69% производительне RTX 3090. Но здесь мог повлиять процессор. В референс-системе с RTX 3090 использовали процессор Intel Core i9-10900KF, а в системе с RTX 5080 — AMD Ryzen 7 9800X3D. Производительность последнего выше процессора референс-системы на 44,5%.

В случае сравнения производительности с RTX 4090, флагман на основе архитектуры NVIDIA Ada в тандеме с процессором AMD Ryzen Threadripper Pro 5975WX, показал результат на 23,5% выше, чем система на базе AMD Ryzen 7 9800X3D + RTX 5080.

При использовании ядра V-Ray GPU RTX, которое опирается на возможности библиотеки NVIDIA OptiX, новое поколение GPU показывает прирост производительности на 63% в сравнении с RTX 3090. При этом уступает RTX 4090 на 22%. Это также является вполне закономерным результатом.
Использование библиотеки OptiX, которая использует возможности RT-ядер, положительно сказывается на производительности любого движка рендеринга. А с реализацией поддержки Mega Geometry в движках рендеринга на основе DirectX и Vulkan, появляется возможность работать с комплексной и высокодетализированной геометрией на уровне GPU в будущем. Это поможет значительно повысить производительность CG-художников.

27.jpg

Рис. 26. Результаты тестов V-Ray 5 Benchmark CPU Engine

Мы не обошли стороной тестирование в CPU-версии ядра V-Ray 5 Benchmark. Здесь процессор AMD Ryzen 7 9800X3D уступил только модели Intel Core i9-13900KF. Производительность флагмана Intel 13-го поколения на 49,5% выше 9800X3D. Если же сравнить с использованным в качестве референса процессором Intel 10-го поколения, то новый процессор AMD продемонстрировал превосходство на 44,5%.

Второй тест на основе реального ядра рендеринга осуществили в бенчмарке Indigo Renderer. Indigo Renderer — полноценный рендер-движок, который использует возможности графического процессора для визуализации трёхмерных сцен.

28.jpg

Рис. 27. Результаты теста IndigoBenchmark.

GPU на базе архитектуры NVIDIA Blackwell продемонстрировал результат, аналогичный предыдущим тестам. RTX 5080 превзошел RTX 3090 на 30,4% в сцене Supercar, и на 21% в сцене Bedroom.

Ускоритель нового поколения показывает прирост производительности в сравнении с представителем предыдущего поколения на базе архитектуры NVIDIA Ada. Здесь мы видим определённый прирост в производительности новой архитектуры. Так в сцене Supercar RTX 5080 на 15,7% производительнее RTX 4080. В тесте со сценой Bedroom новый ускоритель производительнее на 11,8%.

В сравнении с флагманом 4000-й серии ситуация предсказуемая. В сцене Supercar RTX 4090 на 18,8% производительнее RTX 5080, а в сцене Bedroom — на 38,7%.

Как вы помните, нам были интересны результаты тестов в полноценном приложении. За основу взяли Blender трёх разных версий. В тестировании ядра Cycles мы использовали Blender 3.6.19 LTS, Blender 4.2.5 LTS и будущий релиз Blender 4.4 (Alpha, сборка main.bf732e42374f от 27 января 2025 года). Протестировали новый ускоритель как с помощью демонстрационных сцен с разными типами геометрии, процедурными эффектами и эффектами затенения, так и с помощью сцены, которую специально подготовили для тестирования компьютерных систем.

29.jpg

Рис. 28. Результаты тестов Blender 3.6 LTS в CUDA-версии Cycles GPU Engine

Тесты в приложении для 3D-анимации и визуализации показывают достаточно интересные результаты. Взять хотя бы сцену Spring, где активно задействованы процедурная модель на основе Geometry Nodes, мех и CUDA-версия ядра Cycles. Ускоритель на базе архитектуры NVIDIA Blackwell продемонстрировал очень приятный результат. Он превзошел ускоритель на базе архитектуры NVIDIA Ampere на 148%, а ускоритель на архитектуре NVIDIA Ada — на 96%.

30.jpg

Рис. 29. Сцена Spring, которая визуализируется с помощью Blender Cycles GPU
А вот в сцене Grossbery, где большое количество волос и меха для цифровых персонажей и окружения, ситуация изменилась. Ускоритель на базе архитектуры NVIDIA Blackwell демонстрирует лучший на 36,6% результат, в сравнении с ускорителем на базе архитектуры NVIDIA Ampere. Но уступает ускорителю на базе архитектуры NVIDIA Ampere на 21%.

31.jpg

Рис. 30. Сцена Grossbery, которая визуализируется с помощью Blender Cycles GPU

Третий пример — интерьер. В интерьерах моделируется множественное переотражение света. Здесь нет сложных моделей меха и волос, нет инстанс-геометрии. В этом тесте новый ускоритель показал результат на 100% превосходящий RTX 3090, но на 27,3% уступил ускорителю RTX 4090. При должной оптимизации ядра Cycles можно получить максимально близкий к RTX 4090 результат, что продемонстрировали дальнейшие тесты.

32.jpg

Рис. 31. Сцена Classroom, которая визуализируется с помощью Blender Cycles GPU

С появлением архитектуры NVIDIA Turing и расширением возможностей RT Cores, пакет Blender стал активно внедрять в ядро визуализации Cycles GPU поддержку NVIDIA OptiX. Это благоприятно сказалось на производительности и повысило скорость визуализации изображений.

33.jpg

Рис. 32. Результаты тестов Blender 3.6 LTS в OptiX версии Cycles GPU Engine

В тестах мы сравнили время визуализации трёх сцен с помощью Cycles GPU в режиме OptiX. Как и в тестах в режиме CUDA, сцена Spring была визуализирована RTX 5080 на 81% быстрее, чем RTX 3090, и на 19,2% быстрее RTX 4090.

В то же время, мы получили хоть и лучшие по времени, но аналогичные по производительности результаты, в сценах Grossbery и Classroom.
Сцена Grossbery на 36,6% быстрее визуализируется на RTX 5080 в сравнении с RTX 3090. Новый ускоритель на 20,6% уступил RTX 4090. В целом, мы получили результат аналогичный тесту с CUDA-версией ядра.

В сцене Classroom RTX 5080 оказалась производительнее RTX 3090 на 89%. Но уступила RTX 4090 на 28,6%. Что интересно, если в процентном соотношении мы получили незначительные отличия в разных тестах и разных версиях ядра, именно Cycles GPU OptiX показывает достойный результат как на ускорителях предыдущего поколения, так и на базе архитектуры NVIDIA Blackwell.

С переходом на OptiX 9.0 в перспективе мы можем получить значительный буст в скорости визуализации именно на ускорителях с новой архитектурой NVIDIA Blackwell. Но в данный момент в том-же Blender всё ещё не реализована поддержка новой версии библиотеки OptiX.

Как себя показывают разные версии ядра Cycles на GPU архитектуры Blackwell? Мы провели тестирование Blender Cycles версий 3.6.19, 4.2.5 и альфа версии 4.4.0.

В качестве референс-ускорителя служит RTX 3090. Тесты выполнены для трёх сцен, но в разных версиях Blender на одном ускорителе RTX 5080.

34.jpg

Рис. 33. Результаты тестов трех версий Blender Cycles на NVIDIA GeForce RTX 5080

Тесты показывают, что оптимизации ядра визуализации, которые на текущий момент находятся в процессе разработки, демонстрируют наилучшую производительность в CUDA-версии Cycles. В то же время OptiX-версия ядра незначительно уступает в скорости визуализации сцены Spring именно в 4-й версии Blender Cycles.

В сцене Grossbery лучший результат показала версия Cycles 4.2.5, а в Classroom — версии 4.2.5 и 4.4.0 продемонстрировали идентичные результаты. Большинство тестов уверенно демонстрируют превосходство обновлённых версий ядра Cycles над версией 3.6.

Последним тестом в Blender стала визуализация сцены с реального проекта, созданного и оптимизированного под определённую версию. Это сцена интерьера, которую визуализировали в Blender 3.6.19 в двух разрешениях: 3508x2480 и 1754x1240.

35.jpg

Рис. 34. Изображение интерьера комнаты, полученное в ходе визуализации сцены

Сцена содержит матовые и глянцевые материалы, мех (имитация коврового ворса), подповерхностное рассеивание, прозрачные и преломляющие материалы. Для визуализации выбрали GPU-версию ядра Cycles. В качестве референс-ускорителя использовали ускоритель NVIDIA GeForce RTX 3090 Founders Edition.

36.jpg

Рис. 35. Результаты визуализации тестовой сцены в двух разрешениях 3508x2480 и 1754x1240 с применением ядра Cycles GPU CUDA и Cycles GPU OptiX

Результат теста со сценой из реального проекта показал, что GPU на основе архитектуры NVIDIA Blackwell производительнее GPU на основе NVIDIA Ampere на 24–28%. В процессе визуализации в разрешении 3508x2480 на ядре Cycles GPU CUDA производительность нового GPU на 23,8% выше, чем у RTX 3090. В случае с ядром Cycles GPU OptiX производительность RTX 5080 на 27% выше, чем у RTX 3090.

Если разрешение уменьшить на 50%, ядро визуализации в обоих режимах показывает результат в 28,5%. Различие между ядрами минимально. Для «небольших» изображений это вполне хороший показатель. А для разрешений в формате 4K и выше разница становится ощутимой. Так что выбор версии Cycles на базе API OptiX более предпочтителен

Итог тестирования

Тестирование наглядно продемонстрировало, что у графических ускорителей 5000-й серии есть потенциал. Новая архитектура NVIDIA Blackwell предлагает возможности для использования новых технологий в профессиональном сегменте. Стало возможным аппаратное ускорение в обработке больших массивов геометрии и повышение скорости вычислений в трассировке лучей в сценах с высокой детализацией и тесселяцией.
Но всё это потребует обновления программного обеспечения, интерактивных приложений и игр.

Ускорители GeForce RTX 5000-й серии станут отличным обновлением систем с ускорителями 2000-й и 3000-й серий. Что наглядно продемонстрировало наше исследование.

Под вопросом остаётся лишь применение новых видеоускорителей NVIDIA в качестве обновления 4000-й серии. Здесь можно рассчитывать на буст именно за счёт реализации потенциала всех технологий, доступных в новой архитектуре и программном обеспечении, которое их использует.
Но точно можно ожидать серьезного повышения производительности у флагмана RTX 5090 в сравнении с RTX 4090. Особенно это будет заметно в приложениях и играх, в которых используют все новые технологии.

Особого внимания заслуживают новые технологии Mega Geometry, Shader Execution Reordering (SER) 2.0, AI Management Processor (AMP), которые доступны на аппаратном уровне чипов NVIDIA Blackwell. Они повысят производительность в работе с комплексными 3D-моделями, множеством деталей, сложным освещением и затенением.

Ускорители 5000-й серии станут отличным дополнением рабочего места специалистов, которые создают контент. Архитектура NVIDIA Blackwell предлагает большие возможности для монтажёров, создателей визуальных эффектов, звукорежиссёров, аниматоров и 3D-художников. Достаточно пары ускорителей GeForce RTX 5000-й серии с программными решениями NVIDIA и у вас в руках мощный рабочий инструмент.
Стоит присмотреться к уже существующим движкам визуализации на основе DirectX 12 с поддержкой DXR или на основе Vulkan. К ним можно отнести D5 Renderer, Chaos Vantage, Chaos Envision и Blender EEVEE. Визуализировать комплексные модели с высоким качеством проработки финальной картинки стало значительно проще, чем это было раньше.

Игровые компьютеры и рабочие станции с NVIDIA GeForce RTX 5080 и AMD Ryzen 7 9800X3D можно собрать вконфигураторе DigitalRazor.

779
Комментарии:0
по поступлениюВсе языкиТолько русский