Тестирование NVIDIA GeForce RTX 3090 Founders Edition. Производительность архитектуры NVIDIA Ampere в деталях.
Приветствую вас уважаемые читатели. Я продолжаю изучение и исследование возможностей GPU на базе архитектуры NVIDIA Ampere, и подготовил для вас вторую часть, посвященную обзору графического ускорителя NVIDIA GeForce RTX 3090 Founders Edition, оригинальная модель, в дизайне разработанном силами самой NVIDIA. А здесь есть на что посмотреть.
В первой статье, я познакомил вас с архитектурой NVIDIA Turing и ее, ключевыми возможностями. В данной публикации, я опишу только основные изменения в архитектуре для потребительских ускорителей, создаваемые на основе GPU NVIDIA GA102. В частности, ко мне была доставлена давно ожидаемая мною NVIDIA GeForce RTX 3090 Founders Edition, которую я планирую использовать в работе над своими новыми проектами, и которую можно заказать и приобрести на сайте NVIDIA и её партнеров.
О платформе и стеке NVIDIA STUDIO я подробно писал в нескольких статьях:
- Архитектура NVIDIA Ampere, обзор и тестирование PALIT GeForce RTX 3090 GamingPro
- Знакомимся с NVIDIA STUDIO
- MSI Prestige P65 Creator 9SF - инициатива RTX STUDIO в металле
- Тестирование мобильной рабочей станции MSI Mobile Workstation WS65
- Взгляд на платформу NVIDIA STUDIO спустя год. Тест-драйв HYPERPC PRO T7 STUDIO
- Введение в решения для обработки данных
Буквально пару месяцев назад были представлены графические ускорители семейства NVIDIA GeForce RTX 30-й серии. Разработчики специально создали модификации GPU GA102 и GA104 с поддержкой ядер RT Core и обеспечили двукратный прирост производительности в задачах с ИИ и МО, а также в трассировке луча.
Перед вашим знакомством с результатами тестирования, я опишу ключевые возможности, реализованные в архитектуре NVIDIA Ampere. Сделав небольшое сравнение двух модификаций архитектуры GPU, реализующие определенные функции.
Архитектура GPU GA102
С момента изобретения первого в мире графического процессора (GPU) в 1999 году, графические процессоры NVIDIA находятся в авангарде трехмерной графики и вычислений с GPU-ускорением. Каждая архитектура GPU NVIDIA тщательно разрабатывается для обеспечения высокого уровня производительности и эффективности.
Для потребительского рынка и рынка профессиональных рабочих станций на основе архитектуры NVIDIA Ampere, в NVIDIA разработали модели GPU GA102 и GA104. Это младшие модели чипа GA100, но рассчитанные на применение в графических ускорителях для настольных и мобильных компьютеров, а также серверах. На их основе строятся ускорители линеек NVIDIA GeForce RTX и NVIDIA Quadro (далее NVIDIA A6000).
В данном разделе я постараюсь проанализировать и описать новейшие модели графических ускорителей на базе архитектуры NVIDIA Ampere, использующие чипы GA102 и GA104. Чипы GA102 и GA104 являются частью нового класса GPU NVIDIA «GA10x» на основе архитектуры NVIDIA Ampere. Графические процессоры GA10x продолжают идеи заложенные в революционной архитектуре GPU NVIDIA Turing. Архитектура NVIDIA Turing была первой в мире, которая предлагала высокопроизводительную трассировку лучей в реальном времени, графику с ускорением с помощью AI, энергоэффективное ускорение получения результатов вычислений для центров обработки данных и профессиональная визуализация графики - все в одном продукте.
Графические процессоры GA10x добавляют множество новых функций и обеспечивают значительно более высокую производительность, чем графические процессоры на основе архитектуры NVIDIA Turing. Кроме того, графические процессоры GA10x тщательно продуманы, чтобы обеспечить лучшую производительность в каждой области и энергоэффективность для традиционных вычислительных задач связанных с графикой, а тем более для приложений с трассировкой лучей в реальном времени. По сравнению с архитектурой NVIDIA Turing, архитектура NVIDIA Ampere до 1.7 раза быстрее в традиционных задачах с растровой графикой и до 2 раз быстрее при трассировке лучей.
Рис. 1. Блок-диаграмма GPU GA102. Данный GPU используется в графических ускорителях NVIDIA GeForce RTX 3090 и NVIDIA A6000.
Чип GA102 - самый мощный графический процессор с архитектурой NVIDIA Ampere в линейке GA10x, который используется в графических ускорителях NVIDIA GeForce RTX 3090, NVIDIA GeForce RTX 3080 и A6000. NVIDIA GeForce RTX 3090 - самый высокопроизводительный графический ускоритель в линейке NVIDIA GeForce RTX, созданный для игр с поддержкой разрешения 8K HDR. Благодаря 10496 ядрам CUDA, 24 ГБ памяти GDDR6X и новому активному режиму DLSS 8K, графический ускоритель может запускать многие игры с разрешением 8K при 60 кадрах в секунду.
Поддержка нового HDMI 2.1 и кодека AV1 в графических процессорах GA10x позволяют пользователям транслировать контент в формате 8K с поддержкой HDR. Кроме того, производительность NVIDIA GeForce RTX 3080 до 2 раз выше, чем у NVIDIA GeForce RTX 2080. Наконец, графический процессор NVIDIA GeForce RTX 3070 использует новый графический чип GA104 и предлагает производительность, которая конкурирует с флагманским графическим процессором NVIDIA предыдущего поколения, GeForce RTX 2080 Ti.
Ключевые возможности GA102
Графический процессор GA102 на базе архитектуры NVIDIA Ampere, изготовленный по 8-нм техпроцессу 8N NVIDIA Custom от Samsung, включает 28.3 миллиарда транзисторов с размером кристалла 628.4 мм2. В основе графических ускорителей NVIDIA GeForce RTX лежит GPU GA102, содержащий три различных типа вычислительных элементов:
- Программируемые ядра шейдинга (Shading Cores), состоящие из ядер NVIDIA CUDA
- Ядра RT Core, которые ускоряют вычисления Bounding Volume Hierarchy (BVH) и выявление пересечения геометрии сцены во время трассировки лучей
- Тензорные ядра (Tensor Core), которые обеспечивают огромное ускорение обучения нейронных сетей ИИ и получения логических выводов.
Полноценный графический процессор NVIDIA GA102 включает 10752 ядра CUDA, 84 ядра RT Core второго поколения и 336 ядер Tensor Core третьего поколения и является самым мощным потребительским графическим процессором, который NVIDIA когда-либо создавала для обработки графики. SM в GA102 удваивает количество операций FP32 за такт, по сравнению с SM в NVIDIA Turing, что достигает производительности на уровне 30 TFLOPS при обработке шейдеров силами NVIDIA GeForce RTX 3080 (в эквивалентном GPU на базе NVIDIA Turing, производительность составляет до 11 TFLOPS). Точно так же ядра RT Core предлагают вдвое большую пропускную способность для тестирования пересечения лучей/треугольников, что дает 58 RT TFLOPS (в сравнении с 34 на базе NVIDIA Turing). Наконец, новые тензорные ядра в GA102 могут обрабатывать разряженные нейронные сети в два раза быстрее, чем тензорные ядра в чипах NVIDIA Turing, которые не поддерживают разряженность. В вычислениях на тензорных ядрах производительность доходит до 238 TFLOPS на RTX 3080 по сравнению с 89 TFLOPS на RTX 2080.
Двукратное увеличение обработки FP32 (2x FP32 Processing)
Большинство графических вычислений состоят из 32-битных операций с плавающей запятой (FP32). Стриминговый мультипроцессор (SM) в архитектуре графических процессоров GA10x был разработан для поддержки обработки операций FP32 с удвоенной скоростью. В NVIDIA Turing каждый из четырех блоков обработки SM (также называемых разделами) имел два основных канала данных, но только один из двух мог обрабатывать операции FP32. Другой путь к данным был ограничен целочисленными операциями. GA10x включает операции FP32 на обоих каналах данных, удваивая пиковую скорость обработки для операций FP32. В результате NVIDIA GeForce RTX 3090 обеспечивает более 35 FP32 TFLOPS, что более чем в два раза больше по сравнению с графическими процессорами на основе архитектуры NVIDIA Turing.
RT Core второго поколения
Новые ядра RT Core включают ряд усовершенствований в сочетании с улучшениями подсистем кэширования, которые эффективно обеспечивают повышение производительности до 2 раз в сравнении с ядрами RT Core в графических процессорах NVIDIA Turing. Кроме того, SM в GA10x позволяет одновременно выполнять трассировку луча с помощью RT Core и вычислять графику или вычисления общего назначения, что значительно ускоряет многие операции с трассировкой лучей.
Tensor Cores третьего поколения
SM в GA10x включает новые тензорные ядра NVIDIA третьего поколения, которые поддерживают множество новых типов данных для повышения производительности, эффективности и гибкости программирования. Новая функция Sparsity может использовать преимущества мелкоэлементной структурированной разреженности в сетях глубокого обучения, чтобы удвоить пропускную способность операций Tensor Core по сравнению с тензорными ядрами предыдущего поколения в NVIDIA Turing. Тензорные ядра третьего поколения ускоряют функции AI, такие как NVIDIA DLSS для формирования изображения сверхвысокого разрешения, с поддержкой разрешений до 8K, приложение NVIDIA Broadcast для видео- и голосовой связи с улучшенным AI и приложение NVIDIA Canvas для рисования на основе AI.
Память GDDR6X
Память стандарта GDDR6X является новейшей высокоскоростной графической памятью. В настоящее время он поддерживает скорость 19.5 Гбит/с для NVIDIA GeForce RTX 3090 и 19 Гбит/с для NVIDIA GeForce RTX 3080. Благодаря 320-битному интерфейсу памяти и памяти стандарта GDDR6X NVIDIA GeForce RTX 3080 обеспечивает в 1.5 раза большую пропускную способность памяти, чем в предшествовавшей модели RTX 2080 SUPER.
Третье поколение шины NVLink в GA102
Графические ускорители на основе чипа GA102 аналогично чипу GA100 используют интерфейс NVIDIA NVLink третьего поколения, который включает четыре канала x4, каждый из которых обеспечивает пропускную способность 14.0625 Гб/с в каждом направлении между двумя графическими процессорами. Четыре канала обеспечивают пропускную способность 56.25 Гб/с в каждом направлении и общую пропускную способность 112.5 Гб/с между двумя графическими процессорами. Для реализации режима SLI два графических процессора RTX 3090 могут быть соединены вместе с помощью NVLink. (Обратите внимание, что конфигурации 3-Way и 4-Way SLI не поддерживаются.)
Поддержка PCIe Gen 4
Графические ускорители на основе GPU GA10x оснащены хост-интерфейсом PCI Express 4.0. PCI-E 4.0 обеспечивает вдвое большую пропускную способность по сравнению с PCIe 3.0, скорость передачи данных до 16 гигатрансферов в секунду (GT/s), а слот PCIe 4.0 x16 обеспечивает пиковую пропускную способность до 64 Гб/с.
Первым ускорителем на основе архитектуры NVIDIA Ampere и чипов GA10x является GeForce RTX 3080. В таблице 2, представленной ниже, приведено высокоуровневое сравнение GeForce RTX 3080 с его предшественником, RTX 2080 SUPER.
Внутри архитектуры Ampere GPU
Как и предыдущие графические процессоры NVIDIA, GA102 состоит из кластеров обработки графики (GPC), кластеров обработки текстур (TPC), потоковых мультипроцессоров (SM), растровых операторов (ROPS) и контроллеров памяти. Весь графический процессор GA102 содержит 7 GPC, 42 TPC и 84 SM.
GPC - это доминирующий аппаратный блок высокого уровня, в котором все ключевые графические процессоры находятся внутри GPC. Каждый GPC включает в себя выделенный Raster Engine, а теперь также включает два раздела ROP (каждый раздел содержит восемь блоков ROP), что является новой функцией для графических процессоров на основе архитектуры NVIDIA Ampere и более подробно описывается ниже. GPC включает шесть TPC, каждый из которых включает два SM и один PolyMorph Engine.
Рис. 2. Блок-диаграмма SM чипа GA102. В отличие от GA100, в SM реализовано ядро RT Core второго поколения. Но для его реализации снижено количество тензорных ядер (Tensor Core).
Каждый SM в графических процессорах GA10x содержит 128 ядер CUDA, четыре ядра Tensor Core третьего поколения, регистровый файл объемом 256 КБ, четыре текстурных блока, одно ядро RT Core второго поколения и 128 Кб L1/общей памяти, которые могут быть настроены для различной мощности в зависимости от потребностей вычислительных или графических задач.
Подсистема памяти GA102 состоит из двенадцати 32-битных контроллеров памяти (всего 384-битных). 512 КБ кеш-памяти L2 подключены к каждому 32-разрядному контроллеру памяти, всего 6144 КБ на полный GPU GA102.
Оптимизации ROP
В предыдущих графических процессорах NVIDIA, ROP были привязаны к контроллеру памяти и кэш-памяти L2. Начиная с графических процессоров GA10x, ROP теперь являются частью GPC, что повышает производительность растровых операций за счет увеличения общего количества ROP и устранения несоответствий между числом растеризируемых и обрабатываемых блоками растровых операций пикселей.
С семью GPC и 16 блоками ROP/GPC, графический процессор GA102 состоит из 112 ROP вместо 96 ROPS, которые ранее были доступны в графическом процессоре с интерфейсом памяти в 384-бит, таком как TU102. Это улучшает производительность сглаживания MSAA (Multisampling Anti-Aliasing), скорость заполнения пикселей и производительность наложений и смешивания.
Архитектура SM в GA10x
Архитектура SM в NVIDIA Turing была первой, которая включала выделенные ядра для операций трассировки лучей. Графические процессоры NVIDIA Volta представили Tensor Core, а NVIDIA Turing тензорные ядра второго поколения. Еще одним нововведением, поддерживаемым SM в NVIDIA Turing и NVIDIA Volta, было одновременное выполнение операций FP32 и INT32. SM в GA10x улучшает все вышеперечисленные возможности, а также добавляет множество новых мощных функций.
Как и предыдущие графические процессоры, SM в GA10x разделен на четыре вычислительных блока (или раздела), каждый из которых имеет регистровый файл размером 64 КБ, кэш инструкций L0, один планировщик wrap sheduller, один модуль диспетчеризации и наборы математических и других модулей. Четыре раздела совместно используют подсистему кэша данных L1/общей памяти объемом 128 КБ.
В отличие от SM в TU102, который включал в себя два Tensor Core второго поколения на блок, всего восемь Tensor Core на GPU; SM в новом GA10x включает в себя одно тензорное ядро третьего поколения на блок и четыре тензорных ядра в сумме на весь GPU, причем каждое тензорное ядро GA10x в два раза мощнее, чем Tensor Core в архитектуре Turing.
По сравнению с Turing, объединенный кэш данных L1 и общая память SM в GA10x на 33% больше. Для задач связанных с графическими вычислениями емкость раздела кэша увеличена вдвое по сравнению с Turing, с 32 КБ до 64 КБ.
Двукратное повышение пропускной способности FP32
В архитектуре NVIDIA Turing каждый из четырех вычислительных блоков SM имел два основных канала данных, но только один из них мог обрабатывать операции FP32. Другой путь к данным был ограничен целочисленными операциями. GA10X включает обработку FP32 на обоих каналах данных, удваивая пиковую скорость обработки для операций FP32. Один канал данных в каждом разделе состоит из 16 ядер CUDA FP32, способных выполнять 16 операций FP32 за такт. Другой канал данных состоит из 16 ядер CUDA FP32 и 16 ядер INT32 и может выполнять либо 16 операций FP32, либо 16 операций INT32 за такт. В результате этой новой конструкции каждый SM блок GA10x способен выполнять либо 32 операции FP32 за такт, либо 16 операций FP32 и 16 операций INT32 за такт. Все четыре блока SM вместе могут выполнять 128 операций FP32 за такт, что вдвое превышает скорость FP32 блока SM в архитектуре Turing, или 64 операции FP32 и 64 операции INT32 за такт.
Современные игровые приложения и решаемые в них задачи имеют широкий спектр потребностей в обработке. Многие процессы содержат сочетание арифметических инструкций FP32 (таких как FFMA, сложение с плавающей запятой (FADD) или умножение с плавающей запятой (FMUL)), а также множество более простых целочисленных инструкций, таких как добавление для адресации и выборки данных, сравнение с плавающей запятой, или min/max для результатов обработки и т. д.
Архитектура NVIDIA Turing представила в SM второй математический путь данных, который обеспечил значительное повышение производительности для этих типов задач. Однако в других задачах могут преобладать инструкции с плавающей запятой. Добавление возможности вычислений с плавающей запятой ко второму каналу данных значительно облегчит выполнение этих задач. Прирост производительности будет варьироваться на уровне шейдера и приложения в зависимости от сочетания инструкций. Шейдеры устранения шума с трассировкой лучей - хороший пример задачи, которая может значительно выиграть от удвоения пропускной способности FP32.
Блоки SM в GA10x продолжают поддерживать двухскоростные операции FP16 (HFMA), которые поддерживаются и в NVIDIA Turing. И соответственно как в графических процессорах TU102, TU104 и TU106, стандартные операции FP16 обрабатываются тензорными ядрами в графических процессорах GA10x.
Таблица 1. Сравнительные факторы-Х пропускной способности FP32. Относительно операций FP32 в графическом процессоре NVIDIA Pascal GP102, используемом в GeForce GTX 1080 Ti
Большая и быстрая унифицированная распределенная память и кэш данных L1
Как я упоминал ранее, как и чипы на основе архитектуры архитектура предыдущего поколения NVIDIA Turing, GPU GA10x имеет унифицированную архитектуру для общей памяти, кэширования данных L1 и кэширования текстур. Этот единый дизайн можно перенастроить в зависимости от задачи, чтобы выделить больше памяти для L1 или общей памяти в зависимости от необходимости. Емкость кэша данных L1 увеличена до 128 Кб на SM.
В режиме вычислений SM в GA10x будет поддерживать следующие конфигурации:- 128 KB L1 + 0 KB Shared Memory
- 120 KB L1 + 8 KB Shared Memory
- 112 KB L1 + 16 KB Shared Memory
- 96 KB L1 + 32 KB Shared Memory
- 64 KB L1 + 64 KB Shared Memory
- 28 KB L1 + 100 KB Shared Memory
Весь GPU GA102 содержит 10752 Кб кеш-памяти L1 (по сравнению с 6912 Кб в TU102). Помимо увеличения размера L1, GA10x также имеет удвоенную пропускную способность разделяемой памяти по сравнению с Turing (128 байт/такт на SM по сравнению с 64 байтами/такт в Turing). Общая пропускная способность L1 для GeForce RTX 3080 составляет 219 ГБ/с против 116 ГБ/с для GeForce RTX 2080 Super.
Таблица 2. Сравнение GeForce RTX 3080 с GeForce RTX 2080 Super. 1 - Peak rates are based on GPU Boost Clock. 2. - Effective TOPS / TFLOPS using the new Sparsity Feature 3. - TOPS = IMAD-based integer math
Как видите, технологически новые графические ускорители позволяют оптимизировать программное обеспечение для повышения производительности, и при этом снижать нагрузку на GPU. Но как на практике выглядит работа графических ускорителей на основе GPU NVIDIA Ampere, в наших приложениях и тестах? Для ответа на этот вопрос я обратился к специалистам компании HYPERPC и запросил для тестов графический ускоритель на основе архитектуры NVIDIA Ampere.
Технология RTX IO и DirectStorage
Одной из больших проблем скорости загрузки данных, является узкое место в процессе загрузки данных с с SSD накопителя в оперативную память и затем, в память GPU. Весь процесс производится через COU, что крайне сильно снижает производительность в загрузке данных для игр, и вычислений. Чтобы миновать данную преграду, специалисты из NVIDIA создали RTX IO, специальный инструмент, позволяющий играм и интерактивным приложениям, загружать данные напрямую в память графического процессора, обходя необходимость обработки этих данных со стороны CPU.
Рис. 3. Схема, демонстрирующая работу без RTX IO, и с RTX IO
Мгновенная загрузка игры и навигация по бесконечно открытым мирам без подергиваний уже давно стали целью как геймеров, так и разработчиков. Даже с невероятной производительностью твердотельных накопителей NVMe Generation 4 эта цель остается недостижимой. Современные игровые движки превзошли возможности API традиционных хранилищ данных; необходимо новое поколение архитектуры ввода-вывода.
Используя возможности архитектуры NVIDIA Ampere в новых графических ускорителях NVIDIA GeForce RTX 30 серии, набор технологий NVIDIA RTX IO, который обеспечивает быструю загрузку на базе графического процессора и декомпрессию данных игр, увеличивая производительность ввода-вывода до 100 раз по сравнению с жестким диском и API традиционных хранилищ. При использовании с новым DirectStorage для Windows API от Microsoft, RTX IO переносит работу десятков ядер CPU на GPU, улучшая частоту кадров, обеспечивая практически мгновенную загрузку игр и открывая дверь в новую эру больших, невероятных возможностей. Высокодетализированных игр с открытыми мирами.
Резкое появление объектов и задержки можно уменьшить, а высококачественные текстуры можно передавать с невероятной скоростью, поэтому даже если вы мчитесь по виртуальному миру, все работает и выглядит отлично. Кроме того, сжатие без потерь позволяет уменьшить размер загружаемых и устанавливаемых игр, что позволяет геймерам устанавливать больше игр на свои твердотельные накопители, а также улучшать их производительность.
Принцип работы NVIDIA RTX IO
NVIDIA RTX IO подключается к готовящемуся к выпуску Microsoft DirectStorage API, который представляет собой архитектуру хранилища данных следующего поколения, разработанную специально для игровых ПК, оснащенных новейшими твердотельными накопителями NVMe, а также для решения сложных задач и нагрузок, которые соответствуют современным играм. Вместе оптимизированные и распределенные API-интерфейсы, специально разработанные для игр, позволяют значительно снизить накладные расходы ввода-вывода и максимизировать производительность / пропускную способность от твердотельного накопителя NVMe к графическому процессору с поддержкой RTX IO.
В частности, NVIDIA RTX IO обеспечивает декомпрессию без потерь на базе GPU, позволяя читать через DirectStorage, оставаясь сжатым, пока они доставляются на GPU для распаковки. Это снимает нагрузку с ЦП, перемещая данные из хранилища в память графического процессора в более эффективной сжатой форме и улучшая производительность ввода-вывода в 2 раза.
Графические ускорители NVIDIA GeForce RTX способны обеспечивать производительность декомпрессии, превышающую пределы даже твердотельных накопителей NVMe Generation 4, разгружая десятки ядер CPU, чтобы обеспечить максимальную общую производительность системы для игр следующего поколения.
Сейчас остается дождаться реализации возможностей NVIDIA RTX IO в графических приложениях и играх, что выведет их на новый уровень производительности.
Тестовая платформа
В качестве платформы для тестирования и сравнения результатов, выступила рабочая станция HYPERPC PRO 7T STUDIO, обзор которой я сделал буквально в начале августа, во время подбора нового оборудования для работы. Для вашего удобства я подготовил список всех ключевых характеристик тестового стенда:
- Материнская плата: ASUS WS X299 SAGE
- Процессор: Intel Core i9-10940X (@3.30 GHz)
- Система охлаждения CPU: Be Quiet! DARK ROCK PRO 4
- Оперативная память: 128 Gb DDR4-2400 (@1200 MHz)
- Жесткий диск: Seagate IronWolf 10Tb
- SSD M.2: Samsung SSD 970 EVO Plus 2 Tb
Условия проведения тестов
Как и многие предыдущие тесты, данное тестирование было выполнено при определенных, базовых условиях. Чтобы исключить вероятность ошибки или неточных результатов: драйверы и конфигурации платформы были возвращены к настройкам по умолчанию.
BIOS материнской платы был обновлен до последней доступной версии и возвращен к настройкам по умолчанию "default".
В большинстве тестов, показатель выше конкурирующего, является успешным прохождением теста. В иных случаях, а также в ряде тестов, меньшее значение может быть лучшим показателем, например в скорости процесса визуализации 3D модели.
В случае, если результаты тестов расходятся с опубликованными в других обзорах, я сделаю сноску на результаты тестов в качестве сравнения.
О линейке компьютеров HYPERPC PRO
Немного подробнее хочется рассказать о линейке компьютеров HYPERPC PRO. Созданные на базе высокопроизводительных видеокарт NVIDIA RTX представляют собой оптимальную платформу для работы, исследований и творчества.
Линейка компьютеров представлена тремя сериями, оптимизированными для задач различных уровней сложности.
HYPERPC NANO PRO – ультракомпактная рабочая станция, предназначенная для креативных профессионалов. Выполненная в компактном корпусе с нестандартным дизайном, она наделена высокопроизводительной конфигурацией с эффективной системой охлаждения, гарантирующей стабильность под полной нагрузкой.
HYPERPC LUMEN PRO - Профессиональный компьютер на базе видеокарты Quadro RTX. Это ведущая платформа визуальных вычислений, которая позволяет работать одновременно в нескольких графических приложениях, как отдельным пользователям, так и целым командам.
По мере того как технологии для создания дизайна совершенствуются визуальные эффекты становятся масштабнее, сложнее и применяются все чаще. Видеокарта NVIDIA Quadro RTX 5000 обеспечивает непревзойденную мощность для беспрецедентной свободы творчества в области фотореалистичной 3D-анимации, рабочих процессов на базе ИИ и высококачественного видео. Оцените более плавное отображение благодаря фотореалистичной трассировке лучей, более высокую производительность при работе с приложениями на базе ИИ и возможность создавать реалистичный VR-контент с высокой детализацией.
HYPERPC TITAN PRO - Профессиональные компьютеры на базе лучшей видеокарты для ПК - NVIDIA GeForce RTX 3090. Предназначены для сложного моделирования и оснащены большим фреймбуфером для максимальной производительности.
Платформа для творчества. Профессиональный компьютер TITAN PRO отвечает потребностям профессиональных пользователей, работающих с графикой и видео. Мощный и надежный компьютер отлично подходит для решения задач автоматизации проектирования в архитектуре, инжиниринге и машиностроении, а благодаря привлекательному дизайну он легко впишутся в любой интерьер. TITAN PRO может похвастать мощной конфигурацией, в которую входят процессор Intel Core 10-го поколения, видеокарты NVIDIA GeForce RTX 3090 в и высокоскоростные твердотельные накопители. Также предлагается поддержка множества современных интерфейсов, а также различных функций, созданных специально для профессиональных пользователей. TITAN PRO – это мощный и надежный ПК для реализации любых творческих идей.
Профессиональная разработка контента часто связана с интенсивными вычислениями и одновременной работой с несколькими большими файлами. TITAN PRO оснащается процессорами Intel Core 10-го поколения и AMD Threadripper, обладающими повышенной на 30% производительностью по сравнению со своими предшественниками и обеспечивающими быструю работу даже в самых требовательных приложениях и сложных проектах.
Профессиональные дизайнеры нуждаются в максимальной производительности и стабильности работы системы, и такими свойствами отличаются видеокарты NVIDIA RTX, которыми может быть оснащен компьютер TITAN PRO. Они идеально подходят для любых творческих задач. Работа над онлайн-видео и полнометражными фильмами, разработка анимации и 3D-моделирование – решая эти и другие задачи, теперь можно успеть сделать больше за меньшее время.
Оригинальность и практичность. Удачное переосмысление внутренней архитектуры, оптимизизация охлаждения и использование самых мощных компонентов в компактном, стильном кейсе объемом всего 14,6 литра позволило создать продукт отвечающий самым жестким требованиям как в производительности, так и в дизайне. Корпус произведен из высококачественных материалов и обеспечивает эффективный теплообмен компонентов системы несмотря на свой компактный форм-фактор.
Обзор и тестирование NVIDIA GeForce RTX 3090 Founders Edition
Для тестирования возможностей новой архитектуры компании HYPERPC и NVIDIA предоставили мне новинку - графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition.
NVIDIA GeForce RTX 3090 Founders Edition
Спустя пару недель после активного тестирования предыдущей модели, ко мне прибыла долгожданная новая NVIDIA GeForce RTX 3090 Founders Edition, и она впечатлила меня гораздо сильнее, чем модель в исполнении от PALIT (Рис. 4).
Рис. 4. Графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition. Изображение слева сделаны мною, изображения справа предоставлены NVIDIA.
Данный графический ускоритель выполнен в элегантном корпусе, представляющим собой большой радиатор, размер данного ускорителя достаточно большой, в системном блоке он занимает три слота, при этом, модель от PALIT занимала всего два слота. Инженеры NVIDIA специально разработали данный корпус для эффективного охлаждения GPU и прохода воздушных потоков при активном охлаждении и при режиме работы с минимальной нагрузкой.
По своей структуре и возможностям подключения дисплеев, данный ускоритель оснащен тремя портами DisplayPort 1.4a и одним портом HDMI 2.1. На боковой стороне расположены контакты питания 2x PCI-E 8-pin. А для удобства подключения, в комплект поставки включен переходник с 12-pin Power Connector to 8-pin PCI-E Power Connector.
Рис. 5. Комплект документации и переходник, установленный в корпус рабочей станции HYPERPC PRO 7T ускоритель
Рекомендуемая мощность блока питания для данных GPU составляет 750 Ватт. В использованном мною для тестов стенде был установлен блок питания на 1000 Ватт. Что обеспечило стабильную работу всех компонентов системы и полноценное питание даже во время интенсивных нагрузок тестами и в процессе работы над трехмерной моделью. Рассмотрим технические характеристики GPU.
Технические характеристики NVIDIA GeForce RTX 3090 Founders Edition
Рис. 6. Характеристики GPU использованного в NVIDIA GeForce RTX 3090 Founders Edition отображаемые в утилите GPU-Z
Оценка GPU с помощью утилиты GPU-Z позволила узнать основные характеристики использованного в ускорителях GPU. Как и во всей линейке NVIDIA GeForce RTX 3090, в данных ускорителях использован процессор GA102. Данный GPU обладает 10496 ядрами CUDA, 328 ядерами Tensor Core, 82 ядрами RT Core, 112 блоков растровых операций (ROP’s). Ускоритель оснащен 24 Гб графической памяти стандарта GDDR6X, работающей на частоте 1219 MHz, чипы которой созданы компанией Micron, и связанной с помощью 384-бит шины памяти с GPU. Такое сочетание объема памяти, частоты и шины, позволяет достичь пропускной способности в 936.2 Гб/с.
Минимальная частота работы GPU составляет 1395 MHz, а частота в режиме Boost составляет 1695 MHz, что не отличается от конфигурации модели Founders Edition. В то же время, модель ускорителя PALIT GeForce RTX 3090 GamingPro OC, обладает большей частотой в режиме Boost, и составляет 1725 MHz, что примерно на 2% выше протестированной мною модели. Отмечу, что ОЕМ производители графических ускорителей незначительно повышают частоту в режиме Boost, наибольшая частота которую мне доводилось видеть составляет 1860 MHz, от ASUS и GIGABYTE, что на 10% выше от стандартной частоты, но все же, может дать определенный прирост в производительности. Плюсом использования базовых частот, является возможность самостоятельного безболезненного разгона, до разумных пределов с помощью как утилит от производителя ускорителя, так и с помощью независимых инструментов.
Хочется обратить внимание на небольшие различия, в ускорителях в исполнении от PALIT, протестированном мною ранее, и ускорителе от NVIDIA. В данных ускорителях различные версии BIOS, которые могут быть специально сконфигурированы разработчиками для достижения определенной производительности и более эффективного взаимодействия с системой охлаждения.
Система охлаждения
Графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition обладает внушительной системой охлаждения, а также поддерживают активную, в зависимости от нагрузки, систему активного охлаждения с помощью кулеров. У обозренного мною ранее модели от PALIT за нее отвечают три кулера, снижающие свою активность при минимизации нагрузки на GPU, а у Founders Edition, за счет увеличенного размера радиаторов, занимающих три слота по высоте, установлены два кулера, которые становятся активными при увеличении нагрузки.
На рисунке 8 приведен пример изменения скорости вращения кулера и температуры, в зависимости от нагрузки возрастающей нагрузки во время выполнения теста на NVIDIA GeForce RTX 3090 Founders Edition.
Рис. 7. Влияние нагрузки на систему активного охлаждения GPU в NVIDIA GeForce 3090 Founders Edition. Все изменяемые параметры, отмечены зеленым цветом.
Подход к созданию массивных радиаторов, позволил снизить потребление энергии кулером, который в ранних моделях графических ускорителей вращался постоянно и охлаждал GPU. Отмечу, что все протестированные мною GPU на базе архитектуры NVIDIA Ampere, при минимальной нагрузке, обладали температурой всего в 35 - 37 градусов цельсия, в то же время, во время активных вычислений и тестов, и активной системе охлаждения, температура GPU доходила до 56 - 60 градусов. Что было вполне допустимо, в просторном корпусе, использованном в рабочей станции HYPERPC PRO 7T.
При возможности, вы можете сконфигурировать систему охлаждения в корпусе таким образом, чтобы радиатор охлаждался прямым потоком воздуха, и тем самым еще больше снизить температуру GPU.
Познакомившись с техническими характеристиками и решениями, реализованными в NVIDIA GeForce RTX 3090 Founders Edition, я смело перешел к активному тестированию и сравнению.
Результаты тестирования в синтетических тестах
Познакомившись с техническими характеристиками GPU и графических ускорителей в целом, перейдем к самому важному - результатам тестов. Тестирование NVIDIA GeForce RTX 3090 Founders Edition я проводил аналогичным предыдущему тестированию образом, в синтетических и практических приложениях, сводя полученные данные в таблицу и выстраивая графики. В данной статье, я сравню результаты тестов двух графических ускорителей, в исполнении NVIDIA и PALIT.
ВНИМАНИЕ! Переход на новую архитектуру и реализация поддержки её возможностей в программном обеспечении может занимать от 6 месяцев до двух лет. Результаты тестов могут варьироваться от версии к версии. Также, важно знать, какая выбрана версия драйвера и осуществлены настройки в ПО и оборудовании.
Я выполнил тестирование с помощью следующих синтетических тестов SPEC Viewperf 13, SPEC Vieperf 2020, SPECwpc 3.1, 3Dmark и ядра визуализации V-Ray GPU и OTOY Octane Render. Большинство тестов выполнено с применением базовых конфигураций компонентов материнской платы, BIOS, настроек драйвера и при базовых напряжении, частотах и температурах работы процессора и графического ускорителя.Результаты тестов SPEC Viewperf 13
Набор тестов SPEC Viewperf содержит несколько тестов, моделирующих процесс работы и взаимодействия с окнами видовых пространств в приложениях САПР и 3D-моделирования. Тест 3dsmax-06 использует API DirectX, остальные тесты используют API OpenGL 4.5.
Рис. 8. Результаты тестов SPEC Viewperf 13
Так как я активно тестировал с помощью Viewperf 13 многие GPU, было интересно посмотреть на результат изменений архитектуры в обработке классической графики. Отмечу, что тест SPEC Viewperf 13 был разработан около трех лет назад и ряд тестов, используемых в нем, из-за программной архитектуры и поддержки старых API, уже не могут дать стабильно высокий или точный результат. В данном тесте вы видите, что модели с классическими ядрами САПР, а именно sw-04 (SolidWorks) и snx-03 (Siemens NX) показывают крайне низкий результат в данном тесте.
В нашем профильном сегменте - Media and Entertainment, новый GPU показал себя с лучшей стороны, обойдя своих предшественников в тестах maya-05 (Maya) и 3dsmax-06 (3ds max). Но также мы видим, что тесты показывают близкие к предшественникам результаты, а это зависит в первую очередь от возможностей программного обеспечения и графического ядра теста.
Если же сравнивать результаты тестов между двумя ускорителями, созданные на одной платформе, на базе чипа NVIDIA GA102, и практически схожи по техническим характеристикам, то NVIDIA GeForce RTX 3090 Founders Edition, превосходит своего собрата в лице PALIT GeForce RTX 3090 GamingPro 24Gb.
Рис. 9. Сравнение результатов тестов SPEC Viewperf 13 и SPEC Viewperf 2020
Нас заинтересовало различие между тестами SPEC Viewperf разных версий на GPU одной архитектуры, но на моделях ускорителей от разных производителей. На рисунке 9.2 приведен результат сравнения тестов проведенных для PALIT GeForce RTX 3090 GamingPro 24 Gb (синий), и для NVIDIA GeForce RTX 3090 Founders Edition (зеленый).
Графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition практически во всех тестах превосходит своего собрата в лице PALIT GeForce RTX 3090 GamingPro 24 Gb. Интересный результат показал тест SolidWorks (sw-05), который выполнялся со скоростью более 350 кадров в секунду на модели ускорителя от NVIDIA в тесте SPECgpc 2020. Также результаты SPECgpc 2020 моделях тестов CATIA (catia-06), Creo (creo-03) и Medical (medical-03) показывают меньшее значение производительности по отношению к предыдущей версии теста. Это легко объяснить, первое, сами тесты в SPEC Viewperf 2020 обновлены с учетом возможностей новых версий графических API, и обновлен метод расчета общего балла. Но внутри тестов, мы видим производительность близкую друг к другу по количеству кадров в секунду, с незначительными различиями.
Глобально, оба графических ускорителей, что от PALIT, что от NVIDIA показывают превосходный результат в синтетических тестах от SPEC. Что позволяет применить их для решения практических задач, связанных с проектированием и графикой.
Результаты тестов SPEC Workstation 3
Рис. 10.1. Результаты тестов SPEC Workstation 3. Все тесты выполнены на рабочей станции HYPERPC PRO 7T STUDIO
В своем тестировании я не обошел тест SPEC Workstation 3. В данном наборе тестов есть специальная группа тестов - GPU Compute. Результат комплексного тестирования CPU, памяти и дисковых накопителей с помощью SPECwpc, вы можете прочитать в моей подробной статье о HYPERPC PRO 7T STUDIO. В качестве API был выбран OpenCL, как универсальный для CPU Intel и AMD, и GPU NVIDIA и AMD. Как можно увидеть из диаграммы на рисунке 10.1, графический ускоритель PALIT GeForce RTX 3090 GamingPro превзошел предшественника в лице NVIDIA TITAN RTX и даже превзошел по производительности конфигурацию с двумя GPU. PALIT GeForce RTX 3090 GamingPro превзошел TITAN RTX в тестах FAH и CAFFE. Folding@home (FAH или F@H) - это проект распределенных вычислений для исследования болезней и поиска лекарственных препаратов, который имитирует сворачивание белков и другие типы молекулярной динамики. Тест CAFFE основан на платформе глубокого обучения, разработанной Berkeley AI Research (BAIR) и участниками сообщества. Янцин Цзя (Yangqing Jia) создал проект во время учебы в докторантуре Калифорнийского университета в Беркли (PhD studies at UC Berkeley).
Тесты с вычислениями в области ИИ и вычислений общего назначения показали превосходящий предшественников результат, что стало возможным благодаря оптимизации в архитектуре NVIDIA Ampere. Отмечу, что данные тесты могут показать результат выше. Это объясняется тем, что пропускная способность шины PCI-Express 3.0 x16 ниже, чем PCI-Express 4.0 x16, а это может показать немного меньшее значение. Но мы были ограничены поддержкой шины PCI-Express 3.0 со стороны CPU (Intel Core i9-10940X) и чипсета (X299).
При сравнении производительности двух ускорителей линейки GeForce RTX 3090 я получил результат, где оригинальный ускоритель от NVIDIA (Founders Edition), превзошел своего собрата от PALIT, что также показывает определенные оптимизации в работе GPU и ускорителя в целом.
Рис. 10.2. Результат теста LuxMark из набора тестов SPECwpc 3
Тест LuxMark, разработанный на основе ядра LuxCoreRender, также наглядно демонстрирует уверенный прирост производительности в вычислениях общего назначения в конфигурациях с одним GPU. Ускоритель PALIT GeForce RTX 3090 GamingPro превосходит по производительности NVIDIA TITAN RTX почти в 2 раза. Для того, чтобы достичь подобной производительности с помощью GPU предыдущего поколения, необходимо приобрести два ускорителя, что по совокупной стоимости, будет дороже, чем приобретение одного ускорителя RTX 3090. В данном тесте, графический ускоритель в исполнении Founders Edition, также превзошел своего собрала от PALIT. Данное опережение также может быть объяснено оптимизацией драйвера NVIDIA STUDIO и BIOS самого ускорителя, что позволяет оптимально использовать возможности аппаратно-программного комплекса как единое целое.
Не стоит списывать со счетов и возможности ускорения, модели ускорителей с overclocking могут способствовать ускорению процесса вычислений и обработки комплексных моделей в трехмерной графике и играх с высокой детализацией.
Результаты тестов V-Ray Benchmark
Ядро системы визуализации V-Ray является одним из активно-развиваемых решений, использующим возможности GPU для ускорения вычислений. Я провел тестирование графических ускорителей на базе архитектуры NVIDIA Ampere с помощью V-Ray Next Benchmark и сравнил с предыдущими тестами, выполненными для графических ускорителей предыдущего поколения.
Рис. 11. Результаты теста V-Ray Next Benchmark
Ядро V-Ray продемонстрировало превосходную производительность в тесте. При этом, GPU на базе архитектуры NVIDIA Ampere продемонстрировали стабильно двукратный прирост производительности в визуализации сцены с помощью V-Ray GPU. Т.е. за одно время, мы смогли получить вдвое большее число лучей, в сравнении с NVIDIA TITAN RTX. Но как и в других аналогичных тестах, к результатам GeForce RTX 3090 очень близким оказались два ускорителя NVIDIA TITAN RTX, объединенные NVLink. Ядро V-Ray активно продолжает свое развитие, пятая версия ядра получила оптимизацию и поддержку архитектуры NVIDIA Ampere.
Результаты тестов OTOY Octane Benchmark
Ядро визуализации OTOTY Octane Render давно славится своим активным развитием и расширением функционала. Данная система визуализации активно поддерживает новейшие решения NVIDIA и практически сразу выходит новая версия, поддерживающая новую архитектуру и модели GPU.
Рис. 12. Результаты тестов в OTOY Octane Benchmark
В режиме визуализации с применением API CUDA (RTX Off), Octane Bench демонстрирует значительный прирост в сравнении с моделями предыдущего поколения. Опять же, при работе в режиме одного GPU, мы видим аналогичную картину, которая была получена с помощью LuxMark и V-Ray Next Benchmark, которые опираются на OpenCL и CUDA API.
Но текущая версия тестов была обновлена, а предыдущие версии тестов Octane Bench (4.00c и 2019_RTX) НЕ ПОДДЕРЖИВАЮТ GPU на базе архитектуры NVIDIA Ampere, тестирование с помощью ядра на основе API NVIDIA OptiX (RTX On) показало следующий результат. Вы можете видеть, что при использовании RTX версии, мы не получаем значительного прироста производительности. Данное “отставание” обусловлено изменением расчета оценки результатов алгоритмом теста, а все дальнейшие измерения нам необходимо выполнять опираясь на возможности новой версии тестов. В данном тесте графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition немного уступил своему собрату в тесте RTX On, и обошел как предшественников, обогнав их в два раза, так и ускоритель от PALIT, в классической версии ядра на CUDA API.
Если вы используете рабочую станцию с одним GPU, и до сих пор активно применяете ускоритель одного из ранних поколений, например на Volta или Pascal, то переход на новую версию ядра визуализации и графические ускорители на базе архитектуры NVIDIA Ampere, значительно повысит производительность визуализации с применением NVIDIA RTX и NVIDIA CUDA.
Результаты тестов LuxCoreRender | LuxMark 3.1
Ядро LuxCoreRender является отличным решением с открытым исходным кодом для визуализации сцен в системе компьютерной графики и анимации Blender, и является хорошим конкурентом ядру Blender Cycles. В его поставку входит набор тестов, использующих API OpenCL, что делает его платформо-независимым.
Рис. 13. Результаты тестов LuxMark 3.1, графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition также показывает превосходный результат в тестах с моделями средней и высокой сложности
Каждый тест был выполнен в двух режимах работы компилятора OpenCL: с флагом режима -cl-strict-aliasing и когда данный флаг отключен. Чем больше значение, полученное в в процессе прохождения теста, тем лучше.
Как и в предыдущих тестах, модель NVIDIA GeForce RTX 3090 Founders Edition превосходит в производительности PALIT GeForce RTX 3090 GamingPro 24 Gb. При активации флага -cl-strict-aliasing, оба графических ускорителя показывают превосходящий результат в сравнении с выключенным флагом компилятора.
Результаты тестов Indigo 4 Renderer Benchmark
Последним в моем тестировании вычислительной производительности в GPU-accelerated ядрах визуализации является ядро Indigo Renderer. Данное ядро не так распространено на пользовательском рынке в России, как Octane и V-Ray, но может превосходно показать возможности современных графических процессоров для ускорения вычислений.
Рис. 14. Результаты тестов в Indigo 4 Renderer Benchmark
В данном тесте безоговорочное лидерство принадлежит NVIDIA GeForce RTX 3090 Founders Edition, но также не отстает и собрат от PALIT, совсем незначительно уступая Founders Edition. Конечно же, самый худший результат в данном тесте показывает CPU.
Познакомившись с тестами в области вычислений общего назначения и в процессе визуализации трехмерных сцен, стоит взглянуть на несколько тестов, выполненных с помощью синтетических тестов, моделирующих компьютерные игры и интерактивную графику.
Результаты тестов 3DMark
Графические технологии, используемые в игровых движках можно хорошо протестировать с помощью тестов 3DMark. В данном тестировании я использовал Steam-версию данного набора тестов.
Рис. 15. Результаты прохождения теста 3DMark | Time Spy (3Dmark Score)
На рисунке 15 наглядно показано, как ускорители на базе GPU GA102 обходят своих предшественников. В данном тесте, нам удалось получить результат в 17730 3DMark Scores для всей системы с ускорителем PALIT GeForce RTX 3090 GamingPro 24Gb, и 18154 3DMark Score после установки NVIDIA GeForce RTX 3090 Founders Edition. Заметьте, что тесты показывают практически идентичный результат на ускорителях нового поколения, аналогично предыдущему поколению выпущенному на основе чипов TU104 (GeForce RTX 2070 и NVIDIA Quadro RTX 5000). А серьезные различия в производительности наблюдались именно среди настольных GPU. И ускоритель на основе архитектуры NVIDIA Ampere показывает свое превосходство над предшественником в лице NVIDIA TITAN RTX и более младшими моделями.
В моем случае тест Time Spy показал результат немного выше, в сравнении с опубликованными ранее в сети тестами. Например в тестах проведенных порталом guru3d.com, на базе платформы с процессором Core i9-9900K и материнской платы ASRock Z390 Taichi Ultimate, в тесте Time Spy графические ускорители PALIT GeForce RTX 3090 GamingPro 24Gb и NVIDIA GeForce RTX 3090 Founders Edition набрали 16688 и 16796 баллов 3Dmark соответственно. Что показывает, насколько оптимальным может быть использование платформы на базе процессоров Intel 10-го поколения с современными GPU NVIDIA в играх и интерактивных приложениях. Однако я могу сказать, что данный результат оказался немного ниже в сравнении с другими тестами, опубликованными в базе данных 3DMark. Я считаю что это вызвано тем, что для набора большего количества баллов оказалось недостаточно производительности CPU и шины PCI-E 3.0, использованных в моей тестовой платформе. Но как мы видим по результатам вычислительных тестов, и инструментам визуализации, результат у нового графического ускорителя выше в сравнении с предшественниками.
Также я провел несколько дополнительных тестов, в частности, используя тесты 3DMark Fire Strike и 3DMark Sky Diver. Но в данных тестах я присматривался к измерениям показателя производительности графической подсистемы, измеряемой в 3DMark Graphics Score.
Рис. 16. Результаты теста 3DMark | Fire Strike (3DMark Graphics Score)
В тесте Fire Strike мы видим аналогичную ситуацию, где современные графические ускорители превосходят своих предшественников в приложениях с поддержкой DirectX 11. Если все графические ускорители на базе чипа TU104 показывали единый результат, то графические ускорители на базе архитектуры NVIDIA Ampere буквально вырвались вперед. Но хочется отметить, что их не смогли догнать даже два ускорителя NVIDIA TITAN RTX, объединенные мостом NVLink (SLI).
Рис. 17. Результаты теста 3DMark | Sky Diver (3DMark Graphics Score)В тесте Sky Diver я получил схожие результаты в производительности графической производительности.
Практически все тесты показывают единый результат, в котором архитектура NVIDIA Ampere вырывается вперед и активно удерживает лидирующие позиции. Если вы играете в игры, созданные с применением возможностей DirectX 11, при переходе на GPU на базе архитектуры NVIDIA Ampere может быть достигнута превосходная производительность, которая ранее требовала очень дорогих решений.
Результаты тестов Unigine 2
Графический движок Unigine давно славится своими тестами графических подсистем персональных компьютеров. В Unigine в одном из первых решений реализованы функции, которые были доступны в API DirectX 10 и выше, например аппаратная тесселяция геометрии и высококачественное освещение, с применением HDRI.
Рис. 18. Сравнение результатов теста Unigine 2 SUPERPOSITION
Данным тестом я сравнил производительность PALIT GeForce RTX 3090 GamingPro (фиолетовый) и NVIDIA GeForce RTX 3090 Founders Edition (зеленый) между собой. В качестве тестов были выбраны заранее подготовленные настройки в виде шаблонов 1080p High и 1080p Extreme и один персонализированный тест, в виде 1440p Extreme.
На диаграмме, приведенной на рисунке 18, наглядно продемонстрирована производительность GPU GA102 в протестированных мною ускорителях в двух API - DirectX и OpenGL. Аналогично предыдущим тестам, модель Founders Edition превосходит по производительности решение от PALIT, но оба ускорителя обеспечивают высокую производительность в целом.
Познакомившись с синтетическими тестами и их результатами, стоит изучить возможности новых ускорителей в практических приложениях. Ведь мы говорим о работе с драйвером NVIDIA STUDIO для работы с профессиональными приложениями.
Результаты и сравнение тестирования в приложениях
В отличие от синтетических тестов, аналогично раннему тестированию, меня интересовали и результаты тестов практических. Результаты обширного тестирования нам еще предстоит увидеть и проанализировать, так как многие приложения еще в процессе оптимизации и реализации функционала с поддержкой возможностей архитектуры NVIDIA Ampere. В качестве основы я использовал тесты в Autodesk Maya и MtoA 4.0.5 (Arnold 6.0.5.0), Blender 2.90.1, Cinema 4D R20 и DaVinci Resolve 16.2.7.
Результаты тестов Autodesk Maya и MtoA 4.0.5
Компания Autodesk активно сотрудничает с NVIDIA и внедряет поддержку новых возможностей GPU в свои решения. Уже сейчас вы можете загрузить обновление для MtoA до последней версии и использовать возможности поддержки новой архитектуры GPU. Как и в предыдущем тестировании, я использовал сцену предоставленную NVIDIA и оптимизированную для Arnold GPU.
Рис. 19. Результаты тестирования в Maya и MtoA 4.0.5
Результат теста был достаточно предсказуем. Архитектура NVIDIA Ampere и оптимизированная версия ядра Arnold, а также обновление драйвера STUDIO (в тестах использована версия 456.71), показывают прирост производительности в визуализации комплексной модели. В то время, как ранее мы могли достичь прироста только с помощью наличия нескольких графических ускорителей, теперь, аналогичный результат мы можем получить, используя один GPU.
Графический ускоритель NVIDIA GeForce RTX 3090 Founders Edition также показывает превосходный результат в скорости визуализации сцены с помощью Arnold Renderer. За счет оптимизации ПО и драйвера, Founders Edition обошел модель от PALIT на 10 секунд, что является очень хорошим показателем.
При добавлении еще одного GPU RTX 3090 и шины NVLink, можно также повысить производительность в вычислениях. С точки зрения экономики, приобретение одного графического ускорителя NVIDIA GeForce RTX 3090 гораздо выгоднее в сравнении с приобретением двух TITAN RTX.
Результаты тестов Blender 2.90
Пакет Blender и его ядро визуализации Cycles развиваются очень активно, далеко не всегда есть возможность протестировать и использовать все возможности. Во время тестирования была обнаружена интересная особенность - Blender 2.83.5 - 2.83.7 на момент тестов не поддерживал архитектуру NVIDIA Ampere, уже в завершении тестов вышла обновленная версия 2.83.8. В обновлении данный вопросы был решен, но я опирался на тесты версии 2.90.1. По сути, в LTS версию добавили реализованную в версии 2.90.Х поддержку новой версии API NVIDIA CUDA и NVIDIA OptiX, а также поддержку новых GPU на базе архитектуры NVIDIA Ampere.
Рис. 20. Результаты тестирования в Blender 2.90 Cycles Renderer
В результате тестов на комплексных сценах мы видим, что графический ускоритель PALIT GeForce RTX 3090 GamingPro показывает превосходящий над NVIDIA TITAN RTX (в конфигурации системы с одним GPU) результат, и даже превосходит конфигурацию с двумя GPU, протестированную ранее. В не таких сложных сценах (тест BMW), в которых нет большого числа геометрии и сложных текстурных карт, новая архитектура также показывает себя с лучшей стороны. Вырываясь вперед от конкурентов.
Аналогично Arnold и синтетическим тестам, в Blender Cycles наиболее оптимальный по скорости визуализации сцены результат показал ускоритель NVIDIA GeForce RTX 3090 Founders Edition. Это объясняется аналогичной оптимизацией аппаратно-программного стека на основе драйвера NVIDIA STUDIO и оптимизаций ядра визуализации Blender Cycles, который активно разрабатывается и спонсируется крупными вендорами оборудования и ПО.
Хочется отметить, что обновление архитектуры и увеличение числа ядер RT Core дают прирост в производительности на конфигурациях с одним GPU, и опять же, приобретение ускорителя на архитектуре NVIDIA Ampere будет экономически выигрышным решением, в соотношении цена/производительность. Ведь один GPU выполнит аналогичную задачу быстрее, чем ранее выполняли два GPU.
Результаты тестов Cinema 4D R20 ProRender
Рис. 21. Результаты тестирования в Cinema 4D R20 ProRender
Как и все предыдущие тесты, в Cinema 4D ProRender мы видим аналогичный результат влияния новой архитектуры и оптимизации драйвера STUDIO. Производительность только одного ускорителя NVIDIA GeForce RTX 3090 может превзойти два ускорителя NVIDIA TITAN RTX объединенных мостом NVLink, созданных на основе архитектуры NVIDIA Turing.
Алгоритм визуализации в ProRender очень хорошо оптимизирован для работы с GPU и позволяет получать высокую производительность в процессе визуализации сложных сцен. Модель ускорителя Founders Edition в скорости визуализации сцен с помощью Pro Render также показала отличную производительность. Что позволяет максимально полно пользоваться возможностями графических ускорителей на основе архитектуры NVIDIA Ampere с 24 Гб графической памяти.
Результаты тестов DaVinci Resolve 16.2
Последний раздел практических тестов остается за решением для редактирования видео - DaVinci Resolve 16.2.7. Платформа Resolve активно развивается и на момент написания данных строк, BlackMagic Design активно тестировали обновление до версии 16.3. Я специально сделал несколько тестов новой версии 16.3 beta 3, чтобы сравнить скорость работы алгоритмов ИИ и МО, использованных в Resolve.
Рис. 22. Результат тестов сборки видео-секвенций в DaVinci Resolve 16.2
Тест текущей production версии Resolve показал, что она не полностью готова для работы с ускорителями на базе GPU NVIDIA Ampere. Это обусловлено тем, что разработчикам еще предстоит доработать алгоритмы машинного обучения и кодирования/декодирования видео, что будет сделано в версии 16.3.
Но в целом, PALIT GeForce RTX 3090 GamingPro 24 Gb вплотную держится к показателям ускорителя NVIDIA TITAN RTX, а в некоторых тестах, даже опережает его. Так, тест Speed Wrap, опирающийся на алгоритмы ИИ и МО, на новой архитектуре показал оптимальный прирост. Сейчас, стоит ожидать обновления ПО и выхода новой версии с оптимизацией для NVIDIA Ampere и новых версий драйвера.
Рис. 23. Результат тестов сборки видео-секвенций в DaVinci Resolve 16.3 beta 3 и сравнение с Resolve 16.2.7
Я провел сравнение производительности Resolve 16.2.7 и Resolve 16.3 beta 3 которое показало, что в новой версии при работе на GPU на базе архитектуре NVIDIA Ampere будет повышена скорость визуализации видео с применением алгоритмов Super Scale. Остальные тесты также показали прирост производительности в новой версии Resolve.
Итоги
Тесты новейшей архитектуры NVIDIA Ampere показали хороший результат в производительности рабочих станций с одним GPU. Протестированные мною графические ускорители могут стать превосходной заменой ускорителей которые были созданы на основе GPU архитектуры NVIDIA Pascal и NVIDIA Volta, в силу их устаревания и отсутствия поддержки новых возможностей API NVIDIA CUDA. На самом деле все зависит от ПО и драйверов. Для стабильности и надежности, я рекомендую использовать драйвер NVIDIA STUDIO обновляемый раз в месяц и оптимизируемый под приложения для дизайнеров и проектировщиков.
Обновление драйвера также влияет на скорость работы ПО. При этом, во время тестов мною было сделано сравнение с двумя различными версиями драйвера, и это дало определенный прирост в производительности, в частности в визуализации трехмерных сцен с помощью ядра Blender Cycles и Cinema 4D ProRender.
Важным является и экономический эффект. Если вы еще не приобретали GPU на базе архитектуры NVIDIA Turing, то приобретение NVIDIA GeForce RTX 3080 и NVIDIA GeForce RTX 3090 станет правильным решением, вы получите инструмент, который по производительности двукратно превзойдет решения на базе GPU предыдущих поколений и архитектур. Но при этом, позволит сэкономить на первоначальном вложении средств. А заявленный в анонсе прирост производительности на Ватт, работает.
Новые NVIDIA GeForce RTX 3090 Founders Edition и PALIT GeForce RTX 3090 GamingPro 24Gb показали отличную производительность в задачах связанных с вычислениями общего назначения и вычислениях в области машинного обучения и искусственного интеллекта. Улучшения, сделанные для архитектуры доказали свою значимость и важность. А оптимизация потребления энергии меня очень впечатлила, особенно система пассивного охлаждения в модели Founders Edition. Когда я пишу эти строки, в рабочей станции от HYPERPC вращается только кулер CPU, и он единственный образует шум от вращения.
Сейчас остается дождаться обновления программного обеспечения и реализации поддержки новейших технологий от NVIDIA в современных играх и профессиональных приложениях. Решения Autodesk, Adobe, Foundry, Balckmagic Design и других вендоров, активно обновляются и будут поддерживать новую архитектуру в ближайшем крупном обновлении, зима - весна 2021 года.
Анонс доклада CG EVENT 2020
Анонс моего доклада на международной конференции CG EVENT 2020 ON-LINE.
Опираясь на полученный опыт и дополнительные тесты, на конференции я представлю исчерпывающий доклад, посвященный новейшей архитектуре NVIDIA Ampere и программным решениям, использующим её возможности.
Доклад получил название “Архитектура NVIDIA Ampere: первые тесты и практический опыт работы с новыми GPU”
Скорость визуализации… Пожалуй одна из тем, по которым я часто слышу вопросы уже на протяжении последних одиннадцати лет, как я занимаюсь изучением и представлением рендеринга на GPU.
В 2018 году, NVIDIA “выстрелила” с технологией и платформой NVIDIA RTX, выпустив архитектуру NVIDIA Turing. Аппаратные рендеры стали явью настолько, насколько это возможно! Да, не без ограничений и костылей, но возможны. И не в каком-то метафорическом абстрактном пространстве классического biased ядра визуализации, а в самом настоящем “режиме реального времени” с реальными и стабильными 60+ fps!
А что сегодня? Все стало лучше или на прежнем месте? Стало лучше. Лучше стало в вычислениях, лучше стало и с самой графикой, лучше с объемами памяти и скоростями шины, а еще лучше стало с “производительностью на ватт”.
Я одним из первых среди журналистов, кто опробовал на практике возможности новой архитектуры NVIDIA Ampere, даже отрендерил один из заказов, и остался под сильным впечатлением от производительности и экономичности новой архитектуры.
На CG Event 2020 я поделюсь с вами своими впечатлениями и результатами изысканий в работе с GPU на базе архитектуры NVIDIA Ampere, расскажу о “сложностях” и “легкостях”, поделюсь результатами проведенных мною тестов и новыми открытиями, а также сделаю небольшой анонс.
Буду рад вас видеть в он-лайн формате 12 и 13 декабря 2020 года.
Благодарности
Благодарю компании HYPERPC, PALIT и NVIDIA за предоставленное для тестирования и обзора оборудование и информационную поддержку в технических вопросах.