Архитектура NVIDIA Ampere, обзор и тестирование PALIT GeForce RTX 3090 GamingPro

Прошло два года с момента выхода первого поколения графических ускорителей линейки NVIDIA GeForce RTX, основой которых служили GPU на базе архитектуры NVIDIA Turing. Это был прорыв в технологиях, на SIGGRAPH 2018, Дженсен Хуанг представил первый GPU и ускоритель с возможностью полноценной трассировки лучей в режиме реального времени - NVIDIA Quadro RTX 8000, а спустя некоторое время, были представлены графические ускорители линейки NVIDIA GeForce RTX.

Линейка графических ускорителей NVIDIA GeForce RTX получила минорное обновление около года назад, также был представлен стек NVIDIA STUDIO, вначале его активно продвигали в сегменте мобильных компьютеров, а затем стали расширять на сегмент настольных компьютеров и рабочих станций.

О платформе и стеке NVIDIA STUDIO я подробно писал в нескольких статьях:

Отличием архитектуры NVIDIA Turing от всех предыдущих архитектур GPU стало не только повышение количества ядер CUDA и тензорных ядер (Tensor Core), но и добавление специальных ядер RT Core, которые отвечали за реализацию трассировки лучей на аппаратном уровне и доступные для API NVIDIA OptiX, DirectX и Vulkan.

При этом, особое внимание, в очередной раз, было уделено и энергоэффективности чипов, так как повышение количества ядер и частот провоцирует повышение энергопотребления и соответственно большего теплообмена. Линейки графических ускорителей NVIDIA GeForce RTX и NVIDIA Quadro RTX превосходно продемонстрировали свою производительность и энергоэффективность. Отмечу, что в работе над комплексными трехмерными сценами и моделями, и визуализации изображений, графический ускоритель NVIDIA GeForce RTX 2080 SUPER потреблял максимум 2/3 от своей номинальной мощности. В процессе тестирования системы с NVIDIA TITAN RTX удалось выполнить визуализацию комплексных трехмерных сцен, содержащих высокодетализированные текстурные карты и модели материалов. А применение ядер RT Core позволило снизить потребление энергии, но при этом даже увеличить производительность вычислений в процессе интерактивной визуализации.

Эпоха архитектуры NVIDIA Ampere

Архитектура NVIDIA Ampere была представлена весной 2020 года. А первым решением, созданным с использованием ускорителя NVIDIA A100 стал высокопроизводительный вычислительный комплекс NVIDIA DGX A100. Сама архитектура NVIDIA Ampere является продолжателем идей и функционала заложенных в архитектуре NVIDIA Volta, но с рядом возможностей реализованных в архитектуре NVIDIA Turing. Важным преимуществом NVIDIA Ampere является возросшая производительность на Ватт потребляемой энергии, за счет увеличения числа транзисторов, перехода на новый технологический процесс и оптимизации архитектуры в целом. GPU на основе архитектуры NVIDIA Ampere закономерно показывают значительно большую производительность, в сравнении с архитектурами NVIDIA Pascal, NVIDIA Volta и NVIDIA Turing.

Важно отметить, что GPU на основе новой архитектуры ориентированы на применение в центрах обработки данных и облачной инфраструктуре, и уже после этого идет графика, о которой конечно же не забывают и дают пользователям новые возможности как для высококачественного гейминга, так и для профессиональных пользователей, занимающихся разработкой контента и обработкой данных.

Буквально пару месяцев назад были представлены графические ускорители семейства NVIDIA GeForce RTX 30-й серии. Разработчики специально создали модификации GPU GA102 и GA104 с поддержкой ядер RTX Core и обеспечили двукратный прирост производительности в операциях с ИИ и МО, а также в трассировке луча.

Перед описанием результатов тестирования я хочу подробнее описать реализованные в архитектуре NVIDIA Ampere возможности. Сделав небольшое сравнение двух модификаций архитектуры GPU, реализующие определенные функции.

Архитектура GPU GA100 и GA102

Первым был представлен GPU NVIDIA GA100, ориентированный на применение в центрах обработки данных и вычислительных системах. Тогда сразу же появились вопросы среди пользователей о том, как будут реализованные функции доступные в архитектуре NVIDIA Turing, ведь явно выделенных ядер RT Core небыло.

Графический процессор GA100 включает множество усовершенствований базовой архитектуры, которые обеспечивают значительное ускорение вычислений в ИИ, HPC и анализе данных по сравнению с V100. Новая функция Sparsity в 2 раза ускоряет математические операции. Память HBM2 с высокой пропускной способностью и более крупные и более быстрые кэши передают данные во все большее количество ядер CUDA и тензорных ядер.

Новая шина NVLink третьего поколения и поддержка PCIe Gen 4 ускоряют системы, конфигурации которых содержат несколько графических процессоров. Многие другие улучшения обеспечивают масштабирование для активно-масштабируемых центров обработки данных и надежную виртуализацию на основе Multi-Instance GPU (MIG) для систем Cloud Service Provider (CSP) и их клиентов. Архитектура NVIDIA Ampere также упрощает программирование, снижает задержки и снижает сложность программного обеспечения для AI и HPC. Графические процессоры на архитектуре NVIDIA Ampere обеспечивают заявленные новые функции с большей производительностью на ватт, чем графические процессоры предыдущего поколения на архитектуре NVIDIA Volta.

img_001.png

Рис. 1. Диаграмма из презентации GTC 2020 посвященная производительности и энергоэффективности GPU на базе архитектуры NVIDIA Ampere

Графический процессор NVIDIA GA100 разработан не только для ускорения больших сложных вычислений и нагрузок, но и для эффективного ускорения выполнения большого количества небольших вычислительных задач. GA100 и ускорители основанные на нем позволяет создавать центры обработки данных, способные удовлетворить непредсказуемую потребность в различных задачах, обеспечивая при этом детализированное выделение ресурсов для выполнения задач, более активное использование графического процессора и улучшенную совокупную стоимость владения.

На основе чипа NVIDIA GA100 был создан графический ускоритель NVIDIA A100 исполненный в качестве модуля SXM4 и ускорителя с поддержкой PCI-Express.

img_002.png

Рис. 2. Графический ускоритель NVIDIA A100 for HGX и NVIDIA A100 for PCIe, основанные на GPU NVIDIA GA100 и разработанные для применения в центрах обработки данных

Данные ускорители предназначены для применения в центрах обработки данных и виртуализации, они специально разработаны так, чтобы их можно было применять в серверах и специальных рабочих станциях, устанавливаемых в стойки. На основе ускорителя в формате SXM4 создана одна из самых высокопроизводительных систем для вычислений, машинного обучения и искусственного интеллекта - NVIDIA DGX A100.

Универсальность систем на базе NVIDIA A100 помогает администраторам серверной инфраструктуры максимизировать полезность каждого графического процессора в центре обработки данных для удовлетворения потребностей в производительности разного размера, от самых маленьких до самых больших, распределенных между множеством узлов задач. A100 поддерживает платформу для центров обработки данных от NVIDIA, которая для реализации масштабирования включает Mellanox HDR InfiniBand (IB), NVSwitch, HGX A100 и Magnum IO SDK. Эта интегрированная группа технологий эффективно масштабируется до десятков тысяч графических процессоров используемых для обучения самых сложных сетей ИИ с беспрецедентной скоростью. Распространение ускоренных вычислений в корпоративных и облачных средах требует высокой степени использования при небольших вычислительных нагрузках. Благодаря новой технологии Multi-Instance GPU каждый GA100 может быть разделен на семь экземпляров GPU для оптимального использования и расширения доступа для каждого пользователя и приложения.

Взглянем на блок-диаграмму архитектуры GPU GA100 и познакомимся с ключевыми возможностями нового графического процессора.

img_003.png

Рис. 3. Блок-диаграмма GPU NVIDIA GA100. Графический процессор включает 128 SMs (Но в GPU A100 поддерживается 108 SMs)

Как заявляют разработчики, графический ускоритель NVIDIA A100 - это самый быстрый в мире GPU для облачных сред и центров обработки данных, предназначенный для поддержки ресурсоемких вычислений в ИИ, HPC и приложений анализа данных. Созданный по 7-нм техпроцессу TSMC N7, графический процессор GA100 на базе архитектуры NVIDIA Ampere, включает 54.2 миллиарда транзисторов с размером кристалла 826 мм2. Я приведу краткое описание основных функций A100 для быстрого понимания новых технологий и возможностей, реализованных в GA100.

A100 GPU Streaming Multiprocessor (SM)

Новый стриминговый мультипроцессор (SM) в GPU GA100 на базе архитектуры NVIDIA Ampere значительно увеличивает производительность, основываясь на функциях, представленных в архитектурах NVIDIA Volta и NVIDIA Turing, и добавляет много новых возможностей.

Тензорные ядра третьего поколения реализованные в GA100 улучшают совместное использование операндов и повышают эффективность, а также добавляют новые типы данных, включая:

  • Инструкции TF32 Tensor Core, ускоряющие обработку данных в формате FP32.
  • Совместимые с IEEE инструкции FP64 Tensor Core для высокопроизводительных вычислений.
  • Инструкции BF16 Tensor Core с той же пропускной способностью, что и FP16.

table_001.png

Таблица 1. Спецификации производительности GPU NVIDIA A100. 1 - Пиковые скорости основаны на GPU Boost Clock. 2 - Эффективные TFLOPS / TOPS с использованием новой функции Sparsity

В Tensore Core чипа GA100 введена поддержка Sparsity, что позволяет использовать мелкоэлементную структурированную разреженность в сетях глубокого обучения для удвоения пропускной способности операций выполняемых тензорным ядром. Более крупный и более быстрый кэш L1 и блок общей памяти в GA100 обеспечивают в 1.5 раза большую совокупную емкость на SM по сравнению с V100 (192 КБ против 128 КБ на SM), что обеспечивает дополнительное ускорение для многих вычислительных нагрузок в HPC и ИИ. Ряд других новых функций SM оптимизируют и упрощают программное обеспечение.

img_004.png

Рис. 4. Блок-схема стримингового мультипроцессора, используемого в NVIDIA GA100

Память 40Gb HBM2 и кэш L2 на 40 Mb

Для обеспечения своей огромной вычислительной производительности, графический ускоритель NVIDIA A100 имеет 40 Гб высокоскоростной памяти HBM2 с лучшей в своем классе пропускной способностью памяти 1555 Гб/с - это на 73% больше по сравнению с Tesla V100. Кроме того, графический процессор GA100 имеет значительно больше встроенной памяти, включая кэш-память уровня 2 (L2) объемом 40 Мб - почти в 7 раз больше, чем у V100, что необходимо для максимальной производительности вычислений. Благодаря новой секционной перекрестной структуре, кэш L2 GA100 обеспечивает в 2.3 раза большую пропускную способность чтения по сравнению с GV100.

Чтобы оптимизировать использование объема памяти, архитектура NVIDIA Ampere предоставляет элементы управления размещением кэш-памяти L2, чтобы вы могли управлять данными для сохранения или удаления из кеша. GA100 также добавляет Compute Data Compression, чтобы обеспечить до 4-кратного увеличения пропускной способности DRAM и L2, а также до 2-кратного увеличения емкости L2.

Multi-Instance GPU (MIG)

Новая функция Multi-Instance GPU (MIG) позволяет безопасно разделить графический процессор в A100 на семь отдельных экземпляров GPU для CUDA-приложений, предоставляя нескольким пользователям отдельные ресурсы GPU для ускорения выполнения приложений и в процессе их разработки.
С MIG процессоры каждого экземпляра имеют отдельные и изолированные пути через всю систему памяти - встроенные перекрестные порты, банки кэш-памяти L2, контроллеры памяти и шины адресов DRAM однозначно назначаются отдельному экземпляру. Это гарантирует, что задачи отдельного пользователя могут выполняться с предсказуемой пропускной способностью и задержкой, с тем же распределением кэша L2 и пропускной способностью DRAM, даже если другие задачи перегружают их собственные кэши или насыщают их интерфейсы DRAM.

MIG увеличивает использование аппаратного обеспечения, обеспечивая при этом определенное качество обслуживания и изоляцию между различными клиентами (такими как виртуальные машины, контейнеры и процессы). В дополнение к обеспечению повышенной безопасности и предоставлению гарантий использования GPU для клиентов, MIG особенно полезен поставщикам облачных услуг, у которых есть сценарии использования оборудования несколькими арендаторами, и это гарантирует, что один клиент не может повлиять на работу или планирование задач других клиентов.

Третье поколение шины NVLink

Третье поколение высокоскоростного соединения NVIDIA NVLink, реализованное в графических процессорах GA100, и новый коммутатор NVSwitch, значительно улучшают масштабируемость, производительность и надежность нескольких графических процессоров. Благодаря большему количеству ссылок на графический процессор и коммутатор, новый NVLink обеспечивает гораздо более высокую пропускную способность связи между графическими процессорами и улучшенные функции обнаружения ошибок и восстановления. NVLink третьего поколения обладает скоростью передачи данных в 50 Гбит/с на пару сигналов, что почти вдвое превышает скорость 25.78 Гбит/с, доступную в V100. Один NVLink в A100 обеспечивает пропускную способность в 25 Гб/с в каждом направлении, аналогично V100, но использует только половину количества пар сигналов на канал в сравнении с V100. В ускорителе A100 общее количество ссылок увеличено до двенадцати по сравнению с 6, доступными в V100, что дает общую пропускную способность 600 Гб/с по сравнению с 300 Гб/с для V100.

Поддержка NVIDIA Magnum IO и решений Mellanox Interconnect

Графический ускоритель NVIDIA A100 полностью совместим с современными решениями Interconnect InfiniBand и Ethernet от NVIDIA Magnum IO и Mellanox для ускорения связи между вычислительными узлами. API-интерфейсы ввода-вывода NVIDIA Magnum объединяют вычисления, сеть, файловые системы и хранилище, чтобы максимизировать производительность ввода-вывода для систем с несколькими графическими процессорами и несколькими узлами. Он взаимодействует с библиотеками CUDA-X для ускорения ввода-вывода в широком диапазоне рабочих нагрузок, от ИИ до анализа данных и визуализации.

Шина PCIe Gen 4 с SR-IOV

Графический ускоритель A100 поддерживает PCI Express Gen 4 (PCIe Gen 4), который для соединений x16 по сравнению с PCIe 3.0/3.1 удваивает пропускную способность, обеспечивая 31.5 Гб/с в сравнении с 15.75 Гб/с. Более высокая скорость особенно полезна для графических процессоров A100, подключаемых к процессорам с поддержкой PCIe 4.0, и для поддержки быстрых сетевых интерфейсов, таких как InfiniBand со скоростью в 200 Гбит/с. Ускоритель A100 также поддерживает Single Root Input/Output Virtualization (SR-IOV), которая позволяет совместно использовать и виртуализировать одно соединение PCIe для нескольких процессов или виртуальных машин (ВМ).

Улучшенное выявление ошибок и неисправностей, изоляция и сдерживание

Критически важно максимально увеличить время безотказной работы и доступность графического процессора путем обнаружения, сдерживания и частого исправления ошибок и сбоев, а не принудительного сброса графического процессора, особенно в больших кластерах с несколькими графическими процессорами и в многопользовательских средах с одним графическим процессором, таких как конфигурации с MIG. Графический ускоритель NVIDIA A100 включает новую технологию для улучшения атрибуции ошибок/сбоев, изоляции и локализации, как описано в подробных разделах архитектуры ниже.

Асинхронное копирование

В графическом ускорителе A100 реализованы новые инструкции асинхронного копирования, которые загружают данные непосредственно из глобальной памяти в общую память SM, устраняя необходимость использования промежуточного файла регистров (RF). Асинхронное копирование снижает пропускную способность регистрового файла, более эффективно использует пропускную способность памяти и снижает энергопотребление. Как следует из названия, асинхронное копирование может выполняться в фоновом режиме, пока SM выполняет другие вычисления.

Асинхронный барьер

Графический ускоритель NVIDIA A100 обеспечивает аппаратное ускорение барьеров в разделяемой памяти. Эти барьеры доступны с использованием CUDA 11 в форме объектов барьеров, соответствующих стандарту ISO C++. Асинхронные барьеры разделяют операции прибытия и ожидания барьера и могут использоваться для перекрытия асинхронных копий из глобальной памяти в общую память с вычислениями в SM. Их можно использовать для реализации модели производитель-потребитель (producer-consumer models) с использованием потоков CUDA. Барьеры также обеспечивают механизмы для синхронизации потоков CUDA с различной степенью детализации, а не только на уровне деформации или блока.

Ускорение графа задач (Task Graph)

Графы задач CUDA предоставляют более эффективную модель для отправки заданий на GPU. Граф задач (Task Graph) состоит из серии операций, таких как копирование памяти и запуск ядра, связанных зависимостями. Графы задач позволяют выполнять одноразовое определение/многократное выполнение. Предварительно определенный граф задач позволяет запускать любое количество ядер за одну операцию, что значительно повышает эффективность и производительность приложения. В NVIDIA A100 добавлены новые аппаратные функции, позволяющие значительно ускорить переходы между сетями в графе задач.

Полная имплементация GPU GA100 включает следующие характеристики:

  • 8 GPC, 8 TPC/GPC, 2 SM/TPC, 16 SM/GPC, 128 SM на весь GPU
  • 64 FP32 CUDA ядер на SM, 8192 FP32 CUDA ядер на весь GPU
  • 4 Tensor Cores 3-го поколения на SM, 512 Tensor Cores третьего поколения на весь GPU
  • 6 стеков HBM2, 12 контроллеров памяти на 512-bit

В тоже время, NVIDIA GA100, используемый в DGX A100, обладает немного иными характеристиками:

  • 7 GPC, 7 или 8 TPC/GPC, 2 SM/TPC, расширяемый до 16 SM/GPC, 108 SM на GPU
  • 64 FP32 CUDA ядер на SM, 6912 FP32 CUDA ядер на GPU
  • 4 Tensor Cores 3-го поколения на SM, 432 Tensor Cores 3-го поколения на GPU
  • 5 стеков HBM2, 10 контроллеров памяти 512-bit

Снижение количества вычислительных блоков и упрощение структуры чипа обусловлено оптимизацией GPU для применения в плотно-организованных системах, где используется большое количество модулей с GPU. Это снижает потребление энергии и тепловыделение системы базирующейся на данном GPU.

Отличия архитектуры GPU GA102 от GPU GA100

С момента изобретения первого в мире графического процессора (GPU) в 1999 году, графические процессоры NVIDIA находятся в авангарде трехмерной графики и вычислений с GPU-ускорением. Каждая архитектура GPU NVIDIA тщательно разрабатывается для обеспечения высокого уровня производительности и эффективности.

На блок диаграмме, приведенной на рисунке 3, вы можете заметить, что у чипа GA100 нет выделенных ядер RT Core, использованных ранее в архитектуре NVIDIA Turing. Все верно, данный GPU предназначен для применения в вычислениях общего назначения, а также в задачах связанных с ИИ, МО и в высокопроизводительных вычислениях.

Для потребительского рынка и рынка профессиональных рабочих станций в NVIDIA разработали модели GPU GA102 и GA104. Это младшие модели чипа GA100, но рассчитанные на применение в графических ускорителях для настольных и мобильных компьютеров, а также серверах. На их основе строятся ускорители линеек NVIDIA GeForce RTX и NVIDIA Quadro (далее NVIDIA A6000).

Семейство новых графических процессоров на основе архитектуры NVIDIA Ampere предназначено для ускорения многих требовательных к вычислениям приложений и задач. Рассмотренный выше графический процессор на базе архитектуры NVIDIA Ampere, GA100, был выпущен в мае 2020 года и обеспечивает колоссальное ускорение для обучения ИИ и формирования заключений, задач высокопроизводительных вычислений и приложений для анализа данных.
В данном разделе я постараюсь проанализировать и описать новейшие модели графических ускорителей на базе архитектуры NVIDIA Ampere, использующие чипы GA102 и GA104. Чипы GA102 и GA104 являются частью нового класса GPU NVIDIA «GA10x» на основе архитектуры NVIDIA Ampere. Графические процессоры GA10x продолжают идеи заложенные в революционной архитектуре GPU NVIDIA Turing. Архитектура NVIDIA Turing была первой в мире, которая предлагала высокопроизводительную трассировку лучей в реальном времени, графику с ускорением с помощью AI, энергоэффективное ускорение получения заключений для центров обработки данных и профессиональная визуализация графики - все в одном продукте.

Графические процессоры GA10x добавляют множество новых функций и обеспечивают значительно более высокую производительность, чем графические процессоры на основе архитектуры NVIDIA Turing. Кроме того, графические процессоры GA10x тщательно продуманы, чтобы обеспечить лучшую производительность в каждой области и энергоэффективность для традиционных вычислительных нагрузок связанных с графикой, а тем более для задач с трассировкой лучей в реальном времени. По сравнению с архитектурой NVIDIA Turing, архитектура NVIDIA Ampere до 1.7 раза быстрее в традиционных рабочих нагрузках с растровой графикой и до 2 раз быстрее при трассировке лучей.

img_005.png

Рис. 5. Блок-диаграмма GPU GA102. Данный GPU используется в графических ускорителях NVIDIA GeForce RTX 3090 и NVIDIA A6000

Чип GA102 - самый мощный графический процессор с архитектурой NVIDIA Ampere в линейке GA10x, который используется в графических ускорителях NVIDIA GeForce RTX 3090, NVIDIA GeForce RTX 3080 и A6000. NVIDIA GeForce RTX 3090 - самый высокопроизводительный графический ускоритель в линейке NVIDIA GeForce RTX, созданный для игр с поддержкой разрешения 8K HDR. Благодаря 10496 ядрам CUDA, 24 ГБ памяти GDDR6X и новому активному режиму DLSS 8K графический ускоритель может запускать многие игры с разрешением 8K при 60 кадрах в секунду.

Поддержка нового HDMI 2.1 и кодека AV1 в графических процессорах GA10x позволяют пользователям транслировать контент в формате 8K с поддержкой HDR. Кроме того, производительность NVIDIA GeForce RTX 3080 до 2 раз выше, чем у NVIDIA GeForce RTX 2080. Наконец, графический процессор NVIDIA GeForce RTX 3070 использует новый графический чип GA104 и предлагает производительность, которая конкурирует с флагманским графическим процессором NVIDIA предыдущего поколения, GeForce RTX 2080 Ti.

Ключевые возможности GA102

Графический процессор GA102 на базе архитектуры NVIDIA Ampere, изготовленный по 8-нм техпроцессу 8N NVIDIA Custom от Samsung, включает 28.3 миллиарда транзисторов с размером кристалла 628.4 мм2. В основе графических ускорителей NVIDIA GeForce RTX лежит GPU GA102, содержащий три различных типа вычислительных элементов:

  • Программируемые ядра шейдинга (Shading Cores), состоящие из ядер NVIDIA CUDA.
  • Ядра RT Core, которые ускоряют вычисления Bounding Volume Hierarchy (BVH) и выявление пересечения геометрии сцены во время трассировки лучей.
  • Тензорные ядра (Tensor Core), которые обеспечивают огромное ускорение обучения нейронных сетей ИИ и получения логических выводов.

Полноценный графический процессор NVIDIA GA102 включает 10752 ядра CUDA, 84 ядра RT Core второго поколения и 336 ядер Tensor Core третьего поколения и является самым мощным потребительским графическим процессором, который NVIDIA когда-либо создавала для обработки графики. SM в GA102 удваивает количество операций FP32 за такт, по сравнению с SM в NVIDIA Turing, что достигает производительности на уровне 30 TFLOPS при обработке шейдеров силами NVIDIA GeForce RTX 3080 (в эквивалентном GPU на базе NVIDIA Turing, производительность составляет до 11 TFLOPS). Точно так же ядра RT Core предлагают вдвое большую пропускную способность для тестирования пересечения лучей/треугольников, что дает 58 RT TFLOPS (в сравнении с 34 на базе NVIDIA Turing). Наконец, новые тензорные ядра в GA102 могут обрабатывать разряженные нейронные сети в два раза быстрее, чем тензорные ядра в чипах NVIDIA Turing, которые не поддерживают разряженность. В вычислениях на тензорных ядрах производительность доходит до 238 TFLOPS на RTX 3080 по сравнению с 89 TFLOPS на RTX 2080.

Двукратное увеличение обработки FP32 (2x FP32 Processing)

Большинство графических вычислений состоят из 32-битных операций с плавающей запятой (FP32). Стриминговый мультипроцессор (SM) в архитектуре графических процессоров GA10x был разработан для поддержки обработки операций FP32 с удвоенной скоростью. В NVIDIA Turing каждый из четырех блоков обработки SM (также называемых разделами) имел два основных канала данных, но только один из двух мог обрабатывать операции FP32. Другой путь к данным был ограничен целочисленными операциями. GA10x включает операции FP32 на обоих каналах данных, удваивая пиковую скорость обработки для операций FP32. В результате NVIDIA GeForce RTX 3090 обеспечивает более 35 FP32 TFLOPS, что более чем в два раза больше по сравнению с графическими процессорами на основе архитектуры NVIDIA Turing.

RT Core второго поколения

Новые ядра RT Core включают ряд усовершенствований в сочетании с улучшениями подсистем кэширования, которые эффективно обеспечивают повышение производительности до 2 раз по сравнению с ядрами RT Core в графических процессорах NVIDIA Turing. Кроме того, SM в GA10x позволяет одновременно выполнять трассировку луча с помощью RT Core и вычислять графику или вычисления общего назначения, что значительно ускоряет многие операции с трассировкой лучей.

Tensor Cores третьего поколения

SM в GA10x включает новые тензорные ядра NVIDIA третьего поколения, которые поддерживают множество новых типов данных для повышения производительности, эффективности и гибкости программирования. Новая функция Sparsity может использовать преимущества мелкоэлементной структурированной разреженности в сетях глубокого обучения, чтобы удвоить пропускную способность операций Tensor Core по сравнению с тензорными ядрами предыдущего поколения в NVIDIA Turing. Тензорные ядра третьего поколения ускоряют функции AI, такие как NVIDIA DLSS для формирования изображения сверхвысокого разрешения, с поддержкой разрешений до 8K, приложение NVIDIA Broadcast для видео- и голосовой связи с улучшенным AI и приложение NVIDIA Canvas для рисования на основе AI.

Память GDDR6X

Память стандарта GDDR6X является новейшей высокоскоростной графической памятью. В настоящее время он поддерживает скорость 19.5 Гбит/с для NVIDIA GeForce RTX 3090 и 19 Гбит/с для NVIDIA GeForce RTX 3080. Благодаря 320-битному интерфейсу памяти и памяти стандарта GDDR6X NVIDIA GeForce RTX 3080 обеспечивает в 1.5 раза большую пропускную способность памяти, чем в предшествовавшей модели RTX 2080 SUPER.

Третье поколение шины NVLink в GA102

Графические ускорители на основе чипа GA102 аналогично чипу GA100 используют интерфейс NVIDIA NVLink третьего поколения, который включает четыре канала x4, каждый из которых обеспечивает пропускную способность 14.0625 Гб/с в каждом направлении между двумя графическими процессорами. Четыре канала обеспечивают пропускную способность 56.25 Гб/с в каждом направлении и общую пропускную способность 112.5 Гб/с между двумя графическими процессорами. Для реализации режима SLI два графических процессора RTX 3090 могут быть соединены вместе с помощью NVLink. (Обратите внимание, что конфигурации 3-Way и 4-Way SLI не поддерживаются.)

Поддержка PCIe Gen 4

Графические ускорители на основе GPU GA10x оснащены хост-интерфейсом PCI Express 4.0. PCI-E 4.0 обеспечивает вдвое большую пропускную способность по сравнению с PCIe 3.0, скорость передачи данных до 16 гигатрансферов в секунду (GT/s), а слот PCIe 4.0 x16 обеспечивает пиковую пропускную способность до 64 Гб/с.

Первым ускорителем на основе архитектуры NVIDIA Ampere и чипов GA10x является GeForce RTX 3080. В таблице 2, представленной ниже, приведено высокоуровневое сравнение GeForce RTX 3080 с его предшественником, RTX 2080 SUPER.

Внутри архитектуры Ampere GPU

Как и предыдущие графические процессоры NVIDIA, GA102 состоит из кластеров обработки графики (GPC), кластеров обработки текстур (TPC), потоковых мультипроцессоров (SM), растровых операторов (ROPS) и контроллеров памяти. Весь графический процессор GA102 содержит 7 GPC, 42 TPC и 84 SM.
GPC - это доминирующий аппаратный блок высокого уровня, в котором все ключевые графические процессоры находятся внутри GPC. Каждый GPC включает в себя выделенный Raster Engine, а теперь также включает два раздела ROP (каждый раздел содержит восемь блоков ROP), что является новой функцией для графических процессоров на основе архитектуры NVIDIA Ampere и более подробно описывается ниже. GPC включает шесть TPC, каждый из которых включает два SM и один PolyMorph Engine.

img_006.png

Рис. 6. Блок-диаграмма SM чипа GA102. В отличие от GA100, в SM реализовано ядро RT Core второго поколения. Но для его реализации снижено количество тензорных ядер (Tensor Core)

Каждый SM в графических процессорах GA10x содержит 128 ядер CUDA, четыре ядра Tensor Core третьего поколения, регистровый файл объемом 256 КБ, четыре текстурных блока, одно ядро RT Core второго поколения и 128 Кб L1/общей памяти, которые могут быть настроены для различной мощности в зависимости от потребностей вычислительных или графических задач.

Подсистема памяти GA102 состоит из двенадцати 32-битных контроллеров памяти (всего 384-битных). 512 КБ кэш-памяти L2 подключены к каждому 32-разрядному контроллеру памяти, всего 6144 КБ на полный GPU GA102.

Оптимизации ROP

В предыдущих графических процессорах NVIDIA, ROP были привязаны к контроллеру памяти и кеш-памяти L2. Начиная с графических процессоров GA10x, ROP теперь являются частью GPC, что повышает производительность растровых операций за счет увеличения общего количества ROP и устранения несоответствий между числом растеризируемых и обрабатываемых блоками растровых операций пикселей.

С семью GPC и 16 блоками ROP/GPC, графический процессор GA102 состоит из 112 ROP вместо 96 ROPS, которые ранее были доступны в графическом процессоре с интерфейсом памяти в 384-бит, таком как TU102. Это улучшает производительность сглаживания MSAA сглаживание мультисэмплов, скорость заполнения пикселей и производительность наложений и смешивания.

Архитектура SM в GA10x

Архитектура SM в NVIDIA Turing была первой, которая включала выделенные ядра для операций трассировки лучей. Графические процессоры NVIDIA Volta представили Tensor Core, а NVIDIA Turing тензорные ядра второго поколения. Еще одним нововведением, поддерживаемым SM в NVIDIA Turing и NVIDIA Volta, было одновременное выполнение операций FP32 и INT32. SM в GA10x улучшает все вышеперечисленные возможности, а также добавляет множество новых мощных функций.

Как и предыдущие графические процессоры, SM в GA10x разделен на четыре вычислительных блока (или раздела), каждый из которых имеет регистровый файл размером 64 КБ, кэш инструкций L0, один планировщик wrap sheduller, один модуль диспетчеризации и наборы математических и других модулей. Четыре раздела совместно используют подсистему кэша данных L1/общей памяти объемом 128 КБ.

В отличие от SM в TU102, который включал в себя два Tensor Core второго поколения на блок, всего восемь Tensor Core на GPU; SM в новом GA10x включает в себя одно тензорное ядро третьего поколения на блок и четыре тензорных ядра в сумме на весь GPU, причем каждое тензорное ядро GA10x в два раза мощнее, чем Tensor Core в архитектуре NVIDIA Turing.

По сравнению с Turing, объединенный кэш данных L1 и общая память SM в GA10x на 33% больше. Для задач связанных с графическими вычислениями емкость раздела кэша увеличена вдвое по сравнению с Turing, с 32 КБ до 64 КБ.

Двукратное повышение пропускной способности FP32

В архитектуре NVIDIA Turing каждый из четырех вычислительных блоков SM имел два основных канала данных, но только один из них мог обрабатывать операции FP32. Другой путь к данным был ограничен целочисленными операциями. GA10X включает обработку FP32 на обоих каналах данных, удваивая пиковую скорость обработки для операций FP32. Один канал данных в каждом разделе состоит из 16 ядер CUDA FP32, способных выполнять 16 операций FP32 за такт. Другой канал данных состоит из 16 ядер CUDA FP32 и 16 ядер INT32 и может выполнять либо 16 операций FP32, либо 16 операций INT32 за такт. В результате этой новой конструкции каждый SM блок GA10x способен выполнять либо 32 операции FP32 за такт, либо 16 операций FP32 и 16 операций INT32 за такт. Все четыре блока SM вместе могут выполнять 128 операций FP32 за такт, что вдвое превышает скорость FP32 блока SM в архитектуре Turing, или 64 операции FP32 и 64 операции INT32 за такт.

Современные игровые приложения и решаемые в них задачи имеют широкий спектр потребностей в обработке. Многие процессы содержат сочетание арифметических инструкций FP32 (таких как FFMA, сложение с плавающей запятой (FADD) или умножение с плавающей запятой (FMUL)), а также множество более простых целочисленных инструкций, таких как добавление для адресации и выборки данных, сравнение с плавающей запятой, или min/max для результатов обработки и т. д.

Архитектура NVIDIA Turing представила в SM второй математический путь данных, который обеспечил значительное повышение производительности для этих типов задач. Однако в других задачах могут преобладать инструкции с плавающей запятой. Добавление возможности вычислений с плавающей запятой ко второму каналу данных значительно облегчит выполнение этих задач. Прирост производительности будет варьироваться на уровне шейдера и приложения в зависимости от сочетания инструкций. Шейдеры устранения шума с трассировкой лучей - хороший пример задачи, которая может значительно выиграть от удвоения пропускной способности FP32.

Блоки SM в GA10x продолжают поддерживать двухскоростные операции FP16 (HFMA), которые поддерживаются и в NVIDIA Turing. И соответственно как в графических процессорах TU102, TU104 и TU106, стандартные операции FP16 обрабатываются тензорными ядрами в графических процессорах GA10x.

table_002.png

Таблица 2. Сравнительные факторы-Х пропускной способности FP32. Относительно операций FP32 в графическом процессоре NVIDIA Pascal GP102, используемом в GeForce GTX 1080 Ti

Большая и быстрая унифицированная распределенная память и кэш данных L1

Как я упоминал ранее, как и чипы на основе архитектуры архитектура предыдущего поколения NVIDIA Turing, GPU GA10x имеет унифицированную архитектуру для общей памяти, кэширования данных L1 и кэширования текстур. Этот единый дизайн можно перенастроить в зависимости от задачи, чтобы выделить больше памяти для L1 или общей памяти в зависимости от необходимости. Емкость кэша данных L1 увеличена до 128 Кб на SM.

В режиме вычислений SM в GA10x будет поддерживать следующие конфигурации:

  • 128 KB L1 + 0 KB Shared Memory
  • 120 KB L1 + 8 KB Shared Memory
  • 112 KB L1 + 16 KB Shared Memory
  • 96 KB L1 + 32 KB Shared Memory
  • 64 KB L1 + 64 KB Shared Memory
  • 28 KB L1 + 100 KB Shared Memory

Для графических вычислений и асинхронных вычислений GPU GA10x будет выделять 64 КБ кэша данных/текстур L1 (увеличение по сравнению с выделением кэш-памяти 32 Кб в Turing), 48 Кб общей памяти и 16 Кб зарезервировано для различных операций графического конвейера.

Весь GPU GA102 содержит 10752 Кб кэш-памяти L1 (по сравнению с 6912 Кб в TU102). Помимо увеличения размера L1, GA10x также имеет удвоенную пропускную способность разделяемой памяти по сравнению с Turing (128 байт/такт на SM по сравнению с 64 байтами/такт в Turing). Общая пропускная способность L1 для GeForce RTX 3080 составляет 219 ГБ/с против 116 ГБ/с для GeForce RTX 2080 Super.

table_003.png

Таблица 3. Сравнение GeForce RTX 3080 с GeForce RTX 2080 Super. 1 - Peak rates are based on GPU Boost Clock. 2. - Effective TOPS / TFLOPS using the new Sparsity Feature 3. - TOPS = IMAD-based integer math

Как видите, технологически новые графические ускорители позволяют оптимизировать программное обеспечение для повышения производительности, и при этом снижать нагрузку на GPU. Но как на практике выглядит работа графических ускорителей на основе GPU NVIDIA Ampere, в наших приложениях и тестах? Для ответа на этот вопрос я обратился к специалистам компании HYPERPC и запросил для тестов графический ускоритель на основе архитектуры NVIDIA Ampere.

Обзор и тестирование PALIT GAMINGPRO GeForce RTX 3090 24Gb

Для тестирования возможностей новой архитектуры, специалисты HYPERPC предоставили мне новинку от PALIT - графический ускоритель PALIT GeForce RTX 3090 GamingPro 24 Gb (Рис. 7). Данный ускоритель одним из первых появился на рынке России и СНГ. По заявлениям разработчиков, в нем используются высококачественные алюминиевые пластины для охлаждения компонентов и усовершенствованные вентиляторы TurboFan 3.0, что обеспечивает потрясающую эффективность охлаждения. Сочетая черный и серебристо-серый дизайн с ARGB подсветкой, ускоритель позволяет настраивать световые эффекты в соответствии с собственными предпочтениями пользователей.

img_007.png

Рис. 7. Графический ускоритель PALIT GeForce RTX 3090 GamingPro 24 Gb. Изображения предоставлены компанией PALIT

В качестве платформы для тестирования и сравнения результатов, выступила рабочая станция HYPERPC PRO 7T STUDIO, обзор которой я сделал буквально в начале августа, во время подбора нового оборудования для работы. Для вашего удобства я подготовил список всех ключевых характеристик тестового стенда:

Первое с чем мы познакомимся - с техническими характеристиками графического ускорителя. Так данный ускоритель выпущен в собственном исполнении от PALIT (Рис. 7) и рассчитан на высокую производительность в игровых приложениях. По своей структуре и возможностям подключения, данный ускоритель не отходит от заявленных возможностей GPU и возможностей подключения периферийных устройств. Так, ускоритель оснащен тремя портами DisplayPort 1.4a и одним портом HDMI 2.1. На боковой стороне расположены контакты питания - 2x 8-pin power connectors. А для удобства подключения, в комплект поставки включен переходник с 1x 8-pin на 2x 8-pin.

Рекомендуемая мощность блока питания для данного GPU составляет 750 Ватт. В использованном мною для тестов стенде был установлен блок питания на 1000 Ватт. Что обеспечило стабильную работу всех компонентов системы и полноценное питание даже во время интенсивных нагрузок тестами и в процессе работы над трехмерной моделью.

Технические характеристики

img_008.png

Рис. 8. Характеристики GPU использованного в PALIT GeForce RTX 3090 GamingPro отображаемые в утилите GPU-Z

Оценка GPU с помощью утилиты GPU-Z позволила узнать основные характеристики использованного в ускорителе GPU. Как и во всей линейке NVIDIA GeForce RTX 3090, в данном ускорителе использован процессор GA102. Данный GPU обладает 10496 ядрами CUDA, 328 ядерами Tensor Core, 82 ядрами RT Core, 112 блоков растровых операций (ROP’s). Ускоритель оснащен 24 Гб графической памяти стандарта GDDR6X, работающей на частоте 1219 MHz, чипы которой созданы компанией Micron, и связанной с помощью 384-бит шины памяти с GPU. Такое сочетание объема памяти, частоты и шины, позволяет достичь пропускной способности в 936.2 Гб/с.

Минимальная частота работы GPU составляет 1395 MHz, а частота в режиме Boost составляет 1695 MHz, что не отличается от конфигурации модели Founders Edition. В то же время, модель ускорителя PALIT GeForce RTX 3090 GamingPro OC, обладает большей частотой в режиме Boost, и составляет 1725 MHz, что примерно на 2% выше протестированной мною модели. Отмечу, что ОЕМ производители графических ускорителей незначительно повышают частоту в режиме Boost, наибольшая частота которую мне доводилось видеть составляет 1860 MHz, от ASUS и GIGABYTE, что на 10% выше от стандартной частоты, но все же, может дать определенный прирост в производительности. Плюсом использования базовых частот, является возможность самостоятельного безболезненного разгона, до разумных пределов.

Результаты тестирования в синтетических тестах

Познакомившись с техническими характеристиками GPU и графического ускорителя в целом, перейдем к самому важному - результатам тестов. Тестирование NVIDIA GeForce RTX 3090 я проводил аналогичным предыдущему тестированию образом, в синтетических и практических приложениях, сводя полученные данные в таблицу и выстраивая графики.

ВНИМАНИЕ!
Переход на новую архитектуру и реализация поддержки её возможностей в программном обеспечении может занимать от 6 месяцев до двух лет. Результаты тестов могут варьироваться от версии к версии. Также, важно знать, какая выбрана версия драйвера и осуществлены настройки в ПО и оборудовании.

Я выполнил тестирование с помощью следующих синтетических тестов SPEC Viewperf 13, SPECwpc 3.1, 3Dmark и ядра визуализации V-Ray GPU и OTOY Octane Render. Большинство тестов выполнено с применением базовых конфигураций компонентов материнской платы, BIOS, настроек драйвера и при базовых напряжении, частотах и температурах работы процессора и графического ускорителя.

Результаты тестов SPEC Viewperf 13

img_009.png

Рис. 9. Результаты тестов SPEC Viewperf 13

Так как я активно тестировал с помощью Viewperf 13 многие GPU, было интересно посмотреть на результат изменений архитектуры в обработке классической графики. Отмечу, что тест Viewperf 13 был разработан около трех лет назад, и ряд тестов из-за программной архитектуры и поддержки старых API, уже не могут дать стабильно высокий результат. В тесте вы видите, что тесты с классическими ядрами САПР, а именно sw-04 и snx-03 показывают крайне низкий результат в данном тесте. Во время тестирования, была использована версия драйвера NVIDIA STUDIO 456.71.

В нашем профильном сегменте - Media and Entertainment, новый GPU показал себя с лучшей стороны, обойдя своих предшественников в тестах maya-05 и 3dsmax-06. Но также мы видим, что тесты показывают близкие к предшественникам результаты, а это зависит в первую очередь от возможностей программного обеспечения и графического ядра теста.

Результаты тестов SPEC Workstation 3

img_010_A.png

Рис. 10.1. Результаты тестов SPEC Workstation 3. Все тесты выполнены на рабочей станции HYPERPC PRO 7T STUDIO

Также внимания заслуживает тест SPEC Workstation 3. В данном наборе тестов есть специальная группа тестов - GPU Compute. Результат комплексного тестирования CPU, памяти и дисковых накопителей с помощью SPECwpc, вы можете прочитать в моей подробной статье о HYPERPC PRO 7T STUDIO. В качестве API был выбран OpenCL, как универсальный для CPU Intel и GPU NVIDIA. Как можно увидеть из диаграммы на рисунке 10.1, графический ускоритель PALIT GeForce RTX 3090 GamingPro превзошел предшественника в лице NVIDIA TITAN RTX и даже превзошел по производительности конфигурацию с двумя GPU. PALIT GeForce RTX 3090 GamingPro превзошел TITAN RTX в тестах FAH и CAFFE. Folding@home (FAH или F@H) - это проект распределенных вычислений для исследования болезней и поиска лекарственных препаратов, который имитирует сворачивание белков и другие типы молекулярной динамики. Тест CAFFE основан на платформе глубокого обучения, разработанной Berkeley AI Research (BAIR) и участниками сообщества. Янцин Цзя (Yangqing Jia) создал проект во время учебы в докторантуре Калифорнийского университета в Беркли (PhD studies at UC Berkeley).

Тесты с вычислениями в области ИИ и вычислений общего назначения показали превосходящий предшественников результат, что стало возможным благодаря оптимизации в архитектуре NVIDIA Ampere. Отмечу, что данные тесты могут показать результат выше. Это объясняется тем, что пропускная способность шины PCI-Express 3.0 x16 ниже, чем PCI-Express 4.0 x16, а это может показать немного меньшее значение. Но мы были ограничены поддержкой шины PCI-E 3 со стороны CPU (Intel Core i9-10940X) и чипсета (X299).

img_010_B.png

Рис. 10.2. Результат теста LuxMark из набора тестов SPECwpc 3

Тест LuxMark, разработанный на основе ядра LuxRender, также наглядно демонстрирует уверенный прирост производительности в вычислениях общего назначения в конфигурациях с одним GPU. Ускоритель PALIT GeForce RTX 3090 GamingPro превосходит по производительности NVIDIA TITAN RTX почти в 2 раза. Для того, чтобы достичь подобной производительности с помощью GPU предыдущего поколения, необходимо приобрести два ускорителя, что по совокупной стоимости, будет дороже, чем приобретение одного ускорителя RTX 3090.

Результаты тестов V-Ray Benchmark

Ядро системы визуализации V-Ray является одним из активно-развиваемых решений, использующим возможности GPU для ускорения вычислений. Я провел тестирование GPU с помощью V-Ray Next Benchmark и сравнил с предыдущими тестами.

img_011.png

Рис. 11. Результаты теста V-Ray Next Benchmark

Ядро V-Ray продемонстрировало превосходную производительность в тесте. При этом, GPU на базе архитектуры NVIDIA Ampere продемонстрировал почти двукратный прирост производительности в визуализации с помощью V-Ray GPU. Т.е. за тоже время, мы смогли получить вдвое большее число лучей, по сравнению с NVIDIA TITAN RTX. Но как и в других аналогичных тестах, к результатам GeForce RTX 3090 очень близким оказались два NVIDIA TITAN RTX, объединенные NVLink. Также, в процессе работы с большими комплексными сценами, производительность может упереться в пропускную способность шины PCI-Express. Стоит помнить об этом, при выборе комплектующих для ПК.

Результаты тестов OTOY Octane Benchmark

Ядро визуализации OTOTY Octane Render давно славится своим активным развитием и расширением функционала. Данная система визуализации активно поддерживает новейшие решения NVIDIA и практически сразу выходит новая версия, поддерживающая новую архитектуру и модели GPU.

img_012.png

Рис. 12. Результаты тестов в OTOY Octane Benchmark

В режиме визуализации с применением API CUDA (RTX Off), Octane Bench демонстрирует значительный прирост в сравнении с моделями предыдущего поколения. Опять же, при работе в режиме одного GPU. Мы видим аналогичную картину, которая была получена с помощью LuxMark и V-Ray Next Benchmark, которые опираются на OpenCL и CUDA API.

Однако, так как тесты были обновлены, а предыдущие версии тестов Octane Bench (4.00c и 2019_RTX) НЕ ПОДДЕРЖИВАЮТ GPU на базе архитектуры NVIDIA Ampere, тестирование с помощью ядра на основе API NVIDIA OptiX (RTX On) показало следующий результат. Вы можете видеть, что при использовании RTX версии, мы не получаем значительного прироста производительности. Данное “отставание” обусловлено изменением расчета оценки результатов алгоритмом теста, а все дальнейшие измерения нам необходимо выполнять опираясь на возможности новой версии тестов.

Но также, при выборе CUDA API и стандартной версии ядра, мы получаем классический почти двукратный прирост производительности GPU.

Результаты тестов 3DMark

img_013.png

Рис. 13. Результаты тестирования набором тестов 3DMark

Графические технологии, используемые в игровых движках, можно хорошо протестировать с помощью тестов 3DMark. В данном тестировании я использовал Steam-версию данного набора тестов.

На рисунке 13 наглядно показано, как и в каких тестах, GPU PALIT GeForce RTX 3090 GamingPro превосходит ускорители предыдущих поколений. Заметьте, что тесты показывают практически идентичный результат на ускорителях предыдущего поколения и выпущенных на основе чипов TU104. А серьезные различия в производительности наблюдались именно среди настольных GPU, Hi-end сегмента. И ускоритель на основе архитектуры NVIDIA Ampere показывает свое превосходство над предшественником в лице NVIDIA TITAN RTX и более младшими моделями.

Интересным в моем случае оказался тест Time Spy, который на моей тестовой системе показал результат немного ниже, в сравнении с опубликованными ранее в сети тестами. Я могу отнести данный результат к тому, что для набора большего количества баллов оказалось недостаточно производительности CPU и шины PCI-E 3.0. Но как мы видим по результатам вычислительных тестов, и инструментам визуализации, результат у нового графического ускорителя все равно высок.

О поддержке возможностей современных API я напишу отдельную статью, так как эта тема обширная и позволяет определить, какие функции могут потребовать наличия высокопроизводительных GPU, а для каких подойдут GPU среднего и младшего сегментов.

Результаты тестирования в приложениях

В отличие от синтетических тестов, меня интересовали и результаты тестов практических. Но обширное тестирование нам еще предстоит осуществить, так как многие приложения еще в процессе оптимизации и реализации функционала с поддержкой возможностей архитектуры NVIDIA Ampere. В качестве основы я использовал тесты в Autodesk Maya и MtoA 4.0.5 (Arnold 6.0.5.0), Blender 2.90.1, Cinema 4D R20 и DaVinci Resolve 16.2.7.

Результаты тестов Autodesk Maya и MtoA 4.0.5

Компания Autodesk активно сотрудничает с NVIDIA и внедряет поддержку новых возможностей GPU в свои решения. Уже сейчас вы можете загрузить обновление для MtoA до последней версии и использовать возможности поддержки новой архитектуры GPU. Взглянем на результаты теста. Как и в предыдущем тестировании, я использовал сцену предоставленную NVIDIA и оптимизированную для Arnold GPU.

img_014.png

Рис. 14. Результаты тестирования в Maya и MtoA 4.0.5

Результат теста был достаточно предсказуем. Архитектура NVIDIA Ampere и оптимизированная версия ядра Arnold, а также обновление драйвера STUDIO (в тестах использована версия 456.71), показывают прирост производительности в визуализации комплексной модели. В то время, как ранее мы могли достичь прироста только с помощью наличия нескольких графических ускорителей, теперь, аналогичный результат мы можем получить, используя один GPU. При добавлении еще одного GPU RTX 3090 и шины NVLink, можно также повысить производительность в вычислениях. С точки зрения экономики, приобретение одного графического ускорителя NVIDIA GeForce RTX 3090 гораздо выгоднее в сравнении с приобретением двух TITAN RTX.

Результаты тестов Blender 2.90

Пакет Blender и его ядро визуализации Cycles развиваются очень активно, далеко не всегда есть возможность протестировать и использовать все возможности. Во время тестирования была обнаружена интересная особенность - Blender 2.83.5 - 2.83.7 на момент тестов не поддерживал архитектуру NVIDIA Ampere, уже в завершении тестов вышла обновленная версия 2.83.8. В обновлении данный вопросы был решен, но я опирался на тесты версии 2.90.1. По сути, в LTS версию добавили реализованную в версии 2.90.Х поддержку новой версии API NVIDIA CUDA и NVIDIA OptiX, а также поддержку новых GPU на базе архитектуры NVIDIA Ampere.

img_015_V2.png

Рис. 15. Результаты тестирования в Blender 2.90 Cycles Renderer

В результате тестов на комплексных сценах мы видим, что графический ускоритель PALIT GeForce RTX 3090 GamingPro показывает превосходящий над NVIDIA TITAN RTX (в конфигурации системы с одним GPU) результат, и даже превосходит конфигурацию с двумя GPU, протестированную ранее. В не таких сложных сценах (тест BMW), в которых нет большого числа геометрии и сложных текстурных карт, новая архитектура также показывает себя с лучшей стороны. Вырываясь вперед от конкурентов. Хочется отметить, что обновление архитектуры и увеличение числа ядер RT Core дают прирост в производительности на конфигурациях с одним GPU, и опять же, приобретение ускорителя на архитектуре NVIDIA Ampere будет экономически выигрышным решением, в соотношении цена/производительность. Ведь один GPU выполнит аналогичную задачу быстрее, чем ранее выполняли 2 GPU.

Результаты тестов Cinema 4D R20 ProRender

img_016.png

Рис. 16. Результаты тестирования в Cinema 4D R20 ProRender

Как и все предыдущие тесты, в Cinema 4D ProRender мы видим аналогичный результат влияния новой архитектуры и оптимизации драйвера. Производительность только одного GPU GeFroce RTX 3090 может превзойти два GPU NVIDIA TITAN RTX, созданных на основе архитектуры NVIDIA Turing.
Алгоритм визуализации в ProRender очень хорошо оптимизирован для работы с GPU и позволяет получать высокую производительность в процессе визуализации сложных сцен.

Результаты тестов DaVinci Resolve 16.2

И последний раздел практических тестов остается за решением для редактирования видео - DaVinci Resolve 16.2.7. Платформа Resolve активно развивается и на момент написания данных строк, BlackMagic Design активно тестировали обновление до версии 16.3.

img_017.png

Рис. 17. Результат тестов сборки видео-секвенций в DaVinci Resolve 16.2

Тест текущей production версии Resolve показал, что она не оптимизирована для работы с ускорителями на базе GPU NVIDIA Ampere. Это обусловлено тем, что разработчикам еще предстоит доработать алгоритмы машинного обучения и кодирования/декодирования видео.

Но в целом, PALIT GeForce RTX 3090 GamingPro вплотную держится по отношению к одному GPU NVIDIA TITAN RTX.А в некоторых тестах, даже опережает его. Так, тест Speed Wrap, опирающийся на алгоритмы ИИ и МО, на новой архитектуре показал оптимальный прирост. Сейчас, стоит ожидать обновления ПО и выхода новой версии с оптимизацией для NVIDIA Ampere и новых версий драйвера.

Итоги

Первые тесты новейшей архитектуры NVIDIA показали превосходный результат в производительности в конфигурациях системы с одним GPU. Так, графические ускорители на базе архитектуры NVIDIA Ampere могут стать превосходной заменой GPU на базе архитектуры NVIDIA Pascal и NVIDIA Volta, в силу их устаревания и отсутствия поддержки новых возможностей API NVIDIA CUDA. С другой стороны, мы видим определенные сходные результаты в тестах с NVIDIA Turing, что может заложить мнение о том, что GPU не такой производительный. Но на самом деле, все зависит от ПО и драйверов. Для стабильности и надежности, я использую драйвер NVIDIA STUDIO. При этом, во время тестов были сделаны тесты с двумя различными версиями драйвера, и это дало определенный прирост в производительности, в частности в визуализации трехмерных сцен.

Важным является и экономический эффект. Если вы еще не приобретали GPU на базе архитектуры NVIDIA Turing, то приобретение NVIDIA GeForce RTX 3080 и NVIDIA GeForce RTX 3090 станет правильным решением, вы получите инструмент, который по производительности превзойдет предыдущие решения. Но при этом, позволит сэкономить. И заявленный в анонсе прирост производительности на Ватт, работает.

Благодарности

Благодарю компании NVIDIA, HYPERPC и PALIT за предоставленное для тестирования и обзора оборудование и информационную поддержку в технических вопросах.

793 0 850 3
1
2020-11-01
Спасибо за подробную информацию!
RENDER.RU