Обзор multi-GPU системы DigitalRazor RenderRack Pro с высокоэффективным жидкостным охлаждением

Для интенсивной работы в CG мы используем высокопроизводительные компьютеры. Чем сложнее проекты, тем более требовательными мы становимся к выбору рабочей станции, комплектующих и периферии. Мы стараемся решать множество разнообразных задач, связанных с моделированием, текстурированием, риггингом, анимацией, визуализацией, композитингом и монтажом секвенций. Чем производительнее система, тем комфортнее и быстрее мы можем решать поставленные задачи в самых разнообразных рабочих нагрузках.

Но при усложнении вычислительной системы, мы сталкиваемся с важным вопросом - как выполнять охлаждение компонентов системы, особенно таких, как CPU и GPU. Также серьезным становится вопрос при выборе для вычислений, конфигураций с несколькими GPU, на которые мы можем переложить выполнение целого спектра вычислений в определенных рабочих нагрузках.

Сейчас, графические ускорители обладают большим потреблением энергии, что необходимо для обеспечения высокой производительности графических чипов. Минусом таких устройств является их система охлаждения, и очень хорошо, когда GPU занимает два слота, а топовые модели, своими системами охлаждения занимают все три слота а в некоторых моделях и все 3,5 - 4 слота. В таком случае, говорить о создании систем с поддержкой четырех и более GPU просто не представляется возможным, или потребует поиска неординарных решений.

Компания DigitalRazor предложила протестировать новую систему на базе процессора AMD Ryzen Threadripper PRO 5975WX и четырех NVIDIA GeForce RTX 4090. Благодаря новой системе жидкостного охлаждения от Digital Razor, она заслуживает особого внимания, даже в постоянной и интенсивной нагрузке, температуры процессора и графического ускорителя, не выходили за пределы определенного диапазона температур.

В 2022 году, компании DigitalRazor и FORSITE представили систему жидкостного охлаждения нового поколения обеспечивающую высокую эффективность в охлаждении CPU и GPU.

В данном обзоре я делюсь результатами знакомства и исследования возможностей системы охлаждения высокопроизводительной системы DigitalRazor RenderRack Pro.

img_101_1.JPG

img_101_2.JPG

Система DigitalRazor RenderRack Pro на базе процессора AMD Ryzen Threadripper PRO 5975WX и четырех GPU NVIDIA GeForce RTX 4090

Для написания данного обзора, я пообщался с разработчиками системы и узнал много нового и интересного о жидкостных системах охлаждения, используемых для высокопроизводительных систем.

Проблемы тепловыделения и охлаждения компьютерных систем

Когда мы собираем компьютер для работы с САПР, CG, ИИ и гейминга, мы уделяем большое внимание подбору достаточно производительных компонентов, способных удовлетворить наши потребности. Для систем с постоянной нагрузкой, таких как рабочие станции и сервера, производители оборудования предлагают использовать высокоэффективные системы жидкостного охлаждения. Но те системы охлаждения, которые используются в повседневной деятельности лишены надежности при повышенной и продолжительной нагрузке, а также у них достаточно низкий КПД, чтобы покрывать потребности в отводе тепла от CPU и GPU.

Помимо этого, редкие решения позволяют охлаждать не только основные вычислительные элементы, но также и подсистем питания процессора и графических карт, которые, при перегреве, значительно снижают производительность вычислительных чипов, а также быстро деградируют, выводя из строя оборудование.

Они трудоемки для установки и требуют повышенных компетенций как сборщика систем, так и пользователя. При этом, не исключен риск неудачной установки системы, что ведет к залитию электронных компонентов жидкостью.

Разработка систем жидкостного охлаждения

Разработка системы охлаждения, используемой в DigitalRazor RenderRack Pro заняла определенное количество времени и потребовала большой исследовательской работы целой команды инженеров. Так как разработчики сразу ориентировались на применение в высоконагруженных вычислениях, потребовалось решить множество вопросов, связанных с методиками охлаждения, металлами, взаимодействием с жидкостью и подобрать подходящие комплектующие, не только основные, но и все необходимые периферийные устройства, чтобы создать надежную аппаратно-программную платформу.

Результатом разработок стала система жидкостного охлаждения в которой реализованы следующие возможности:

  • Качественное жидкостное охлаждение процессора и модулей VRM на материнской плате
  • Используется высокоточная и высокоэффективная технология деформирующего резания для изготовления микроребер (0,25 мм x 2,7 мм)
  • Тепловыделение увеличено до 10 раз по сравнению с воздушным охлаждением
  • Система предназначена для сокетов AMD SP3/TR4 и Intel Socket LGA 4189/4677 (3rd & 4th Generation Intel Xeon)
  • Система поддерживает установку на графические ускорители NVIDIA GeForce RTX 4090, NVIDIA RTX A, NVIDIA A100 и NVIDIA A40 GPU’s
  • Система разработана для материнских плат и графических ускорителей от ASUS и GIGABYTE
  • При создании используются только неагрессивные материалы (медь, нержавеющая сталь, пластик)
  • Термическое тестирование и гарантия качества. Обеспечивается низкое ΔTo между температурой чипа и охлаждающей жидкости на входе

Система жидкостного охлаждения основана на технологии деформирующего резания, которая позволяет передавать больше тепла от источника, чем обычно можно ожидать при прямом жидкостном охлаждении.

Эта уникальная технология позволяет создавать медные ребра толщиной всего 0,1 мм с каналом 0,1 мм и высотой 3 мм. В решении от DigitalRazor микроребра оптимизированы для низкого перепада давления с толщиной 0,25 мм, каналом - 0,25 мм и высотой 2,7 мм.

img_102_V2.JPG

Медная пластина после обработки на станке, блок для NVIDIA GeForce RTX 4090

Большое увеличение площади поверхности водоблока, контактирующей с охлаждающей жидкостью, позволяет быстрее отводить тепло. Он предотвращает тепловой троттлинг центрального процессора и графического процессора, поддерживая температуру в безопасном диапазоне даже при круглосуточной работе со сложными рабочими нагрузками.

Это преимущество делает водоблоки используемые в DigitalRazor RenderRack Pro чрезвычайно эффективными (низкое ΔTo) и экономичными.

img_103.JPG

Общая схема потоков жидкости в системе охлаждения для материнской платы ASUS PRO WS WRX80E-SAGE

Иллюстрация выше наглядно демонстрирует принцип работы системы охлаждения CPU с помощью модуля, рассчитанного для охлаждения не только CPU, но и VRM-модулей материнской платы. Жидкость поступает в камеру блока охлаждения CPU, забирает тепло от CPU и возвращается в контур для охлаждения и возвращения обратно к CPU.

Для GPU были разработаны аналогичные модули, позволяющие активно охлаждать графический ускоритель во время интенсивных вычислений.

img_104.JPG

Общая схема потоков жидкости в системе охлаждения для графического ускорителя NVIDIA A100 80GB

Графические ускорители обладают определенными требованиями к системам охлаждения, и современные активные системы охлаждения занимают большой объем внутри корпусов, и это создает ряд проблем, связанных с масштабированием системы до нескольких GPU, или охлаждением при максимальной нагрузке, в требовательных к производительности рабочих нагрузках.

В DigitalRazor учли эти моменты и в RenderRack Pro используется кастомная система для охлаждения GPU, являющаяся частью всей системы жидкостного охлаждения в целом.

Клиентам предоставляется возможность выбрать блоки охлаждения GPU, поддерживающие как GPU GeForce RTX, так и RTX A и NVIDIA A.

Масштабирование производительности систем

Системы DigitalRazor RenderRack Pro поддерживают установку до двух CPU и до шести высокопроизводительных GPU, плюс, 1 GPU для подключения дисплеев (в специальных конфигурациях). Что стало возможным благодаря тщательно разработанной и адаптированной системе охлаждения. В процессе разработки авторы провели множество тестов и исследований с различными металлами и пластиками. Это позволило найти подходящие решения для минимизации эффекта заполнения системы микрочастицами, которые формируются в процессе циркуляции жидкости внутри системы охлаждения.

img_105.JPG

Схема расположения основных элементов системы охлаждения и основных трубок с холодной жидкостью и жидкости после прохождения основных вычислительных компонентов

На иллюстрации выше наглядно продемонстрированы основные потоки воздуха и жидкости внутри системы. Холодный воздух поступает внутрь корпуса, проходит к радиатору и выходит с повышенной температурой, забирая тепло от жидкости внутри радиатора. Жидкость циркулируя через коллектор, ватерблоки и резервуар, забирает тепло компонентов системы и охлаждая их, проходит через радиатор. Системы активного охлаждения позволяют проводить воздух через корпус и направлять его напрямую в радиатор.

img_106.JPG

Фотография системы DigitalRAzor RenderRack Pro демонстрирующая расположение основных каналов системы охлаждения, подключенных к CPU и четырем GPU NVIDIA GeForce RTX 4090

Используемая в RenderRack Pro комплексная система требует управления и сбора аналитических данных, чтобы правильно оптимизировать ее производительность.

Для управления создан контроллер, который помогает настраивать систему охлаждения и каждый из ее элементов индивидуально. Вы можете настроить систему как с помощью кнопок на корпусе системы, так и с помощью программного обеспечения, войдя в консоль с помощью web-браузера.

Отмечу, что подобные решения редки, и такой подход к управлению позволяет оптимально обслуживать целый парк систем, так как RenderRack Pro могут быть установлены в стойки и объединены высокоскоростной сетью, а также связаны с NAS, эта функциональность становится востребована в администрировании систем.

img_107.JPG

Панель управления системой охлаждения на корпусе DigitalRazor RenderRack Pro

Со стороны программного обеспечения был разработан стек основных программных модулей и разработаны возможности для интеграции с системами мониторинга, такими как Zabbix и Grafana.

Установив специальное приложение, войдя через браузер в консоль, вы можете проанализировать текущее состояние системы и провести ее конфигурацию, а также обновить программное обеспечение контроллера.

img_108_V2.JPG

Консоль мониторига системы жидкостного охлаждения RenderRack Pro в web-браузере

Мы познакомились с основными характеристиками и некоторыми возможностями системы жидкостного охлаждения в DigitalRazor RenderRack Pro.

Но было-бы не так интересно просто описать ее и показать красивые иллюстрации. Я специально провел ряд тестов, чтобы замерить температуры и понаблюдать за процессами, происходящими с системой охлаждения при различных рабочих нагрузках, благодаря консоли мониторинга мы увидим статистику по температурам основных компонентов системы.

Тренды в области высокопроизводительных вычислений

В последние годы, мы активно используем приложения с возможностями GPU-вычислений в реализованных инструментах. В NVIDIA стараются проработать все возможные направления применения вычислительных мощностей современных GPU.

Наиболее актуальными и самыми развитыми направлениями в последние годы, стали:

  • ускорение вычислений в области машинного обучения и искусственного интеллекта,
  • разработка робототехники и автономных машин,
  • научные исследования,
  • медицина,
  • коллаборативная работа,
  • высококлассная визуализация,
  • направление стриминга медиа-контента.

Каждое из направлений содержит целую плеяду отдельных суб-направлений, которые решают ту, или иную задачи. Также, данные направления могут быть совмещены, пересекаясь в тех или иных задачах, что существенно увеличивает значимость GPU и его производительности для их решения.

В марте 2023, NVIDIA провела очередную конференцию GTC, где пользователи продуктов компании, и глобальные клиенты представили свои разработки и поделились опытом разработки GPU-accelerated приложений для работы с требовательными к вычислительной производительности рабочими нагрузками.

Особое внимание уделено таким вопросам, как применение multi-GPU систем и созданию единых кластеров, нацеленных для работы целых коллективов специалистов или увеличения производительности в решении сложнейших задач, которые невозможно решить средствами стандартных систем на базе CPU.
Отдельного внимания заслуживают механизмы обмена данными не только между компонентами системы, но и в целом, между узлами.

У NVIDIA предоставлены все необходимые инструменты для создания единой управляемой вычислительной системы, состоящей из множества элементов, начиная рабочими станциями, завершая высокопроизводительными вычислительными серверами, оснащенными производительными компонентами и объединенные высокоскоростной сетью с системами хранения данных.

Области применения DigitalRazor RenderRack Pro

Применение системы DigitalRazor RenderRack Pro обширно. В первую очередь она позиционируется как высокопроизводительная система для вычислений в областях машинного обучения, высокопроизводительных вычислениях в науке и исследованиях, визуализации, анимации и дизайне.

Благодаря поддержке установки до шести GPU, можно создавать конфигурации для multi-display систем с поддержкой вывода изображений содержащих более 265,5 миллионов пикселей, что делает данную систему выгодным решением для студий virtual production и систем используемых для визуализации сложных трехмерных моделей в науке и исследованиях, а также симуляторах в реальном времени

Для студий, системы RenderRack Pro являются отличным решением в построении GPU-accelerated ферм визуализации. Что актуально при работе с GPU-версиям систем визуализации. Помимо этого, решение активно предлагается для работы над созданием студий virtual-production, благодаря поддержке высокого разрешения и технологиям синхронизации дисплеев. Возможность установки в стойку, позволяет создать компактное по занимаемой площади решение для визуализации с отличной функциональностью для управления на основе IPMI и специализированных приложений.

Multi-GPU системы для высокопроизводительных вычислений и визуализации

Системы DigitalRazor RenderRack Pro разработаны для применения в рабочих нагрузках требовательным к производительности вычислительных компонентов, таких как CPU и GPU. Также, системы могут быть использованы при продолжительных нагрузках, так как благодаря высокоэффективной и управляемой системе охлаждения, основные вычислительные компоненты будут эффективно охлаждены и не будут испытывать чрезмерные температурные нагрузки.

В таких областях как машинное обучение, вычисления общего назначения, визуализация и обработка данных, сейчас выгодно использовать не один GPU, а несколько. Но с ростом производительности GPU, сами графические ускорители занимают больший объем внутри системы, не позволяя создавать конфигурации с несколькими GPU с активным воздушным охлаждением.

Протестированная мною система лишена подобной проблемы. Благодаря жидкостной системе охлаждения на базе DigitalRazor RenderRack Pro можно создавать конфигурации с шестью GPU, а также добавлять еще один GPU для подключения дисплеев, что в сумме дает возможность использовать семь графических ускорителей.

Системы охлаждения разработаны для таких GPU, как NVIDIA GeForce RTX 3090, NVIDIA GeForce RTX 4090, NVIDIA RTX A5000, NVIDIA RTX A6000, NVIDIA RTX A6000 Ada, NVIDIA A100, NVIDIA A40.

Отмечу, что графические ускорители NVIDIA на базе архитектуры NVIDIA Turing (NVIDIA GeForce 30-серии), поддерживают режим работы SLI, а новое поколение GPU, на базе архитектуры NVIDIA Ada Lovelace, уже не обладают поддержкой SLI. Что лишает возможности объединять несколько GPU для формирования общей памяти и совместных вычислений, а также обработки графики.

При создании конфигурации, вопрос с SLI следует учитывать, и распланировать, как будут использованы GPU.

Для проектов, рассчитанных на работу с большими массивами данных, можно использовать специальные конфигурации системы, выходящие под брендом FORISTE - DEVBOX, который комплектуется графическими ускорителями корпоративного уровня - NVIDIA A100 80 GB, объединенных мостом SLI. Системы FORSITE DevBOX специально выделены в корпоративный сегмент, и предназначены для задач связанных с ресурсоемкими вычислениями, с большими массивами данных, и для виртуализированных окружений, требовательных к GPU-accelerated вычислениям в виртуальных машинах.

В моем распоряжении была доступна система DigitalRazor RenderRack Pro со следующими характеристиками:

  • CPU: AMD Ryzen Threadripper PRO 5975WX 32-core/64-thread
  • RAM: 512 Gb DDR4-3200 (8x64 Gb)
  • GPU: 4x NVIDIA GeForce RTX 4090
  • SSD: NVMe SSD 2Tb
  • Motherboard: ASUS Pro WS WRX80SE-SAGE SE Wi-FI
  • OS: Microsoft Windows 11 Pro 21H2

Тестирование системы жидкостного охлаждения

Первое на что я обратил внимание - на реальную возможность СЖО охлаждать ключевые компоненты системы. Благодаря HWmonitor и консоли мониторинга, доступной в web-браузере, мне удалось проследить результат работы СЖО и оценить ее эффективность во время различных тестов. В данном разделе я представлю примеры работы СЖО и эффективность охлаждения компонентов системы.

LCS_img_101.jpg

Показатели напраяжения, температуры ключевых сенсоров материнской платы и CPU в HWmonitor. Важно! Пустые строки - сенсор отсутствует, - особенность HWMonitor.

Если рассмотреть раздел с температурами, в холодном режиме, температура компонентов системы доходит до 41 градуса Цельсия. Это мы можем также видеть по температурам CPU, который состоит из нескольких кластеров с ядрами. Процессоры на архитектурах AMD Zen 2 и AMD Zen 3 состоит из нескольких кластеров с вычислительными ядрами, которые в зависимости от модели процессора могут быть активны или выключены. При этом, благодаря такому распределению снимать метрики с таких кластеров и их элементов можно гораздо точнее, чем и воспользовались при разработке СЖО и во время ее проектирования.

Если же запустить процесс вычислений, например процесс визуализации изображения разрешением 4096х4096 пикселей в Blender Cycles CPU, процессор будет нагреваться до температуры максимум 61 градус Цельсия.

LCS_img_102.jpg

Показатели температуры CPU в HWmonitor во время визуализации изображения разрешением 4096x4096 пикселей в Blender Cycles CPU.

На иллюстрации выше мы видим, как в процессе визуализации ведет себя CPU и до какой температуры он нагревается. Благодаря высокоэффективному забору тепла и его отвода от CPU, мы получаем приемлемые температуры, гораздо ниже, чем при охлаждении воздушными системами. При этом, процессор был загружен рабочей нагрузкой на 100% и активно в течении часа выполнял визуализацию изображения.

В Grafana мы можем пронаблюдать эту нагрузку в виде графиков.

LCS_img_103_grafana_cpu.jpg

Графики температур CPU и GPU в Grafana.

В пике, при вычислениях на CPU система потребляет до 415 Ватт энергии. Обратите внимание на графики поступающего и выходящего из системы воздуха. В систему стабильно поступает воздух с температурой 21.6 градус Цельсия, а пройдя весь цикл, из системы воздух выходит с температурой 34.5 градуса Цельсия.

Следующим тестом стал тест GPU. Здесь стоит обратить внимание на тот факт, что потребляемая мощность благодаря 4-м GPU GeForce RTX 4090 доходит до 1.30 КВатт. Поэтому следует учитывать этот момент при установке подобной системы, и вы должны быть обеспечены надежным источником электричества.

LCS_img_104.jpg

Показатели температуры CPU в HWmonitor во время визуализации изображения разрешением 4096x4096 пикселей в Blender Cycles GPU.

В случае с GPU мы наблюдаем аналогичный результат, как и с CPU. В режиме без нагрузок, каждый из 4-х GPU нагревается до температуры в 33 градуса Цельсия. Это соответствует стандартным показателям температуры GPU NVIDIA GeForce RTX 40-ой серии, и даже может на несколько градусов быть ниже.
Когда мы запускаем выполнение рабочей нагрузки, все 4 графических ускорителя нагреваются до температуры в не выше 54 градусов цельсия. Но в течении всего теста, температура меняется незначительно.

Снова взглянем на Grafana. Здесь мы отчетливо видим различия в потребляемой мощности и изменении эффективности системы охлаждения и особенности охлаждения GPU как во время нагрузки так и сразу по ее завершению.

LCS_img_105_grafana_gpu.jpg

Графики температур CPU и GPU в Grafana во время визуализация изображения на GPU.

Каждый из GPU в процессе выполнения теста обладала температурой от 49 до 53 градусов Цельсия. Температура поступающего и выходящего из системы воздуха также составляла 21.5 и 35 градусов Цельсия соответственно. Стоит отметить, что после завершения теста, GPU и CPU не охлаждаются до исходной температуры, после охлаждения до определенного уровня, далее GPU охлаждаются равномерно.
Система показала высокую эффективность охлаждения как при коротких нагрузках, так и при достаточно продолжительных. Что показывает ее пригодность для постоянных вычислительных нагрузок. При этом, хорошее охлаждение ключевых компонентов позволяет продлить их срок службы, и оптимально выполнять разгон, если такой может потребоваться.


Тест накопителя NVMe

Первым я протестировал скорость накопителя NVMe использованного в предоставленной для тестов системе.

img_109.JPG

Результат теста NVMe накопителя, установленного в DigitalRazor RenderRack Pro

В тесте CrystalDyskMark накопитель продемонстрировал ожидаемую скорость чтения и записи. В последовательном тесте SEQ1M Q8T1 размером в 4 GiB, скорость чтения составила 5012.1 MB/s, а скорость записи составила 4255.74 MB/s.

Высокая скорость чтения и записи актуальна в наших задачах, связанных с обработкой секвенций кадров с разрешением 4K и 8K. Также, важно быстро читать и записывать большие объемы данных связанных с кэшированием 3D-анимации и в процессе композитинга. Помимо этого, высокая скорость чтения и записи дисковой подсистемы, будет всегда полезна для работы с кэшами симуляций, например таких, как вода, облака, огонь и многие другие, основанные на моделировании жидкостей и газов.

Отмечу важное преимущество решений от ASUS, используемых в протестированной системе. У ASUS есть интересное решение в виде платы расширения HYPER M.2 X16 GEN 4 CARD, которая устанавливается в слот PCI-Express и в которую можно поместить до 4-х SSD накопителя формата M.2 и создать на их основе RAID-массив.

img_110.jpg

Плата расширения ASUS HYPER M.2 X16 GEN 4 CARD для установки 4-х SSD накопителей формата M.2.

Можно создавать конфигурации с 8 SSD накопителями размещенными в двух платах HYPER M.2 X16 GEN 4 CARD и двумя SSD M.2 накопителями размещенными на материнской плате, что позволяет создавать большие по объему и высокоскоростные RAID-массивы для критически-важных данных.

Тестирование системы в задачах 3D-визуализации

Основным направлением, которое мне интересно в различных тестах, является тестирование с помощью различных ядер визуализации. Сейчас активно используется GPU-accelerated системы визуализации и я непременно воспользовался возможностью протестировать производительность четырех GPU, установленных в системе.

Для тестов я использовал тесты на основе ядер V-Ray GPU, OctaneRenderer, Cycles Renderer и Cinema 4D.

Особое внимание я уделил наблюдениям за температурами во время процесса визуализации в различных ядрах. Отмечу, что тестирование проводилось на системе с GeForce RTX 4090, группа тестов позволила определить, насколько производительным оказался современный GPU на базе архитектуры NVIDIA Ada Lovelace. Подробный обзор NVIDIA Ada Lovelace я сделаю в отдельном посте, ведь это совершенно новая архитектура, привносит новые возможности и обеспечивает высочайшую производительность в вычислениях и обработке графики.

img_111.png

Сравнение архитектур GPU NVIDIA Ampere и NVIDIA Ada Lovelace

В отличие от предыдущего поколения GPU, использованного в линейках ускорителей GeForce 30-ой серии, и Quadro RTX, на базе архитектуры NVIDIA Ampere, новые графические ускорители претерпели ряд важных изменений, связанных с архитектурой GPU NVIDIA Ada Lovelace.

Важным моментом, который я хочу отметить - исключение поддержки шины NVLink. Сейчас NVIDIA делает акцент на применение шины PCI Express 4.0 и PCI Express 5.0, для обмена данными между GPU.

Также, исключение блоков, отвечающих за шину NVLink, позволило значительно нарастить производительность GPU добавив больше ядер CUDA, тензорных ядер и ядер RT третьего поколения. Исключение NVLink потребует оптимизации ПО для новой архитектуры. Такие приложения, как ядра визуализации на новых GPU не могут использовать графическую память как общую. При загрузке сцены, она будет загружена в память каждого GPU, выделенного для визуализации. Но общее повышение производительности GPU приводит к быстрому процессу вычислений, но ограничивает нас в использовании ресурсов памяти всех GPU как единого объема. Но в будущем, эту особенность должны решить разработчики приложений, задействовав новые возможности CUDA. Мы также можем использовтаь гибридный режим вычислений, использующий возможности CPU и GPU и общей оперативной памяти.

Новая версия тензорных ядер получила двукратный прирост производительности в сравнении с GPU на базе архитектуры NVIDIA Ampere.

А ядра RT Cores получили ряд новых возможностей связанных с обработкой прозрачности в текстурных картах и тесселяцией геометрии.

  • Во-первых, RT Core третьего поколения в Ada имеет в 2 раза более высокую пропускную способность пересечения лучей и треугольников по сравнению с Ampere; это позволяет разработчикам добавлять больше деталей.
  • Во-вторых, RT Core в Ada, в 2 раза быстрее проходит альфа-канал; RT Core оснащен новым Opacity Micromap Engine для непосредственного альфа-теста геометрии и значительного сокращения вычислений альфа на основе шейдеров. С помощью этой новой функции разработчики могут очень компактно описывать объекты неправильной формы или полупрозрачные объекты, такие как папоротники или заборы, а также напрямую и более эффективно выполнять их трассировку лучей с помощью RT Cores в Ada.
  • В-третьих, новые RT Cores в Ada поддерживают 10-кратное ускорение сборки BVH в 20-кратно меньшем пространстве BVH при использовании нового механизма Displaced Micro-Mesh Engine для создания микротреугольников из микросеток по требованию. Микросетка — это новый примитив, который представляет собой структурированную сетку микротреугольников, которую RT Core в Ada обрабатывает изначально, экономя память и обработку по сравнению с тем, что обычно требуется при описании сложной геометрии с использованием только базовых треугольников.

Используя вместе, эти три усовершенствования, включенные в RT Core архитектуры Ada, обеспечивают увеличение разнообразия на порядок без соразмерного увеличения времени обработки или потребления памяти.

По мере того, чипы NVIDIA продолжают приближаться к фотореалистичному рендерингу с трассировкой лучей в реальном времени, повышение точности, с которой они моделируют движение света в чрезвычайно детализированных, разнообразных средах, означает, что рабочая нагрузка по обработке комплексных моделей становится все менее и менее согласованной. Вторичные лучи, используемые для отражений, непрямого освещения и эффектов полупрозрачности, имеют тенденцию распространяться в разных направлениях и взаимодействовать с разными материалами, в результате чего шейдеры вторичного попадания менее упорядочены и менее эффективны.

Оставленная без внимания потеря регулярности выполнения может привести к неэффективному использованию процессорных блоков (SM’s) графического процессора.

Для решения этой проблемы в архитектуре Ada реализовано переупорядочивание выполнения шейдеров. Эта функция интеллектуально планирует работу по затенению на лету, чтобы сложные материалы, такие как матовый металл, могли обрабатываться более эффективно.

img_111_table_non_title.jpg

Новые графические процессоры впечатляют своими техническими характеристиками, как я писал выше, они предоставляет возможности двукратного увеличения производительности в сравнении с графическими процессорами предыдущих поколений. Но это мы можем подтвердить только проведением тестов, как синтетических, так и практических.

Я провел тестирование системы с четырьмя GPU, охлаждаемых с помощью СЖО. При этом, особое внимание я уделял записи показаний температуры во время тестирования.

Рассмотрим результаты проведенных мною тестов и демонстрации работы системы СЖО использованной в системе DigitalRazor RenderRack Pro.

Тесты в V-Ray 5 Bench

Система визуализации V-Ray активно используется в решении самых разнообразных художественных задач. Многие художники и дизайнеры прибегают к ее возможностям для реализации своих проектов и решения нестандартных задач, с большими массивами данных и в сложных рабочих процессах.

Для сравнения с предыдущими тестами, я воспользовался привычным для моих читателей тестом V-Ray 5 Benchmark, используют ядро V-Ray 5.0.20 специально созданное для замеров производительности вычислительных компонентов компьютерной системы. Внутри теста используется ядро V-Ray 5, а специально подготовленные модели оптимизированы для визуализации в данных тестах на различных аппаратных компонентах системы, а именно CPU или GPU.

Первым был протестирован центральный процессор AMD Ryzen Threadripper PRO 5975WX.

В тесте центрального процессора новый 32-ядерный процессор AMD набрал 40257 39633 vsamples, что превосходит протестированные мною ранее процессоры Intel и AMD более чем в 2 раза. Протестированный нами другой процессор пятого поколения Ryzen Threadripper PRO модели 5965WX с 24 ядрами, показал результат в 30716 vsamples. В тоже время, процессор Intel Core i9-10900KF, протестированный мною в одном из прошлых обзоров, показал производительность в 12572 vsamples, а процессор Intel Core i9-10940X, показал производительность в 15213 vsamples.

img_112.png

Графики сравнения результатов тестов нескольких CPU в V-Ray 5 benchmark (V-Ray CPU engine)

Как видно из наших тестов, процессоры AMD показывают очень хорошую производительность в тестах с ядром V-Ray CPU. В сравнении с проведенными мною ранее тестами систем, за прошедшие годы AMD серьезно нарастили производительность своих CPU в многопоточных задачах. Если предполагается интенсивное применение CPU для визуализации, высокопроизводительные многоядерные и многопоточные процессоры AMD Ryzen Threadripper PRO предоставляют пользователям высокую и бескомпромиссную производительность в алгоритмах визуализации V-Ray. Что наглядно демонстрирует приведенный выше график. При этом, 32-ядерный процессор AMD Ryzen Threadripper PRO 3975WX предыдущего поколения, демонстрирует хороший результат, набрав 33831 vsamples в тесте V-Ray CPU. Но благодаря оптимизации архитектуры, повышению частоты, а также более оптимальной системе охлаждения, новейшие процессы Threadripper PRO предоставляют большую производительность в процессах визуализации.

Отмечу, что при постоянной эксплуатации, и даже при оверклокинге CPU, наличие гибкой в управлении и функциональности СЖО предоставляет большой потенциал для гибкого и оптимального повышения производительности CPU, при этом, процессор может выполнять вычисления при комфортных для него температурах, варьируя в пределах диапазона 30 - 75 oC.

Процессоры Intel Core 13-го поколения были также протестированы в тесте V-Ray 5 Benchmark. Данные процессоры продемонстрировали достаточно высокую производительность, но даже при схожих технических характеристиках, CPU Intel значительно уступают в производительности более производительным решениям от AMD. Даже при “почти схожих” характеристиках, а это 24 ядра, и 32 потока, процессоры Intel за счет менее производительных энергоэффективных ядер, показывают меньшую производительность в тестах, ведь у процессоров AMD нет снижения частот ради энергоэффективных решений как у Intel.

img_113.JPG

Результат теста V-Ray 5 Benchmark GPU (CUDA)

При выборе ядра V-Ray GPU на основе API CUDA, в конфигурации с четырьмя GPU, мы получили результат в 14 673 vpaths. Поискав результаты V-Ray GPU CUDA в обширной базе данных Chaos, я обнаружил аналогичные конфигурации но с четырьмя GPU NVIDIA GeForce RTX 3090. Предыдущее поколение продемонстрировало закономерную производительность в 7721 vpaths. Архитектура NVIDIA Ada Lovelace в задачах с CUDA показывает двукратный прирост производительности. Согласно спецификациям это достигается не только за счет большего количества ядер CUDA 16384 у RTX 4090, против 10496 у RTX 3090. А также и повышенной частоте GPU, 2.23 GHz у RTX 4090, против 1.7 GHz у RTX 3090 и более совершенной памяти и пропускной способности шины.

img_114.JPG

Графики сравнения результатов тестов нескольких GPU в V-Ray 5 benchmark (V-Ray GPU engine (CUDA))

На графике выше вы можете видеть результаты моих тестов системы с одним и четырьмя GPU NVIDIA GeForce RTX 4090. Также, были проведены тесты в гибридном режиме, когда были использованы не только GPU, но также и CPU. И производительность 64-поточного CPU превосходно сказалась на результатах тестов. Обратите внимание на производительность одного и четырех GPU в тестах V-Ray GPU CUDA. Четыре графических ускорителя в V-Ray GPU предоставляют четырехкратный прирост производительности.

Если сравнивать две различные архитектуры GPU мы видим прирост производительности новой архитектуры в чуть более 1.5 раза. Конечно все зависит от сцены, оптимизации материалов и текстурных карт, и вариации показателей производительности будут разниться.

img_115.JPG

Результат теста V-Ray 5 Benchmark GPU (RTX)

Если же мы вычисляем с помощью V-Ray GPU RTX (на основе API NVIDIA OptiX), то здесь мы получаем аналогичный предыдущему тесту результат. Тест показал производительность в 21224 vrays, в конфигурации с четырьмя GPU. В конфигурациях с одним GPU, мы сравнили с результатом нашего предыдущего теста RTX 3090. В данном тесте, мы наблюдаем отчетливый двукратный прирост производительности GPU на базе новой архитектуры NVIDIA Ada Lovlace, что говорит о значительной оптимизации RT core и положительном результате от повышения их количества.

Графические ускорители RTX 4090 обладают 128 ядрами RT Core третьего поколения, а RTX 3090 обладают 82 ядрами RT Core второго поколения. Новое поколение RT Core показывает большую производительность как на аппаратном уровне, так и на программном, за счет новейших возможностей OptiX и CUDA.

img_116.JPG

Графики сравнения результатов тестов нескольких GPU в V-Ray 5 benchmark (V-Ray GPU engine (OptiX))

Если изучить базу результатов тестов V-Ray 5 Benchmark, можно найти показатели систем с четырьмя RTX 3090, который демонстрируют аналогичный результат, а именно, двукратное отставание от конфигураций с четырьмя GPU RTX 4090. В найденном мною тесте исследователи получили результат в 11 752 vrays, в конфигурации с 4x RTX 3090.

Тесты в OctaneBench

img_117.JPG

Графики сравнения результатов тестов нескольких GPU в тесте OTOY OctaneBench 2020.1. Использованы режимы RTX on и RTX off

Ядро OctaneRenderer является одним из уникальных решений для визуализации на GPU. Оно разрабатывалось изначально для вычислений на GPU и идеально оптимизировано для архитектуры NVIDIA.

На рисунке выше приведены графики сравнения результатов тестов в OTOY OctaneBench 2020.1 как в конфигурации с одним GPU, так и с четырьмя GPU. Также, были использованы режимы RTX on и RTX off.

Как видно из графиков, производительность на системах с одним GPU демонстрирует двукратный прирост в вычислениях силами GPU на базе архитектуры NVIDIA Ada Lovelace. А увеличение количества видеокарт до четырех, показывает четырехкратный прирост производительности в ядре OctaneRenderer.

Если анализировать результаты тестов, доступные в базе результатов OctaneBench, то аналогичная закономерность прослеживается невооруженным взглядом. Производительность будет увеличиваться соответствуя количеству использованных в тесте GPU или нескольких систем с несколькими GPU.

Тесты в Cinebench R23

В тестах Cinebench R23 я проверил не только производительность нового CPU AMD, но также провел небольшое исследование работы системы жидкостного охлаждения в DgitalRazor RenderRack Pro.

Это важное исследование, так как было интересно рассмотреть работу всей системы в целом, насколько СЖО хорошо справляется с охлаждением процессора, который потребялет в пиковой нагрузке 280 Ватт и может потребовать достаточно стойкой и надежной СЖО.

img_118.JPG

Результат визуализации сцены в тесте Cinebench R23 в режиме multi-core

Процессор AMD Ryzen Threadripper PRO 5975WX использует 32 ядра, а в режиме двустороннего Simultaneous Multi-threading предоставляет 64 потока (64 логических ядра). Частота процессора составляет 3,5 GHz, общий кэш L3 составляет впечатляющие 128 Mb, а общий кэш L2 составляет 16,384 Mb, и общий кэш L1 составляет 1 Mb. Большой объем кэша позволяет быстрее оперировать данными между процессором и ОЗУ, что благоприятно сказывается на производительности.

img_119.JPG

Характеристики процессора AMD Ryzen Threadripper PRO 5975WX в утилите CPU-Z

Процессор был протестирован в Cinebench R23 в режимах Multi core и Single core. Также, были записаны видео, демонстрирующие температуру процессора во время 10-минутного стресс-теста, что наглядно демонстрирует возможности СЖО системы DigitalRazor RenderRack Pro.

img_120.JPG

График сравнения результатов тестов нескольких CPU в тесте MAXON Cinebench R23 в режиме Single core

В тесте Single core процессор AMD Ryzen Threadripper PRO 5975WX показывает схожий с процессором Intel Core i9-10900KF результат, незначительно опережая его. Это легко объяснить, так как оба процессора работают на частоте 3,6 - 3,7 GHz в базе и 4,5 GHz и 5,3 GHz в режиме ускорения, что и дает схожий результат в вычислениях. Также влияет и особенности архитектуры CPU и возможности самого ядра визуализации.

Также, из-за того, что процессор Intel Core i9-10940X работает с базовой частотой 3,3 GHz, а в режиме ускорения с частотой 4,8 GHz, он уступил в результате single core теста. Наименьший результат продемонстрировал AMD Ryzen Treadripper 2990WX. Объяснение этому результату простое. Во первых это поколение процессоров AMD на основе архитектуры Zen+, а во вторых, его базовая частота составляет 3,0 GHz, и 4,2 GHz в режиме ускорения.

В результате мы наблюдаем закономерный результат, зависимый от частоты и архитектуры процессора. В однопоточных вычислениях новейший процессор AMD показывает превосходный результат, не уступая конкурирующим моделям от Intel.

img_121.JPG

График сравнения результатов тестов нескольких CPU в тесте MAXON Cinebench R23 в режиме Multi core

При многопоточных вычислениях, мы получаем совершенно иной результат в проведенных тестах. Здесь стоит отметить хорошую оптимизацию ядра визуализации Cinema 4D, используемого в Cinebench R23 для многопоточных процессоров. Процессор AMD Ryzen Threadripper PRO 5975WX продемонстировал наилучший результат в ходе теста. Благодаря наибольшему количеству ядер/потоков в multi core тесте процессор набрал 48560 баллов (pts).

Остальные процессоры, в зависимости от количества ядер и потоков, показали закономерно меньший результат. Например AMD Ryzen Treadripper 2990WX благодаря меньшей частоте, а также устаревшей архитектуре Zen+ демонстрирует вдвое меньшую производительность, в сравнении с современным процессором, на основе архитектуры Zen 3.

Демонстрация эффективности СЖО в тесте Cinebench R23

Система DigitalRazor RenderRack Pro была протестирована стресс-тестом входящим в поставку Cinebench R23. Я использовал 10-ти минутный тест как в режиме single core, так и в режиме multi-core.

Видео. Демонстрация работы СЖО и температур процессора AMD Ryzen Threadripper PRO 5975WX в 10-min single core тесте. Ролик продолжительностью ~18 мин., запись оригинального теста. Сенсоры Temperature 1 и Temperature 2 показывают температуру выводимого из системы и поступающего в систему воздуха. Пустые сенсоры - неактивные сенсоры, - особенность приложения Open Hardware Monitor.

На приведенном выше видео вы можете проследить за изменением температуры CPU в ходе single core теста. Обратите внимание на выделенную область температуры процессора, которая на протяжении всего теста не повышается выше 35 оС. Это важно, так как мы получаем оптимальную температуру для управления производительностью CPU благодаря его дополнительным конфигурациям и оверклокингу.

Видео. Демонстрация работы СЖО и температур процессора AMD Ryzen Threadripper PRO 5975WX в 10-min multi core тесте. Ролик продолжительностью ~10 мин., запись оригинального теста. Сенсоры Temperature 1 и Temperature 2 показывают температуру выводимого из системы и поступающего в систему воздуха. Пустые сенсоры - неактивные сенсоры, - особенность приложения Open Hardware Monitor.

На этом видео можно проследить за изменением температуры CPU в ходе multi core теста. Обратите внимание на выделенную область температуры процессора, которая на протяжении всего теста не повышается выше 47 оС. Отмечу, что в процессе выполнения single core теста не были задействованы все ядра процессора, в тоже время, в ходе multi core теста процессор был задействован полностью, что и способствовало повышению температуры.

Благодаря эффективной СЖО эта температура была постоянно на протяжении всего теста, и не превышала допустимых значений, а СЖО предоставила огромный запас температур и снизила нагрузку на процессор.

Тесты в Blender Cycles

Пакет Blender давно является популярным решением для CG-художников, желающих использовать ПО с открытым исходным кодом и создавать контент с минимизацией зависимости от лицензионных отчислений. Даже я активно разрабатываю процесс на основе Blender и его возможностей для решения большинства задач, с которыми приходится сталкиваться в повседневной работе над CG проектами.

В своих тестах я использую несколько сцен с оригинальных проектов студии Blender Studio и примеров возможностей Blender.

В данном тестировании я протестировал скорость визуализации 3D сцен с помощью ядра визуализации Cycles CPU и Cycles GPU. В Cycles GPU были использованы конфигурации как с одним GPU, так и с четырьмя GPU.

Помимо этого, был проведен тест с мониторингом температур GPU в ходе визуализации сцены, аналогичный тесту с Cinema 4D. Также были проведены тесты с увеличенным разрешением итогового изображения, так как система DigitalRazor RenderRack Pro оказалась настолько производительной, что стандартные тесты были выполнены за считанные секунды.

img_122.JPG

График сравнения результатов визуализации сцен в Blender 3.3 LTS в Cycles CPU

В тестах с Cycles CPU процессор AMD Ryzen Threadripper PRO 5975WX показывает превосходный результат в визуализации комплексных моделей, практически четырехкратная производительность в сравнении с опорной тестовой системой на базе Core i9-10900KF. Благодаря большому количеству потоков и новой архитектуре CPU AMD, в практической визуализации мы получили ожидаемый результат.

При этом, во время тестов процессор AMD благодаря высокоэффективной СЖО показал превосходную температуру, не превышающую 45 градусов Цельсия при максимальной загруженности процессора вычисления.

Видео. Демонстрация работы СЖО и температур процессора AMD Ryzen Threadripper PRO 5975WX в тесте визуализации сцены в Blender.Запись оригинального теста

В случае с GPU версией Cycles все вышло интереснее. Как вы превосходно знаете, в зависимости от модели, сложности сцены, используемых в сцене инструментов, модель может по разному визуализироваться на различных конфигурациях. Если в случае полноценных моделей, без использования специфических методов моделирования и затенения, мы можем получить высокую производительность при масштабировании GPU, то при использовании процедурных моделей, специфических приемов затенения или собственных разработок, масштабирование производительности может быть минимально.

Это наглядно продемонстрировано на графике ниже.

img_123.JPG

График сравнения результатов визуализации сцен в Blender 3.3 LTS в Cycles GPU CUDA

В результатах тестов мы видим хороший пример зависимости производительности ядра Cycles GPU от моделей в сцене и оптимизации процедурных моделей под визуализацию на GPU.

Сцена Classroom является классическим примером модели с интерьером, без применения сложной геометрии и высокой детализации. В ней простая геометрия, материалы, текстуры, освещение и камеры. Без применения сложной процедурной геометрии на основе Geometry Nodes и различных эффектов, типа меха и объемов.

В тесте данная сцена визуализировалась наименьшее время на четырех GPU NVIDIA GeForce RTX 4090, время визуализации заняло всего 5 секунд. В тоже время, данная сцена на одном GPU NVIDIA GeForce RTX 4090 потребовала 11 секунд на визуализацию. GPU предыдущего поколения выполнил все вычисления за 28 секунд.

Сцены, использующие процедурные эффекты, такие как мех, Geometry Nodes и дргие, визуализировались на GPU нового поколения быстрее, в сравнении с GPU предыдущего поколения, но при этом, практически не было прироста производительности в визуализации на четырех GPU.

Данную особенность можно отнести к оптимизации программного обеспечения и внутренним механизмам работы ядра визуализации с данными, на основе процедурной геометрии.

img_124.JPG

График сравнения результатов визуализации сцен в Blender 3.3 LTS в Cycles GPU OptiX

При выборе ядра Cycles GPU на основе API NVIDIA OptiX мы наблюдаем серьезные отличия в производительности в multi-gpu конфигурации в сценах с процедурной геометрией (Spring, Cosmos) и мехом (Cosmos). Но в то же время, заметен отчетливый прирост производительности в сцене без применения процедурной геометрии и меха (Classroom).

Видео. Демонстрация работы СЖО и температур GPU NVIDIA GeForce RTX 4090 в тесте визуализации сцены в Blender. Запись оригинального теста. Конфигурация с 1x GPU.

Видео. Демонстрация работы СЖО и температур GPU NVIDIA GeForce RTX 4090 в тесте визуализации сцены в Blender. Запись оригинального теста. Конфигурация с 4x GPU.

Это та самая проблема о которой я говорил выше, и она исключительно зависит от программного обеспечения и реализации в нем механизмов трансляции сцены и оптимизации ее под определенные возможности ядра визуализации в версии с OptiX.

Но глобально, новейшая архитектура NVIDIA Ada Lovelace также демонстрирует превосходящую и закономерную производительность над архитектурой NVIDIA Ampere.

Как мы видим, хоть синтетические тесты и демонстрируют превосходную производительность, но на практике мы должны ожидать и снижения производительности при визуализации сцен с определенными типами объектов и геометрии. Также все зависит от возможностей программного обеспечения и его оптимизации для вычислений на GPU.

В финале обзора, мы рассмотрим производительность системы DigitalRazor RenderRack Pro в рабочих нагрузках общего назначения, которые охватывают не только прямолинейные задачи, а более широкий спектр.

Тестирование системы в задачах общего назначения

Помимо прямых тестов в таких рабочих нагрузках, как рендеринг изображений. Я постарался протестировать систему в группах тестов, моделирующих несколько различных типов рабочих нагрузок, присущих решаемым с помощью компьютеров и серверов задачам.

В данном разделе я представлю результаты тестов в наборах тестов Geekbench 5 и SPEC Workstation (SPECwpc).

Тестирование в Geekbench 5

img_125.JPG

Тест Geekbench 5 запущенный на системе DigitalRazor RenderRack Pro

С помощью Geekbench были протестированы как CPU, так и GPU.

В качестве ОС была использована Microsoft Windows 11 Pro x64. В качестве API для GPU Compute был выбран NVIDIA CUDA.

В качестве референс системы выбрана моя рабочая станция на базе Intel Core i9-10900KF и с графическим ускорителем NVIDIA GeForce RTX 3090 Founders Edition.

img_126.JPG

Тест Geekbench 5 запущенный на системе DigitalRazor RenderRack Pro

В тесте Geekbench 5 CPU Single-Core мы наблюдаем практически паритет между процессорами в рабочих нагрузках в операциях с плавающей точкой и целочисленными операциями. В операциях с плавающей точкой в однопоточном алгоритме процессор AMD оказывается чуть производительнее процессора Intel. А вот в тесте с целыми числами, процессор Intel незначительно опередил конкурента. Но по сути, это практически идентичные результаты.

В тесте с криптографией, наоборот, протестированный мною процессор AMD Ryzen Threadripper PRO 5975WX показал производительность выше в 2.2 раза выше, чем у референсного в сегодняшних тестах процессора от Intel.

Как заявляют разработчики, по сравнению с архитектурой ядер Zen 2 архитектура ядер Zen 3 обеспечивает прирост в количестве исполняемых за такт инструкций на 19 % и производительности на ватт до 24 %. Такой рост производительности объясняется в значительной степени тем, что унифицированные CCX-модули теперь состоят из восьми ядер и 32 МБ кэша L3, непосредственно доступные всем ядрам чиплета, то есть фактически удваивается объём кеш-памяти L3, приходящийся на ядро. Это снижает задержки при обмене данными между ядром и кеш-памятью. Кроме этого, были устранены другие узкие места архитектуры Zen 2, в частности, увеличена частота работы внутрипроцессорной шины Infinity Fabric, применена новая технология предсказателя переходов, вдвое возросла пропускная способность конвейеров операций с плавающей запятой и целочисленных вычислений.

Эти преимущества и возможности процессоров по оптимизации для выполнения криптографических операций, благоприятно сказываются на производительности в криптографических рабочих нагрузках.

img_127.JPG

Тест Geekbench 5 запущенный на системе DigitalRazor RenderRack Pro

В многопоточных тестах (Multi-Core) мы наблюдаем безоговорочное превосходство процессора от AMD. Благодаря серьезной оптимизации архитектуры, мы видим, что в задачах с плавающей точкой новый процессор показывает себя превосходно, набирая оптимальное количество баллов. В целочисленных операциях, также, AMD Ryzen Threadripper PRO 5975WX превосходно себя продемонстрировал. А референсный процессор Intel Core i901900KF оказался в 2.9 раза менее производительным в тестах с плавающей точкой, и 2.7 раза менее производительным в тестах с целочисленными операциями. В криптографических тестах, референсный процессор набрал всего 6134 балла, что в 4.5 раза меньше, чем у протестированного AMD Ryzen Threadripper PRO 5975WX.

В тестах GPU, тест Geekbench 5 использует только один ускоритель. Поэтому мы будем сравнивать производительность NVIDIA GeForce RTX 4090 с NVIDIA GeForce RTX 3090 в конфигурации 1x GPU.

img_128.JPG

Тест Geekbench 5 запущенный на системе DigitalRazor RenderRack Pro

В тестах Geekbench 5 GPU мы получаем производительность согласно заявлениям разработчиков, а именно, в 1.14 - 2.5 раза выше, чем графический ускоритель предыдущего поколения.

Наименьший прирост новая архитектура NVIDIA Ada Lovelace дает в задачах с быстрым преобразованием Фурье (тест AFFT), а наибольший прирост производительности архитектуры, мы наблюдаем в тестах по согласованию стерео-изображений, моделировании эффекта глубины резкости, и моделировании частиц.

Как мы видим, в наборах синтетических тестов, новые архитектуры GPU NVIDIA Ada Lovelace и AMD Zen 3, дают ощутимый прирост. Что делает современные процессоры AMD и GPU NVIDIA одними из передовых решений в отрасли.

В комбинации с высокоэффективными СЖО, такой высокий уровень производительности может быть достигнут на всем жизненном цикле эксплуатации, и даже предоставлять определенный запас.

Тестирование в SPEC Workstation

Набор тестов SPECwpc позволяет взглянуть на производительность компьютерной системы в целом. Благодаря тестам каждого компонент системы как по отдельности, так и в группе, можно проанализировать производительность и провести оптимизацию системы, при низкой или чрезмерной производительности.

Все результаты тестов опираются на базовую конфигурацию использованную разработчиками набора тестов, в виде рабочей станции HP Z240 Tower:

  • CPU: Intel E3-1240 v5 @3.5GHz
  • GPU: AMD Radeon Pro WX3100
  • ОЗУ: 16GB, DDR3 2133MHz
  • SSD: SanDisk 512GB SSD
  • OS: MS Windows 10 build 17134

img_129.JPG

Группа тестов SPECwpc Media and Entertainment

Первая группа тестов относится к индустрии Media and Entertainment. Это классический набор тестов SPEC, ориентированный на 3D-визуализацию, кодирование/декодирование видео, производительность GPU, чтение/запись данных в определенных приложениях.

В результатах тестов, система DIgitalRazor RenderRack Pro показала очень хорошие результаты в сравнении с протестированными мною системами. В группе тестов Storage мы видим, как в зависимости от моделируемой нагрузки в определенном приложении, продемонстрировала себя дисковая подсистема. В таких приложениях Maya, handbrake, группе MnE, дисковая подсистема показала большую производительность чем протестированные нами ранее системы. Но такие тесты, моделирующие приложения 3ds Max, расчет модели на основе конечных элементов (ccx), продемонстрировали меньшую производительность чем системы на базе более производительных моделей CPU AMD (3990X) или протестированных мною ранее системах с CPU Intel (10900KF и 10940X).
Отмечу, что в системах с CPU Intel, протестированных ранее, использованы SSD накопители M.2 на базе PCI-Express 3.0, а в системах с AMD Ryzen использованы накопители M.2 с поддержкой PCI-Express 4.0, что и оказало положительный эффект на производительности.

В тестах с визуализацией, мы получили закономерный результат, чем выше производительность CPU и количество потоков, тем выше результат в тестах. Здесь мы видим, как 64-ядерный процессор AMD Ryzen Threadripper 3990X демонстиррует свое превосходство в тестах с ядрами Luxrender, Blender Cycles и handbrake. А использованный в нашей системе 32-ядерный CPU AMD Ryzen Threadripper PRO 5975WX показывал закономерный результат в 2 раза меньший по производительности.

Практически во всех тестах, связанных с интенсивными вычислениями, процессоры Intel были в проигрыше. Но это легко объяснить, они содержат меньшее количество ядер и потоков, а также представлены предыдущими архитектурами процессоров, уступающими соверменным процессорам AMD по многим параметрам.

img_130.JPG

Группа тестов SPECwpc Product Development

В группе тестов SPECwpc Product Development моделируются рабочие нагрузки связанные с моделированием в САПР и вычислениями в таких областях как Computational Fluid Dynamics, вычислениями моделей на основе конечных элементов.

В операциях с накопителями данных, используемые в тестовых стендах SSD-накопители показали наивысшую производительность в системе на базе AMD Ryzen Threadripper 3990X, однако в тесте Computational Fluid Dynamics, наша система показала практически близкий к системе на базе Ryzen Threadripper 3990X результат.

В вычислительных тестах, система DigitalRazor RenderRack Pro показала отличный результат. В тесте RodiniaCFD опередив систему на базе AMD Ryzen Threadripper 3990X, и максимально приблизившись к нему в тесте WPCcfd. В тесте на расчет моделей на основе конечных элементов, система на базе AMD Ryzen Threadripper 3990X была в лидерах. Но протестированная нами система на базе AMD Ryzen Threadripper PRO 5975WX, показала производительность выше чем решения от Intel, но значительно уступила 3990X. Это можно объяснить определенными оптимизациями ПО, используемого в тестах и некоторую задержку в оптимизации под новые архитектуры и их возможности.

img_131.JPG

Группа тестов SPECwpc Life Sciences

В тестах группы SPECwpc Life Sciences протестированная нами система на базе AMD Ryzen Threadripper PRO 5975WX продемонстировала практически схожий с с более производительной системой на базе AMD Ryzen Threadripper 3990X. Это особенно хорошо видно в тестах SSD-накопителей и в тесте lammps, моделирующем молекулярную динамику. В тесте namd на масштабируемое моделирование молекулярной динамики, в лидеры вырвался более производительный процессор AMD Ryzen Threadripper 3990X. Но протестированная мною система показала достойный ее производительности уровень. Даже в наборе тестов Rodinia Life Sciences, протестированная нами система показала очень достойный результат, превзойдя решения на базе процессоров Intel практически в 3 раза.

Изучая вопрос научных вычислений, многое зависит от алгоритмов и их возможностей к распараллеливанию, а также применение определенных инструкций и команд, позволяющих повышать производительность. Поэтому, рекомендуется хорошо понимать работу применяемого ПО и его алгоритмов для вычислений, так как определенные алгоритмы могут быть хорошо исполнены на процессорах с одной архитектурой, но при этом, показывать низкую производительность на процессорах с другой архитектурой.

img_132.JPG

Группа тестов SPECwpc Financial Services

В группе тестов SPECwpc Financial Services моделируется алгоритм Монте-Карло, используется модель ценообразования Блэка-Шоулза и Биноминальная модель ценообразования опционов.

В данном тесте, протестированный мною AMD Ryzen Threadripper PRO 5975WX показывает наилучший результат, опередив даже более производительный 3990X. Также, оба процессора практически в 3,5 - 4 раза производительнее, в сравнении с протестированными мною ранее процессорами Intel Core i9 10-го поколения.

img_133.JPG

Группа тестов SPECwpc Energy

В группе тестов SPECwpc Energy с помощью дискретных трансформаций Фурье, свертки со случайным фильтром (Convolution), обработки сейсмических данных и тесту на основе формы волнового уравнения Кирхгофа.

По результатам тестов, более производительным была система на базе Ryzen Threadripper 3990X, благодаря большому количеству ядер/потоков, практически все вычислительные тесты были пройдены с большой итоговой оценкой. Но тестируемая мною система на базе Ryzen Threadripper PRO 5875WX, показала хороший результат в таких тестах как Convolution, и Energy-02. Тест Energy-02 больше привязан к GPU и показывает производительность NVIDIA GeForce RTX 4090.

В тесте дисковой подсистемы, система RenderRack Pro показала средний результат, уступив моей основной рабочей станции на базе Intel Core i9-10900KF и системе на базе AMD Ryzen Threadripper 3990X. Но при этом, она превзошла по производительности систему на базе Intel Cire i9-10940X, протестированную мною в 2020 году.

img_134.JPG

Группа тестов SPECwpc General Operations

Группа тестов SPECwpc General Operation демонстрирует возможности систем в приложениях и ежедневно-встречающихся рабочих нагрузках. Практически во всех тестах, протестированная мною система показала достойный результат, даже превышая по показателям более производительную систему. Особенно это заметно в таких тестах, как 7zip, python36, mozillaVS и mcad. В остальных система на базе AMD Ryzen Threadripper PRO 5975WX незначительно уступала системе с AMD Ryzen Threadripper 3990X. Наибольшую производительность дисковой подсистемы в системе на базе AMD Ryzen Treadripper 3990X продемонстрировал тест 7zip, а система с AMD Ryzen Threadripper PRO 5975WX показала результат в два раза ниже. Но также, выше чем все системы на базе процессоров Intel Core.

img_135.JPG

Группа тестов SPECwpc GPU Compute (OpenCL)

В вычислениях общего назначения на GPU с применением OpenCL мы получили превосходный результат в тестах системы RenderRack Pro. Благодаря новейшим GPU NVIDIA GeForce RTX 4090, данная система показала превосходную производительность, опередив своих предшественников.

Особенный результат был продемонстрирован в тесте LuxRender. Здесь скорей всего имеет место как сама архитектура NVIDIA Ada Lovelace, так и оптимизация ядра LuxRender, используемого в тесте. Но данный тест также демонстрирует закономерное повышение производительности новой архитектуры. Что можно наблюдать в тестах caffe (глубокое обучение) и FAH (Folding@Home).

img_136.JPG

Группа тестов SPECwpc Graphics Performance

Последняя группа тестов - SPECwpc Graphics Performance, являющаяся копией тестов SPEC Viewperf. Благодаря данным тестам мы можем проанализировать производительность GPU в различных смоделированных рабочих нагрузках с применением различных графических API (OpenGL или DirectX).

В данных тестах, мы наблюдаем классический результат. Все САПР-приложения показывают низкую производительность на GPU ориентированных на игровой сегмент, и в тоже время, высокую производительность на GPU, ориентированном на профессиональный сегмент.

С нашими популярными приложениями, дела обстоят иначе, например тест на основе ядра 3ds Max, показывает наибольшую производительность GeForce RTX 4090, а вот Maya, наоборот, в профильном тесте новый GPU уступил своим предшественникам. Но в специфических рабочих нагрузках, например в тестах Showcase и Energy, GPU NVIDIA GeForce RTX 4090 показал превосходный результат, многократно опередив своих предшественников.

Варианты конфигураций

Новейшие системы от DigitalRazor и FORSITE доступны в нескольких конфигурациях, а также предоставляют определенные опции при выборе системы.

Системы DigitalRazor RenderRack Pro доступны для заказа с процессорами:

  • Intel Xeon
  • Intel Core i9
  • AMD Ryzen 9
  • AMD Ryzen Threadripper PRO
  • AMD EPYC

В качестве графических ускорителей доступны:

  • NVIDIA GeForce RTX3080
  • NVIDIA GeForce RTX3090
  • NVIDIA GeForce RTX4090
  • NVIDIA RTX A6000 (NVIDIA Ampere)
  • NVIDIA RTX A6000 Ada (NVIDIA Ada Lovelace)

Для корпоративного сектора и специалистов по разработке приложений, обработке данных, МО, ИИ и высокоинтенсивных вычислений, разработаны конфигурации систем FORSITE DevBOX.

Все системы DevBOX могут быть оснащены следующими процессорами:

  • 2x Intel Xeon
  • AMD Ryzen Threadripper PRO
  • 2x AMD EPYC

Но в отличие от RENDER RACK, в DevBOX можно установить до двух CPU Intel Xeon и AMD EPYC. В качестве GPU доступны следующие ускорители:

  • NVIDIA RTX A6000 (NVIDIA Ampere)
  • NVIDIA RTX A6000 Ada (NVIDIA Ada Lovelace)
  • NVIDIA A100
  • NVIDIA A40

Вы можете создать конфигурации с 2, 4 и 6 GPU. Также, если необходима конфигурация в качестве рабочей станции, доступны возможности установки профессиональных GPU NVIDIA T1000, NVIDIA RTX 2000 или NVIDIA RTX 4000. К данному GPU могут быть подключены дисплеи, если планируется использовать систему в качестве рабочей станции.

Все системы могут быть оснащены ОЗУ объемом до 2Tb и RAID-массивами жестких дисков и SSD-накопителей формата M.2. Для подключения к сети, предусмотрены два порта 10 Gbit/s Ethernet, что позволяет осуществлять передачу данных между рабочей станцией/сервером и высокопроизводительной системой хранения данных.

Заключение

Я давно тестирую компьютерные системы, как для обзоров, так и во время исследований/тестов программного обеспечения, и давно являюсь приверженцем хороших и качественных комплектующих, а также систем с высоким запасом прочности, с возможностью управления как локально, так и удаленно, с гибкими возможностями для подключения периферии и расширений.

Система DigitalRazor RenderRack Pro является превосходным решением, удовлетворяющим потребности особенных клиентов, кому необходима масштабируемость, управление и стабильность в продолжительный период времени эксплуатации в режиме 24/7.

Новейшие процессоры AMD Ryzen Threadripper PRO с 32+ ядрами/64+ потоками, на основе архитектуры AMD Zen 3 являются превосходными решениями для обработки больших массивов данных, поддерживая объем памяти до 2 Tb, они позволяют выполнять вычисления в виртуальных средах, с различными рабочими нагрузками.

Современные графические ускорители NVIDIA GeForce RTX и NVIDIA RTX Ada (ранее Quadro RTX), и ускорители NVIDIA A, позволяют вести разработку медиа-контента как локально, ускоряя рабочий процесс в ряде требовательных и поддерживающих GPU рабочих нагрузках, а также в виртуальных системах с полноценным GPU-ускорением в приложениях.

Также, мы оценили производительность архитектуры NVIDIA Ada Lovelace и на практике заметили заявленные в анонсах повышение производительности. Хоть и с определенными замечаниями, обусловленными в первую очередь ПО, а не оборудованием.

Тесты СЖО показали высочайшую производительность системы охлаждения, при этом, температурные режимы CPU и GPU не превышали средних показателей, и всегда находились в диапазоне, определенным в процессе разработки СЖО.

Система СЖО превосходно справилась с рабочими нагрузками, повышающими TDP CPU и не позволила произойти перегреву ключевых компонентов системы.

331 0 850 4
5
2023-05-26
Лютейший аппарат. Хотеть. Цена вопроса? Примерный конфиг просчитывал на воздухе 1.6млн собрать самому. 3.7млн в хайпер пс. Интересно сколько digitalrazor хотят за такой блок.
2023-05-26
[club8938191|Render.ru — компьютерная графика CG и анимация], да я уже. позвонили мне от них. жду прайса на рендер ноды 4 и 6 гпу.
2023-05-26
[club8938191|Render.ru — компьютерная графика CG и анимация], 3 мульта. самому такое собрать без водянки я считал - 1.7млн. и гарантия будет по 3 года на цпу и гпу. и 5 лет на мамку. и на оперативку 10 лет. собрать самому на воздухе в риге-стенде. проц - 312 видюхи 4*160 - 640 мать - 117 память - 76 два бп по 2100вт - 38,5*2 = 77,2 итого 1 222 к на воздухе. за что ещё 1800? за водянку и урезанную на всё до года гарантию? ну такое. я конечно понимаю что за водянку... сборку.. ну процентов 10 или 20 можно доплатить если ты нуб и сам такое собирать не умеешь. но карл... + в 2.5 раза переплачивать? в англии чел собирает подобный системы из 8 4090. - 3.5млн р цена в сборе. за такие бабки проще собрать два ящика как мой (7950х + 2 4090) и рендрить ими по сети.
2023-05-29
Ммм, собрать риг на воздухе, без гарантии и саппорта, после этого сравнить цены, Классика.
2023-05-29
Кирилл Шекуров[club8938191|Render.ru — компьютерная графика CG и анимация], 3 мульта. самому такое собрать без водянки я считал - 1.7млн. и гарантия будет по 3 года на цпу и гпу. и 5 лет на мамку. и на оперативку 10 лет. собрать самому на воздухе в риге-стенде. проц - 312 видюхи 4*160 - 640 мать - 117 память - 76 два бп по 2100вт - 38,5*2 = 77,2 итого 1 222 к на воздухе. за что ещё 1800? за водянку и урезанную на всё до года гарантию? ну такое. я конечно понимаю что за водянку... сборку.. ну процентов 10 или 20 можно доплатить если ты нуб и сам такое собирать не умеешь. но карл... + в 2.5 раза переплачивать? в англии чел собирает подобный системы из 8 4090. - 3.5млн р цена в сборе. за такие бабки проще собрать два ящика как мой (7950х + 2 4090) и рендрить ими по сети.

Ха-хаха, нет чел, это так не работает, если сравниваешь, сравнивай тоже что там, ну и самое главное, мне как условному руководителю условной студии, при не самой большой переплате гораздо спокойнее отдать несколько больше, но не влезать в подборку, изучение, собирать, еще и без внятных гарантий на сетап в целом. Но тут конечно вопрос цены, если переплачивать раз в 2, то это перебор.

А так лично я склоняюсь к системным решениям, чем заниматься этим геморроем, ощущение, что это решение не для частников, а для команд/студий или очень хорошо зарабатывающих специалистов, способных отбить сборку за несколько проектов и потом спокойно работать несколько лет.
RENDER.RU