Выбор видеокарты для локального запуска LLM: игровая или профессиональная

Продолжаем цикл статей, посвящённых профессиональным рабочим станциям для работы с большими языковыми моделями (LLM). В этом материале предлагаем ознакомиться с результатами тестирования специализированных видеокарт NVIDIA RTX (ранее известных как Quadro) и обычных GeForce RTX потребительского класса в ИИ-вычислениях. В частности, во встроенном бенчмарке инструментария llama.cpp.

Перед началом рекомендуем ознакомиться с предыдущей статьей, которая посвящена выбору оборудования для локального запуска LLM. Она даст общее понимание базовых вещей. Этот материал более узконаправленный. Он касается только одного, но важнейшего компонента системы — GPU.
В тестировании участвуют только видеокарты производства NVIDIA. Хотя AMD предлагает конкурентную продукцию, многие ИИ-библиотеки «дружат» исключительно с платформой CUDA.

Профессиональная видеокарта или «обычная»?

Чем профессиональная видеокарта отличается от обычной? Когда-то давно только у профессиональных карт был доступ к специализированным драйверам, которые обеспечивали дополнительную функциональность. С течением времени в программном плане размылась разница между профессиональным и обычным драйвером для игровых карт. Сегодня специальный драйвер не обеспечивает преимуществ, если не рассматривать узкие ниши, к которым ИИ-вычисления не относятся.

В Сети бытует несколько устаревшая информация, что у профессиональных карт гораздо лучше вычислительная мощность при работе с полной точностью (FP32) и двойной точностью (FP64). Это объясняется другим устройством аппаратных блоков FP64 в составе графического процессора. Так было раньше, но не сейчас. Сейчас NVIDIA использует унифицированную архитектуру и идентичные графические процессоры. К примеру, игровая GeForce RTX 4090 основана на GPU AD102, а профессиональная RTX 6000 Ada — тоже на AD102. Если посмотреть на сырую вычислительную мощность (здесь RTX 6000 Ada, здесь RTX 4090), то RTX 4090 выигрывает и с половинной точностью, и с полной, и с двойной.

Для закрепления: в противостоянии один на один игровая видеокарта в плане скорости работы всегда будет лучше. Главная причина — система охлаждения. Это ключевое преимущество, но также ключевой недостаток профессиональных решений. В составе RTX 6000 Ada у графического чипа активны 18 176 CUDA-ядер, а в составе RTX 4090 – 16 384 CUDA. Казалось бы, Ada должна быть быстрее, но благодаря развитой системе охлаждения RTX 4090 может себе позволить частоты до 2,5 гигагерц, а у Ada реальная частота в районе 1,7 ГГц. Поэтому обычная RTX 4090 быстрее.

В чём же чем же преимущества профессиональных карт?

Может сложиться впечатление, что профессиональные видеокарты в принципе не нужны. Но суть профессиональных ускорителей в том, что один в поле не воин. Их преимущества раскрываются только в составе продвинутой рабочей станции с двумя-тремя картами или в GPU-сервере.

Кулер как благо и проклятие

Большая система охлаждения не позволяет в один компьютер вместить более двух GeForce RTX 4090, как и карт классом попроще. Во-первых, они просто физически с трудом помещаются в корпусе. Во-вторых, кулер обычных видеокарт рассеивает тепло от самой видеокарты, но всё оно остаётся внутри корпуса. Это критичный момент, когда речь идёт про 700 ватт тепла. А 700 ватт — это всего лишь две видеокарты.

ASUS RTX 4090 TUF Gaming — типичная RTX 4090

RTX 6000 Ada. Сравнить габариты можно по кронштейну крепления

Охлаждение профессиональных карт устроено иначе. Их можно располагать вплотную друг к другу, что позволяет в один компьютер установить 4 карты, а в некоторых случаях даже 8. Также кулер сразу выгоняет тепло за пределы корпуса. Но, да, эта схема менее эффективна, и для нормальных температур приходится жертвовать частотами.

RTX 4090 и RTX 6000 Ada. Прямое сравнение

Элементная база и общее качество

У NVIDIA много AIB-партнёров, выпускающих игровые видеокарты GeForce RTX под собственным брендом. В их числе ASUS, MSI, Gigabyte, Palit, PNY, Zotac, Inno3D, Gainward, Galax, KFA2 и множество менее известных. Профессиональные варианты выпускают только две компании — сама NVIDIA и PNY. Это связано с тем, что они считаются оборудованием серверного класса, где заявлены высокие требования к надёжности и выносливости, а также поддерживается строжайший контроль качества. К серверному оборудованию всегда гораздо больше требования, чем к продукции потребительского класса.

Такие видеокарты делают только PNY и NVIDIA

Элементная база и общий запас прочности на голову выше, чем в игровых GeForce RTX. Потому что если у геймера сломается видеокарта, то в худшем случае придётся её починить или выдать новую. Если в серверном кластере сломается профессиональная видеокарта — это куда более опасная ситуация. Речь уже не про игрушки, а про ответственное дело, от которого зависит успешность важного проекта или прибыльность бизнеса.

Видеопамять

В техническом плане у профессиональной графики есть ещё одно важное преимущество — количество видеопамяти. Зачастую её вдвое больше, чем у игровых аналогов. RTX 4090 может похвастаться 24 ГБ памяти, что очень немало, но у RTX 6000 Ada её целых 48 гигабайт. Некоторые рабочие приложения очень чувствительны к количеству видеопамяти

У RTX 6000 Ada так много памяти, что она физически не помещается с лицевой стороны платы

Второй важный момент про память — в профессиональных вариантах используются чипы с кодом коррекции ошибок. Технология позволяет на лету корректировать появляющиеся ошибки при переносе или обработке данных. Они могут возникнуть как от программных сбоев, так и от электромагнитных помех и по ряду других причин. Фатальные ошибки памяти — событие редкое, но серверное оборудование предусматривает защиту от наибольшего числа ситуаций.

Виртуализация

Только профессиональные видеокарты можно «подробить» на несколько виртуальных машин для распределения ресурсов и обеспечения сразу нескольких рабочих мест. Для игровой графики такая возможность отсутствует, по крайней мере официально и без «танцев с бубном»

Нюансы с размещением

Не все центры обработки данных готовы размещать GPU-серверы с игровыми видеокартами, или же ежемесячная аренда будет дороже. Если ещё и с водяным охлаждением, вопрос размещения становится особенно остро.

Почему так дорого?

Рекомендованная цена RTX 4090 — 1600 долларов. Технически схожая RTX 6000 Ada стоит $6800. Откуда настолько значительная разница? Стоимость профессиональных решений обусловлена в целом более высоким качеством, небольшими партиями производства, о чём поговорим ниже, расширенной поддержкой и официальной возможностью создавать виртуальные машины с распределением ресурсов.

Профессиональные карты предыдущего поколения тоже совсем не бюджетные

Есть ещё одна весомая причина сугубо технологического характера. При производстве по передовым техпроцессам настолько крупных кристаллов, как AD102 с площадью 609 мм2, на 100% рабочий кристалл — это исключение, а не обыденность. Из-за несовершенства производственного процесса большая доля чипов на выходе получаются неидеальными. Может не работать часть блоков или контроллеров памяти. Они могут и работать, но для этого нужно большее напряжение, чем было задумано. А может работают, но не тянут нужные частоты. Причин масса.

В полной конфигурации AD102 имеет 18 432 CUDA-ядра. Полностью работоспособных AD102 настолько мало, что полновесная версия не применяется ни в одной видеокарте. В составе RTX 6000 Ada активны 18 176 ядер (98,6%), а в RTX 4090 — 16 384 (88,9%). Иными словами, чип для профессиональной карты намного дороже ввиду редкости. Старший сегмент рынка лишь в качестве условного примера. В других сегментах ситуация схожая, просто менее ярко выражена.

Хитрый вариант

Учитывая кратную разницу в стоимости профессиональных и игровых видеокарт, а также ключевое отличие в конструкции системы охлаждения, технически подкованные пользователи нередко выбирают экзотическое решение — установку жидкостной системы охлаждения.

Замена штатного кулера RTX 4090 на водоблок полного покрытия позволяет расположить карты вплотную друг к другу, то есть разместить в системе более двух видеокарт. Да, качественный жидкостный контур тоже выйдет «в копеечку», но всё-таки квартет RTX 4090 с хорошим контуром СЖО обойдётся сильно дешевле, чем четыре RTX 6000 Ada. В дополнение гораздо меньшие температуры работы, меньше шум, лучше производительность. Подобные решения предлагают не все компании, но здесь DigitalRazor есть, чем похвастаться.

Подготовка к тестированию

Для этих тестов использовали сборку Llama.cpp 3140 с CUDA версии 12.2.0 и модели Microsoft Phi-3-mini-4k-instruct в 4-битном GGUF. Тесты обработки запроса и генерации токенов проводились со значениями по умолчанию с 25 повторениями на каждый, а результаты усреднялись.

Конфигурация тестового стенда:

Процессор — AMD Ryzen Threadripper PRO 7985WX;
Процессорный кулер — кастомный контур СЖО на основе компонентов Asetek;
Материнская плата — ASUS Pro WS WRX90E-SAGE SE;
Оперативная память — DDR5-5600 ECC Reg, 8х16 ГБ (128 ГБ суммарно);
Видеокарта — разные игровые и профессиональные видеокарты NVIDIA;
Накопитель — Samsung 980 Pro 2 ТБ.

Используемый в тестовом стенде процессор Threadripper PRO 7985WX может похвастать большим количеством ядер (64 штуки) и огромным количеством линий PCI-Express для подключения видеокарт, но есть пара нюансов. Во-первых, относительно небольшая частота работы. Во-вторых, поддержка только оперативной памяти типа ECC, частоты работы которой сильно меньше, чем у обычной DDR5. В комплексе всё это вносит погрешность в результаты тестов. Владельцы рабочих станций на игровых процессорах могут рассчитывать на чуть лучшие результаты. В любом случае платформа одинаковая, так что сравнение видеокарт проходило в равных условиях.

Также в тестировании принял участие специальный гость — GeForce GTX 1080 Ti — игровой флагман 2017 года. Эту модель взяли ради того, чтобы показать, насколько специальные тензорные блоки в составе RTX-видеокарт эффективнее справляются с ИИ-задачами.

Характеристики всех протестированных карт:

Тесты игровых видеокарт

На фоне «сухих» характеристик вполне ожидаемо, что в обработке запроса GeForce RTX 4090 уверенно лидирует. RTX 4080 Super отстаёт на внушительные 28,5%, а обычная RTX 4080 — ещё на 6,2%. Также достойные результаты из соотношения цена/производительность показала RTX 4070 Ti Super за счёт мощного GPU и достаточного количества памяти.

Несмотря на лучшие характеристики, RTX 3080 Ti отстаёт от RTX 4070 Super и RTX 4070. Схожая ситуация с RTX 2080 Ti, которая едва обошла RTX 4060 Ti. Флагман 7-летней давности, GTX 1080 Ti, выглядит совсем слабенько, в разы уступая даже бюджетной RTX 4060. Налицо преимущество специализированных Tensor-ядер, которых нет у GTX-видеокарт.

Если сравнить результаты с техническими характеристиками, станет ясно, что производительность при половинной точности (FP16) — ключевая характеристика для обработки запросов llama.cpp. В свою очередь производительность FP16 почти полностью зависит от количества и поколения тензорных ядер. Аномальный результат только у RTX 3080 Ti. Она быстрее RTX 4070 Super, хотя мощность FP16 меньше.

В тестах генерации токенов результаты уже совсем другие. Неожиданно на вторую строчку вырвалась GeForce RTX 3080 Ti, хотя по вычислительной мощности FP16 она сильно уступает RTX 4080 и её Super-версии. Также сократился разрыв между некоторыми моделями. Если в тестах обработки разница между RTX 4070 Ti Super и RTX 4080 Super была в районе 22%, то в тестах генерации всего 8%. Схожая ситуация между RTX 4070 и RTX 4070 Ti: разница 25% в обработке, и почти идентичные результаты при генерации токенов.

Можно сделать вывод, что в генерации токенов главная характеристика — пропускная способность памяти (ПСП). В таблице лидеров зависимость между ПСП и итогами практически прямая. Этим же объясняются хорошие результаты RTX 3080 Ti (ПСП 912 ГБ/с) относительно той же RTX 4080 Super (736 ГБ/с).

На фоне зависимости от пропускной способности памяти очень плохие результаты у RTX 2080 Ti, которая оказалась лишь чуть-чуть лучше RTX 4060 Ti. Вероятно, всё дело в программной оптимизации под более современные модели. GTX 1080 Ti, к сожалению, даже относительно неплохая ПСП не помогла.

Тесты профессиональных видеокарт

После предыдущего раздела уже должно было сложиться мнение, что в ИИ-задачах действительно «решает». Результаты удивительными не назвать. Чем лучше положение видеокарты в модельном ряду, тем лучше итоговые показатели. RTX 6000 Ada, как близкая родственница RTX 4090, оказалась на вершине списка. Лучшая карта предыдущего поколения, RTX A6000 (по сути, аналог RTX 3080 Ti), выглядит сомнительным приобретением даже на фоне RTX 4500 Ada (родственница RTX 4070 Ti).

Тесты профессиональных видеокарт подтверждают, что главное — вычислительная мощность FP16. И хотя у RTX A6000 показатели FP16 не сильно отстают от RTX 4500 Ada (38,7 против 39,6 Тфлопс), большую лепту внесла программная оптимизация для более новых моделей.

Что касается генерации токенов, здесь снова картина один в один, как в игровых картах. Главное — пропускная способность памяти. По всем другим показателям RTX A6000 уступает более современным решениям, но благодаря высокой ПСП вырывается на второе место.

Заключение

Одно из главных преимуществ профессиональных видеокарт — двойной набор видеопамяти. Как показали тесты, в задачах обработки запроса и генерации токенов количество памяти — это даже не вторичный, а третичный показатель (при условии, что памяти более 12 ГБ, а сложность запроса средняя). Действительно важный момент — вычислительная мощность FP16 и пропускная способность памяти.

К сожалению, на рынке нет моделей с выдающейся ПСП и вычислительной мощностью в отрыве от других характеристик. Всё это идёт рука об руку. В виде исключения только старые модели вроде GTX 1080 Ti, где ПСП относительно неплохая, но производительность FP16 очень низкая. В любом случае под конец 2024 года неразумно покупать видеокарту 7-летней давности.

Отдельно стоит выделить результаты RTX 2080 Ti — флагмана позапрошлого поколения. Производительность FP16 на уровне с RTX 4070, но в тестах заметное отставание. Здесь дело в программной оптимизации под новые модели. В целом, лучше присматриваться к самым новым картам. Старые флагманы с трудом тягаются с современным картами среднего уровня.

Ещё один примечательный момент — длительная поддержка профессиональной графики оказалась не совсем правдой. Для профессиональных карт предыдущего поколения оптимизацию тоже не завезли. Наглядный пример — профессиональная RTX A6000 и игровая RTX 3080 Ti, которые по характеристикам очень близки. В тестах обработки запроса обе модели показали результаты хуже, чем у карт нового поколения среднего уровня с заведомо меньшими характеристиками. Что же касается программной поддержки, а так ли она нужна на дистанции даже в пять лет? Если за пять лет видеокарта превращается в «тыкву».

Абсолютно во всех тестах игровые видеокарты оказались быстрее профессиональных аналогов. Поэтому большинству пользователей, которые работают с ИИ на базово-среднем уровне, стоит остановиться именно на игровых моделях серии GeForce RTX. При работе с большими проектами, требовательными к видеопамяти — тоже GeForce RTX. Одна RTX 4090 и быстрее, и дешевле, и проще в использовании, чем пара средних RTX 4500 Ada.

Что касается сферы применения профессиональных карт: они востребованы лишь в по-настоящему масштабных проектах, которым нужно более 24 ГБ памяти. В таких случаях профессиональный ускоритель — это необходимость, а не роскошь. Второй вариант — если требуется исключительная мощность графического процессора. Ещё раз напомним, что в профессиональном сегменте работает правило один в поле не воин. Главное преимущество профессиональных карт — возможность установки нескольких штук в одну систему. Чтобы получить ускорение от двух до восьми раз… ну почти.

Напоминаем, что в ассортименте DigitalRazor есть как игровые ПК, которые вполне можно использовать для рабочих задач, так и рабочие станции с продвинутыми возможностями. Для действительно больших проектов подойдут GPU-серверы — топовое решение, где преимущества профессиональных видеокарт раскрываются во всей красе. Мы также предлагаем интересные варианты GPU-серверов с водяным охлаждением, которые сочетают преимущества игровых и профессиональных карт по разумной цене.