Архитектура NVIDIA Blackwell. Первый взгляд.

Буквально остаются считанные дни до выхода на рынок новейших ускорителей NVIDIA GeForce RTX 5000 серии на базе архитектуры NVIDIA Blackwell. В данной публикации вы познакомитесь с основными изменениями в архитектуре, новыми возможностями и технологиями представленными во время анонсов NVIDIA на CES 2025.

Я ознакомился с доступной информацией по новым GPU, собрал общие технические характеристики новых графических процессоров и результаты первых тестов, проведенных энтузиастами, кто уже смог опробовать новые ускорители.

Как только ускорители станут доступны в России и СНГ, я проведу собственное тестирование на основе своих наборов тестов и приложений. Вы можете следить за анонсами и изысканиями в моих группах и страничках профилей в социальных сетях.

Мой профиль в ВК | Мой маленький :-) Telegram-канал | Моя группа в ВК

Взгляд на архитектуру NVIDIA Blackwell

Архитектура NVIDIA Blackwell была представлена в марте 2024 года. Первое поколение GPU на основе данной архитектуры было предназначено для применения в датацентрах, высокопроизводительных вычислений и AI. Учитывая возросший интерес к искусственному интеллекту, при разработке новой архитектуры, инженеры NVIDIA уделили внимание производительности в алгоритмах применяемых в обучении нейросетей и применению в обучении на больших языковых моделях.

Большие языковые модели (LLM) требуют огромной вычислительной мощности для обеспечения высокой производительности в реальном времени. Вычислительные требования LLM также приводят к более высокому потреблению энергии, поскольку для подготовки, обучения и вывода из этих моделей требуется больше памяти, ускорителей и серверов. Организации, стремящиеся развернуть LLM для работы в реальном времени, должны бороться с этими вызовами.

Портфель продуктов на основе архитектуры NVIDIA Blackwell разработан с учетом потребностей постоянно растущих размеров и параметров моделей ИИ и включают в себя целый ряд инноваций, включая новый движок Transformer Engine второго поколения.

Архитектура NVIDIA Blackwell была названа в честь Дэвида Х. Блэквелла, американского математика и статистика, известного теоремой Рао-Блэквелла, а также многочисленными вкладами и достижениями в области теории вероятностей, теории игр, статистики и динамического программирования.

С продуктами на основе архитектуры NVIDIA Blackwell можно использовать и развертывать самые современные LLM с доступной экономикой, оптимизируя свой бизнес с помощью преимуществ генеративного ИИ. В то же время эти решения открывают новую эру генеративных моделей ИИ, поддерживая модели с несколькими триллионами параметров и производительностью в реальном времени, что было бы недостижимо без инноваций Blackwell.

NVIDIA GB200 Superchip Incl. Two Blackwell GPUs and One Grace CPU

Инновации архитектуры NVIDIA Blackwell в решениях для дата-центров

Архитектура Blackwell предоставляет достижения NVIDIA для генеративного ИИ и ускоренных вычислений. Внедрение нового Transformer Engine второго поколения, наряду с более быстрыми и широкими соединениями NVIDIA NVLink, выводит центры обработки данных в новую эру с производительностью на порядок выше по сравнению с предыдущим поколением архитектуры.

Достижения в технологии NVIDIA Confidential Computing повышают уровень безопасности для инференса генеративного ИИ в реальном времени, без ущерба для производительности. А новый Decompression Engine от NVIDIA Blackwell в сочетании с библиотеками Spark RAPIDS обеспечивает высокую производительность базы данных для приложений аналитики данных. Многочисленные достижения NVIDIA Blackwell основываются на последних технологиях ускоренных вычислений.

GPU NVIDIA Blackwell, созданный с использованием 208 миллиардов транзисторов, что в 2,5 раза больше, чем количество транзисторов в графических процессорах NVIDIA Hopper, и использующий процесс TSMC 4NP, адаптированный для NVIDIA, является крупнейшим графическим процессором из когда-либо созданных. NVIDIA Blackwell достигает самой высокой вычислительной мощности на одном чипе, 20 петафлопс.

Эта архитектура способна объединить значительное количество вычислительной мощности путем объединения двух кристаллов в один унифицированный графический процессор. Каждый из двух кристаллов является самым большим кристаллом, который возможен в пределах размера сетки литографии, настолько большим, насколько это вообще сегодня возможно. Два кристалла соединены и объединены с помощью одного 10-терабайтного (ТБ/с) чип-чип интерфейса NVIDIA High-Bandwidth (NV-HBI), что обеспечивает один полностью согласованный унифицированный графический процессор.

Архитектура Blackwell — это гораздо больше, чем просто чип с высокой скоростью вычислений с плавающей точкой (FLOPS). Она продолжает развиваться и извлекать выгоду из богатой экосистемы инструментов разработки NVIDIA, библиотек CUDA-X, более четырех миллионов разработчиков и более 3000 приложений, масштабирующих производительность на тысячах узлов.

Второе поколение Transformer Engine

NVIDIA Blackwell представляет новый Transformer Engine второго поколения. Transformer Engine использует собственную технологию Blackwell Tensor Core в сочетании с инновациями TensorRT-LLM и Nemo Framework для ускорения вывода и обучения для моделей LLM и Mixture-of-Experts (MoE).

Для ускорения вывода больших моделей MoE, ядра Blackwell Tensor Cores добавляют новые точности, включая новые форматы микромасштабирования, определенные сообществом, что обеспечивает высокую точность и большую пропускную способность. Blackwell Transformer Engine использует передовые алгоритмы управления динамическим диапазоном и методы мелкозернистого масштабирования, называемые микротензорным масштабированием, для оптимизации производительности и точности и включения FP4 AI. Это удваивает производительность с Blackwell FP4 Tensor Core, удваивает пропускную способность параметров для памяти HBM и удваивает размер моделей следующего поколения на GPU.

Инновации в TensorRT-LLM, включая квантование с точностью до 4 бит и настраиваемые ядра с экспертным преобразованием параллелизма, освобождают современные модели MoE для вывода в реальном времени, используя меньше оборудования и энергии, а также меньшие затраты.

Для обучения, второе поколение Transformer Engine работает с инновациями в новых экспертных методах параллелизма Nemo Framework и Megatron-Core, которые сочетаются с другими методами параллелизма и пятым поколением NVLink для беспрецедентной производительности модели. Форматы с более низкой точностью открывают возможности для дальнейшего ускорения крупномасштабного обучения. С вторым поколением Transformer Engine предприятия могут использовать и развертывать самые современные модели MoE с доступной экономикой, оптимизируя свой бизнес с помощью преимуществ генеративного ИИ. NVIDIA Blackwell делает возможной следующую эру моделей MoE — поддерживая обучение и вывод в реальном времени для моделей размером более 10 триллионов параметров.

Эффективные конфиденциальные вычисления и безопасный ИИ

Генеративный ИИ обладает огромным потенциалом для бизнеса. Оптимизация доходов, предоставление бизнес-аналитики и помощь в создании генеративного контента — вот лишь некоторые из преимуществ. Но внедрение генеративного ИИ может быть затруднительным для компаний, которым необходимо обучать его на основе конфиденциальных данных, которые могут подпадать под действие законов о конфиденциальности или содержать коммерческую информацию.

Возможности NVIDIA Confidential Computing расширяют доверенную среду выполнения (Trusted Execution Environment (TEE)) за пределы центральных процессоров на графические процессоры. Архитектура конфиденциальных вычислений на платформе NVIDIA Blackwell была разработана таким образом, чтобы обеспечить максимально быструю, безопасную и подтвержденную (основанную на фактических данных) защиту LLM и других конфиденциальных данных. NVIDIA Blackwell представляет первый в отрасли графический процессор с поддержкой TEE-ввода-вывода, который представляет собой наиболее производительное решение для конфиденциальных вычислений с хостами, поддерживающими TEE-ввод-вывод, а также встроенную защиту через NVLink (обеспечивая конфиденциальность и целостность).

Конфиденциальные вычисления Blackwell обеспечивают практически идентичную пропускную способность по сравнению с незашифрованными режимами. Теперь клиенты могут эффективно защищать даже самые крупные модели, а также интеллектуальную собственность в сфере ИИ и безопасно использовать конфиденциальное обучение ИИ, логический вывод и федеративное обучение.

Пятое поколение NVLink и NVLink Switch

Чтобы полностью раскрыть потенциал эксафлопсных вычислений и моделей ИИ с триллионами параметров, необходима быстрая и бесперебойная связь между всеми графическими процессорами в серверном кластере.

Благодаря ASIC-коммутатору NVLink Switch и коммутаторам, построенным на его основе, NVLink пятого поколения может масштабироваться до 576 графических процессоров для повышения производительности моделей ИИ с триллионами и мультитриллионами параметров. NVLink пятого поколения удваивает производительность NVLink четвёртого поколения, применявшегося в NVIDIA Hopper. Хотя новый NVLink в графических процессорах Blackwell также использует две высокоскоростные дифференциальные пары в каждом направлении для формирования одного канала, как и в графическом процессоре Hopper, NVIDIA Blackwell удваивает эффективную пропускную способность канала до 50 ГБ/с в каждом направлении.

Графические процессоры Blackwell оснащены 18 каналами NVLink пятого поколения, обеспечивающими общую пропускную способность 1,8 ТБ/с, по 900 ГБ/с в каждом направлении. Двунаправленная пропускная способность 1,8 ТБ/с на графический процессор более чем в 14 раз превышает пропускную способность PCIe Gen5, обеспечивая высокоскоростную связь для самых сложных современных больших моделей. Это почти семь петабайт данных, передаваемых за час одним графическим процессором.

Коммутатор NVIDIA NVLink обеспечивает пропускную способность 130 ТБ/с для графических процессоров в одном домене NVLink с 72 графическими процессорами (NVL72) для параллельной обработки моделей и повышает эффективность в 4 раза благодаря новому масштабируемому иерархическому протоколу агрегирования и сокращения (SHARP) FP8 от NVIDIA. NVLink и коммутатор NVLink, используемые вместе, поддерживают кластеры, состоящие более чем из одного сервера, с впечатляющей пропускной способностью 1,8 ТБ/с. Многосерверные кластеры с использованием коммутатора NVLink могут масштабировать связь между графическими процессорами в соответствии с возросшими вычислительными мощностями, что позволяет GB200 NVL72 поддерживать в 9 раз большую пропускную способность графических процессоров по сравнению с одной системой с восемью графическими процессорами.
Коммутатор NVLink работает с NVIDIA Unified Fabric Manager (UFM), обеспечивая проверенное в реальных условиях управление вычислительной сетью NVLink.

Decompression Engine

Аналитика данных и рабочие процессы с базами данных традиционно были медленными и громоздкими, поскольку для вычислений использовались центральные процессоры. Ускоренная обработка данных может значительно повысить производительность сквозной аналитики, ускоряя получение результатов и сокращая время, необходимое для получения аналитической информации, при этом снижая затраты. Базы данных, в том числе Apache Spark, играют важнейшую роль в обработке, анализе и хранении больших объемов данных для аналитики. Новый специализированный Blackwell Decompression Engine может декомпрессировать данные со скоростью до 800 ГБ/с, а в сочетании с 8 ТБ/с памяти HBM3e (высокоскоростная память) с использованием одного графического процессора в GB200 и высокоскоростного межсоединением NVLink-C2C (межчиповое соединение) процессора Grace ускоряет выполнение запросов к базе данных для достижения максимальной производительности при анализе данных и обработке данных. Благодаря поддержке новейших форматов сжатия, таких как LZ4, Snappy и Deflate, NVIDIA Blackwell работает в 18 раз быстрее, чем процессоры, и в 6 раз быстрее, чем NVIDIA H100.

Tensor Core GPUs for query benchmarks.

Projected performance subject to change. Database join and aggregation workload with Snappy/Deflate compression derived from TPC-H Q4 query. Custom query implementations for x86, HGX H100 single GPU, and single GPU from GB200 Superchip.

GB200 Database Join Query Using Decompression Engine

RAS Engine

Архитектура Blackwell обеспечивает интеллектуальную отказоустойчивость с помощью специального механизма обеспечения надежности, доступности и ремонтопригодности (Reliability, Availability, and Serviceability (RAS) Engine) для выявления потенциальных сбоев на ранних этапах, чтобы свести к минимуму время простоя. Возможности интеллектуального управления NVIDIA на основе ИИ непрерывно отслеживают тысячи показателей аппаратного и программного обеспечения для оценки общего состояния, чтобы прогнозировать и устранять источники простоев и неэффективности. Это обеспечивает интеллектуальную отказоустойчивость, которая экономит время, энергию и вычислительные ресурсы.

NVIDIA RAS Engine предоставляет подробную диагностическую информацию, которая позволяет выявлять проблемные области и планировать техническое обслуживание. RAS Engine сокращает время простоя за счет быстрой локализации источника проблем и минимизирует время простоя за счет эффективного устранения неполадок. Администраторы могут гибко настраивать вычислительные ресурсы и оптимальные стратегии контрольных точек для бесперебойной работы крупномасштабных задач по обучению. Если модуль RAS определяет, что требуется замена компонента, активируется резервная мощность, чтобы обеспечить своевременное завершение работы с минимальной потерей производительности. Любая необходимая замена оборудования может быть запланирована, чтобы избежать незапланированных простоев.

От дата-центров к персональным компьютерам - NVIDIA GeForce RTX 5000-серии

Первое поколение архитектуры NVIDIA Blackwell было ориентировано на применение в дата-центрах и вычислениях в области ИИ и высокопроизводительных вычислениях. Основные клиенты, покупавшие данные GPU, были крупные корпорации с большими дата-центрами и суперкомпьютерами, используемыми для исследований и обучения ИИ, и вычислений. Поэтому изначально небыло выпущено потребительских решений на основе новой архитектуры.

Но как обычно бывает в мире ИТ, все что было изначально доступно корпоративному клиенту, становится доступным потребителям. С момента выхода GPU NVIDIA Ada Lovelace прошло почти 2 года. Вся линейка GPU NVIDIA GeForce RTX 4000 серии базируется на GPU архитектуры Ada. Но Ada выпущена как отдельное решение, в тот период, для корпоративных клиентов и для применения в ИИ, была разработана архитектура NVIDIA Hopper. С выходом NVIDIA Blackwell, разработчики NVIDIA отошли от концепции разделения архитектур под различные рынки, и выпустив сначала решения корпоративного уровня и для дата-центров, применив все компетенции и наработки как в решениях для дата-центров и потребительских решений, добавили в GPU Blackwell ядра RT Cores, увеличили количество Tensor Cores, и увеличили общее количество CUDA Cores. Убрали отдельные блоки, ранее отвечавшие за шину NVLink, что позволило увеличить общее количество ядер, реализовали поддержку памяти стандарта GDDR7. Таким образом была создан GPU архитектуры NVIDIA Blackwell 2.0 (NVIDIA Blackwell RTX), ориентированный на потребительские и профессиональные ускорители - NVIDIA GeForce RTX и NVIDIA RTX (NVIDIA Quadro).

В данной публикации мы познакомимся с общими характеристиками новых GPU и основными технологиями, представленными в анонсах компании, а также в первых обзорах. Как только будут доступны технические документы и GPU для тестирования, я проведу собственное исследование на основе своих наборов тестов.

GPU NVIDIA GeForce RTX 50-серии для ПК и ноутбуков

Графические ускорители NVIDIA GeForce RTX 50-й серии и ноутбуки с GeForce RTX 50-й серии на базе архитектуры NVIDIA Blackwell RTX ускоряют частоту кадров до 8 раз с помощью NVIDIA DLSS 4 с генерацией нескольких кадров, сокращают задержку до 75 % с помощью NVIDIA Reflex 2, обеспечивают высочайшее качество графики для геймеров и создателей контента с помощью NVIDIA RTX Neural Shaders и многое другое.

Графические процессоры GeForce RTX 50-й серии обеспечивают высокую производительность, преобразуют возможности искусственного интеллекта и позволяют разработчикам еще быстрее выполнять рабочие задачи.

Neural Rendering это следующая эра компьютерной графике

Neural Rendering — это новая эра компьютерной графики. Интегрируя нейронные сети в процесс рендеринга, мы можем значительно повысить производительность, качество изображения и интерактивность, чтобы обеспечить новый уровень погружения.

Самым первым примером нейронного рендеринга был DLSS. Который использовал рендеринг в более низком разрешении в качестве входных данных для нейронной сети, которая была обучена выводить кадры в полном разрешении. С тех пор DLSS развился до такой степени, что может генерировать целые кадры и понимать композицию сцены, включая тени, отражения и окклюзию, чтобы создавать изображения, которые лучше, чем при обычном рендеринге. С появлением DLSS 4 с генерацией нескольких кадров, работающей в сочетании с полным набором технологий DLSS, мы можем увеличить частоту кадров в 8 раз по сравнению с традиционным рендерингом и обеспечить качество изображения, превосходящее нативный рендеринг.

Разработчики из NVIDIA интегрировали нейронные сети в программируемые шейдеры для создания нейронных шейдеров. Нейронные шейдеры RTX станут основой графических инноваций в следующем десятилетии. Их можно использовать для сжатия текстур в 7 раз, экономя огромное количество графической памяти. Их можно использовать для создания текстур кинематографического качества и ещё более продвинутых световых эффектов в играх.

RTX Neural Faces предлагает инновационный подход к улучшению качества лиц с помощью генеративного ИИ. Вместо традиционного рендеринга Neural Faces использует в качестве входных данных простое растровое изображение лица и данные о 3D-позе и применяет модель генеративного ИИ в реальном времени для создания более естественного лица.

Инновации архитектуры NVIDIA Blackwell

Архитектура NVIDIA Blackwell RTX была создана и оптимизирована для нейронного рендеринга. Она обладает огромной вычислительной мощностью, а также новыми механизмами и функциями, специально разработанными для ускорения нейронного рендеринга следующего поколения.

Графические чипы на архитектуре Blackwell, содержащие до 92 миллиардов транзисторов, являются самым мощным потребительскими графическими процессорами из когда-либо созданных. Потоковый мультипроцессор Blackwell (SM) был усовершенствован за счёт увеличения пропускной способности и более тесной интеграции с тензорными ядрами для оптимизации производительности нейронных шейдеров. Blackwell оснащён несколькими аппаратными и программными инновациями для улучшения переупорядочивания выполнения шейдеров. Логика переупорядочивания в два раза эффективнее, что повышает скорость и точность переупорядочивания и ускоряет работу нейронных шейдеров.

Новые тензорные ядра Blackwell обладают огромной вычислительной мощностью и поддерживают ускоренную обработку моделей с точностью FP4. Благодаря FP4 тензорные ядра Blackwell могут не только обрабатывать модели быстрее, но и делать это, используя меньше графической памяти.
Чтобы соответствовать требованиям к частоте кадров DLSS Multi Frame Generation следующего поколения, архитектура Blackwell была создана с расширенными возможностями аппаратного измерения частоты кадров для обеспечения скорости и точности, необходимых для плавной и качественной работы.

Blackwell также оснащен совершенно новыми RT-ядрами, предназначенными для трассировки лучей в больших объемах детализированной геометрии. Скорость пересечения лучей в треугольниках у RT-ядер в 2 раза выше, чем у предыдущего поколения, а также улучшенное сжатие, предназначенное для уменьшения объема занимаемой памяти. Это позволяет графическим процессорам Blackwell выполнять трассировку лучей на таких уровнях геометрии, которые ранее были невозможны.

Blackwell также поддерживает шину PCI-Express 5-поколения и новейший DisplayPort 2.1b UHBR20, позволяя управлять дисплеями с разрешением до 8K и частотой 165 Гц.

В ноутбуках с GeForce RTX 50 серии новые технологии Max-Q, такие как расширенная регулировка энергопотребления, режим сна с низкой задержкой и ускоренное переключение частоты, увеличивают время автономной работы на 40% по сравнению с предыдущим поколением.

А чтобы обеспечить всю эту вычислительную мощность, Blackwell оснащен самой быстрой в мире памятью — GDDR7 со скоростью до 30 Гбит/с. Благодаря памяти GDDR7 графические процессоры Blackwell могут обеспечивать пропускную способность памяти до 1,8 ТБ/с.

Графические карты GeForce RTX 50 серии

По заявлениям NVIDIA, 30 января на полках магазинов появятся GeForce RTX 5090 и GeForce RTX 5080. А GeForce RTX 5070 Ti и GeForce RTX 5070 будут доступны с февраля.

Основные модели будут доступны в серии NVIDIA Founders Edition. Стандартные и разогнанные на заводе варианты всех четырёх графических процессоров будут доступны у ведущих производителей видеокарт, таких как ASUS, Colorful, Gainward, GALAX, GIGABYTE, INNO3D, KFA2, MSI, Palit, PNY и ZOTAC. А также в настольных компьютерах от системных интеграторов.

GeForce RTX 5090

Благодаря инновациям архитектуры Blackwell и DLSS 4, видеокарта GeForce RTX 5090 в 2 раза превосходит GeForce RTX 4090.
С 32 ГБ памяти GDDR7, общей пропускной способностью памяти 1792 ГБ/с, 21 760 ядрами CUDA, 680 тензорными ядрами 5-го поколения и 170 ядрами трассировки лучей 4-го поколения, это лучший графический процессор GeForce с большим количеством аппаратного обеспечения и мощности, чем всё, что NVIDIA выпускали ранее.

В играх DLSS 4 с функцией Multi Frame Generation повышается производительность в Cyberpunk 2077, Alan Wake 2 и Black Myth: Wukong, позволяя владельцам GeForce RTX 5090 играть в разрешении 4K с частотой 240 кадров в секунду при полной трассировке лучей и максимальных настройках.

В приложениях с генеративным искусственным интеллектом, генерация изображений в 2 раза быстрее при использовании FP4 на GeForce RTX 5090 и потребляется вдвое меньше памяти по сравнению с FP16 на GeForce RTX 4090. FP4 — это метод пониженного квантования, аналогичный сжатию файлов, который уменьшает размер модели.

Модель FLUX.1 [dev] от Black Forest Labs требует более 23 ГБ видеопамяти в режиме FP16. На GeForce RTX 4090 изображения генерируются за 15 секунд. В режиме FP4 используется меньше видеопамяти, а GeForce RTX 5090 может сократить время генерации изображений до чуть более пяти секунд.

Founders Edition революционная конструкция с охлаждением в два потока

Видеокарты ограниченной серии NVIDIA GeForce RTX Founders Edition — это вершина дизайна, созданная из высококачественных материалов, отличающаяся ярким, уникальным дизайном и инновационными решениями в области охлаждения.

Для GeForce RTX 5090 инженеры создали видеокарту GeForce Enthusiast SFF-Ready длиной 304 мм, высотой 137 мм и шириной 2 слота, способную тихо охлаждать высокопроизводительный графический процессор Blackwell благодаря революционной новой конструкции с двойным потоком воздуха.
Каждый компонент новой видеокарты GeForce RTX 5090 Founders Edition был специально разработан для повышения эффективности охлаждения и производительности за счёт использования новых конструктивных инноваций, термоинтерфейсного материала Liquid Metal (TIM) и уникальной печатной платы из трёх частей.

GeForce RTX 5080

Благодаря архитектуре Blackwell и DLSS 4 с генерацией нескольких кадров GeForce RTX 5080 в играх работает в два раза быстрее, чем GeForce RTX 4080. Благодаря новым тензорным ядрам 5-го поколения, ядрам RT 4-го поколения и 16 ГБ памяти GDDR7, обеспечивающим пропускную способность до 960 ГБ/с (на 34% больше, чем у GeForce RTX 4080 с пропускной способностью 717 ГБ/с), GeForce RTX 5080 обеспечивает значительный прирост производительности для геймеров и создателей контента.

GeForce RTX 5070 Ti

Видеокарта GeForce RTX 5070 Ti оснащена 16 ГБ памяти GDDR7 и имеет общую пропускную способность памяти 896 ГБ/с, что на 78% больше, чем у GeForce RTX 4070 Ti с пропускной способностью 504 ГБ/с.

Благодаря всем возможностям архитектуры Blackwell и DLSS 4 с генерацией нескольких кадров частота кадров в играх в 2 раза выше, чем у GeForce RTX 4070 Ti. При разрешении 2560x1440, с полной трассировкой лучей и максимальными настройками, владельцы GeForce RTX 5070 Ti могут играть в Alan Wake 2, Black Myth: Укун и Cyberpunk 2077 с высокой частотой кадров.

GeForce RTX 5070

GeForce RTX 5070 также оснащена новыми ядрами архитектуры NVIDIA Blackwell, 12 ГБ памяти GDDR7 и имеет общую пропускную способность памяти 672 ГБ/с по сравнению с 504 ГБ/с у GeForce RTX 4070.

При разрешении 2560x1440, с включенной трассировкой лучей и другими максимальными настройками, а также с включенной функцией DLSS Multi Frame Generation, владельцы GeForce RTX 5070 могут играть в Black Myth: Wukong, Alan Wake 2 и Cyberpunk 2077 с высокой частотой кадров и производительностью, которая в среднем в два раза выше, чем у GeForce RTX 4070.

DLSS 4, Reflex 2 и новые AI-инновации

Благодаря новым возможностям архитектуры Blackwell пользователи GeForce RTX 50-й серии смогут наслаждаться высокой производительностью, более отзывчивым игровым процессом, графикой кинематографического качества и новыми возможностями искусственного интеллекта, которые ещё больше улучшают игры и приложения.

NVIDIA DLSS 4 предоставляет Multi Frame Generation и улучшения для всех технологий DLSS

NVIDIA DLSS — это набор технологий нейронного рендеринга на базе тензорных ядер GeForce RTX, которые повышают частоту кадров и обеспечивают чёткое изображение высокого качества, сравнимое с рендерингом в родном разрешении, в более чем 700 играх и приложениях RTX.

На выставке CES 2025 NVIDIA представили DLSS 4 с функцией Multi Frame Generation для графических процессоров GeForce RTX 50-й серии. DLSS Multi Frame Generation генерирует до трёх дополнительных кадров на каждый кадр, отображаемый традиционным способом, и работает в сочетании с полным набором технологий DLSS, увеличивая частоту кадров до 8 раз по сравнению с традиционным рендерингом. Благодаря такому значительному повышению производительности на видеокартах GeForce RTX 5090 можно играть в 4K с частотой 240 кадров в секунду и полной трассировкой лучей.

На GeForce RTX 5090 DLSS 4 с генерацией нескольких кадров повышает производительность более чем в 8 раз по сравнению с традиционным рендерингом в этой сцене из Cyberpunk 2077. Задержка ПК сокращается вдвое для более отзывчивого игрового процесса, а качество изображения повышается.

DLSS Ray Reconstruction, DLSS Super Resolution и DLAA теперь будут работать на основе первого в графической индустрии применения «трансформеров» в реальном времени — той же передовой архитектуры, которая используется в передовых моделях искусственного интеллекта, таких как ChatGPT, Flux и Gemini. Трансформерные модели DLSS улучшают качество изображения, повышая его временную стабильность, уменьшая количество «призраков» и повышая детализацию в движении.

Watch NVIDIA’s Bryan Catanzaro and Edward Liu walk through DLSS 4

NVIDIA Reflex 2 с новой технологией Frame Warp снижает задержки в играх до 75%

В соревновательных играх несколько миллисекунд задержки ввода могут означать разницу между победой и поражением.

В 2020 году был выпущен NVIDIA Reflex — инновационная технология, которая в среднем на 50% сокращает задержки в топовых соревновательных играх. NVIDIA Reflex синхронизирует работу процессора и графического процессора, благодаря чему действия игрока быстрее отражаются в игре, что даёт геймерам конкурентное преимущество в многопользовательских играх и делает одиночные игры более отзывчивыми.

На выставке CES 2025 была представлена NVIDIA Reflex 2, которая может снизить задержку ПК на 75%. Reflex 2 сочетает в себе режим Reflex с низкой задержкой и новую технологию Frame Warp, которая дополнительно снижает задержку, обновляя отображаемый игровой кадр на основе последних нажатий мыши непосредственно перед отправкой на дисплей.

AI-Powered Tools для создателей контента следующего поколения

Серия GeForce RTX 50 меняет подход к творческим процессам благодаря новым инструментам и функциям NVIDIA Studio для создателей контента и ещё более быстрому оборудованию.

Добавленная аппаратная поддержка кодирования и декодирования профессионального цветового формата 4:2:2 обеспечивает потрясающее увеличение скорости кодирования в 11 раз по сравнению с программными кодировщиками.

Видеокодеки NVENC 9-го поколения обеспечивают на 5% более высокое качество кодирования HEVC и AV1, а также новый режим AV1 Ultra Quality, который обеспечивает дополнительное повышение эффективности кодирования на 5%. Декодер NVIDIA 6-го поколения способен декодировать и воспроизводить до восьми видеопотоков 4K60 4:2:2 одновременно.

Стримеры получают 2 новых обновления ИИ: ИИ-агент от Streamlabs — интеллектуальный помощник для стриминга на базе NVIDIA ACE и Inworld AI — может присоединиться к вам в качестве ассистента, помогая вам вести трансляции или решая любые технические проблемы. А также новое обновление NVIDIA Broadcast, которое предлагает 2 новых эффекта: студийный голос для улучшения качества микрофона и виртуальную подсветку клавиш с помощью ИИ.
DLSS Multi Frame Generation дополнительно повышает частоту кадров в творческих приложениях. В сочетании с ядрами RT нового поколения графические процессоры GeForce RTX 50-й серии обеспечивают в 2 раза более высокую производительность по сравнению с предыдущим поколением при редактировании 3D-сцен в таких приложениях, как D5 Render.

NVIDIA RTX Remix в ближайшем будущем добавит технологии нейронного рендеринга RTX и ещё больше функций.

Функция RTX Video, которая повышает разрешение видео, устраняя артефакты сжатия и улучшая резкость, и функция RTX Video HDR, которая преобразует видео со стандартным динамическим диапазоном в видео с расширенным динамическим диапазоном, обновляются, чтобы снизить нагрузку на графический процессор на 30%. А функция RTX Video Super Resolution теперь может повышать разрешение видеоконтента HDR10.

NVIDIA ACE дарит жизнь товарищам по команде, неигровым персонажам, врагам и цифровым помощникам с использованием ИИ

NVIDIA ACE — это набор цифровых технологий, которые оживляют игровых персонажей и цифровых помощников с помощью генеративного ИИ. Персонажи ACE, работающие на ПК и ноутбуках с искусственным интеллектом GeForce RTX, используют ИИ для восприятия, планирования и действий, как игроки-люди. Играйте вместе с ИИ-компаньонами, сражайтесь с врагами, которые постоянно учатся на поведении игроков, и взаимодействуйте с автономными неигровыми персонажами, которые руководствуются собственными мотивами и целями в постоянно развивающихся мирах.

Project G-Assist поможет вам оптимизировать ваш ПК с помощью ИИ

Project G-Assist добавит экспериментального помощника с искусственным интеллектом на ваш ПК с GeForce RTX AI. Доступный через приложение NVIDIA, экспериментальный выпуск Project G-Assist позволяет управлять системой и оптимизировать её производительность и эффективность с помощью простых команд. Отслеживайте частоту кадров, задержку, энергопотребление и другие показатели производительности, а также управляйте подключёнными периферийными устройствами и аксессуарами, включая периферийное освещение, скорость вентиляторов и даже светодиодную подсветку дома.

Project R2X: взгляните на ИИ с помощью ПК и ноутбуков GeForce RTX AI

Чтобы продемонстрировать, как энтузиасты и разработчики RTX могут использовать микросервисы NIM для создания ИИ-агентов и помощников, мы представили Project R2X — аватар ПК с поддержкой зрения, который может предоставлять пользователям информацию, помогать с настольными приложениями и видеоконференциями, читать и обобщать документы и многое другое.

R2X можно подключить к облачным сервисам ИИ, таким как GPT4o от OpenAI и Grok от xAI, а также к микросервисам NIM и схемам ИИ, таким как средства для поиска PDF-файлов или альтернативные большие языковые модели, с помощью таких фреймворков для разработчиков, как CrewAI, Flowise AI и Langflow.

Новые GeForce RTX 50 двукратно увеличивают производительность художников в 3D, Video и Generative AI

Благодаря поддержке FP4 для высокой производительности ИИ и тремя кодеками с поддержкой цвета формата 4:2:2, новые инструменты ИИ улучшают потоковую передачу в реальном времени, DLSS 4 ускоряет 3D-рендеринг, а микросервисы NVIDIA NIM и Blueprints повышают производительность ИИ на ПК.

Графические процессоры GeForce RTX 50-й серии для настольных компьютеров и ноутбуков, представленные на выставке CES, открывают новую эру создания контента с помощью генеративного и агентного ИИ, предлагая новые инструменты и возможности для видео, прямых трансляций, 3D и многого другого.

Графические процессоры GeForce RTX 50-й серии, построенные на архитектуре NVIDIA Blackwell, могут запускать творческие генеративные модели ИИ в 2 раза быстрее, потребляя меньше памяти, по сравнению с предыдущим поколением. Они оснащены кодировщиками NVIDIA девятого поколения для расширенного редактирования видео и прямых трансляций, а также поддерживают NVIDIA DLSS 4 и до 32 ГБ видеопамяти для работы с масштабными 3D-проектами.

Эти графические процессоры поставляются с различными обновлениями программного обеспечения, в том числе с двумя новыми эффектами NVIDIA Broadcast на базе ИИ, обновлениями RTX Video и RTX Remix, а также микросервисами NVIDIA NIM — готовыми и оптимизированными моделями, созданными для ускорения рабочих процессов создания контента с помощью ИИ на ПК с RTX AI.

Разработано для эры генеративного искусственного интеллекта

Генеративный ИИ может создавать впечатляющие результаты для авторов, но по мере усложнения и масштабирования моделей генеративный ИИ может работать с перебоями даже на новейшем оборудовании.

Серия GeForce RTX 50 поддерживает FP4, что помогает решить эту проблему. FP4 — это метод понижающего квантования, похожий на сжатие файлов, который уменьшает размер моделей. По сравнению с FP16 — методом по умолчанию, который используется в большинстве моделей, — FP4 использует менее половины памяти, а графические процессоры серии 50 обеспечивают более чем в 2 раза более высокую производительность по сравнению с предыдущим поколением. Это можно сделать практически без потери качества с помощью передовых методов квантования, предлагаемых NVIDIA TensorRT Model Optimizer.
Например, для модели FLUX.1 [dev] от Black Forest Labs на FP16 требуется более 23 ГБ видеопамяти, а это значит, что она может поддерживаться только GeForce RTX 4090 и профессиональными графическими процессорами. На FP4 для FLUX.1 [dev] требуется менее 10 ГБ, поэтому она может работать локально на большем количестве графических процессоров GeForce RTX.

С GeForce RTX 4090 с FP16 модель FLUX.1 [dev] может генерировать изображения за 15 секунд с 30 шагами. С GeForce RTX 5090 с FP4 изображения могут быть сгенерированы чуть более чем за пять секунд.

Новый NVIDIA AI Blueprint для генеративного ИИ с 3D-управлением на основе FLUX.1 [dev], который будет предлагаться в качестве микросервиса NVIDIA NIM, предоставляет художникам больше возможностей для управления генерацией изображений на основе текста. С помощью этого Blueprint создатели могут использовать простые 3D-объекты — созданные вручную или сгенерированные с помощью ИИ — и размещать их в 3D-рендере, например в Blender, для управления генерацией изображений с помощью ИИ.

Готовый рабочий процесс на основе микросервиса FLUX NIM и ComfyUI позволяет создавать высококачественные изображения, соответствующие композиции 3D-сцены.

Ожидается, что в феврале NVIDIA Blueprint для генеративного ИИ с 3D-наведением будет доступен на GitHub с помощью установщика в один клик.

Компания Stability AI объявила, что в этом месяце её модель Stable Point Aware 3D, или SPAR3D, будет доступна на ПК с RTX AI. Благодаря ускорению RTX новая модель от Stability AI поможет преобразовать 3D-дизайн, обеспечив исключительный контроль над созданием 3D-контента за счёт редактирования в реальном времени и возможности создания объекта менее чем за секунду на основе одного изображения.

Professional-Grade Video for All

Графические процессоры GeForce RTX 50-й серии обеспечивают качественный скачок в аппаратных кодировщике и декодере NVIDIA с поддержкой профессионального формата цвета 4:2:2, многоканального HEVC (MV-HEVC) для 3D-видео и видео виртуальной реальности (VR), а также нового режима AV1 сверхвысокого качества.

Большинство потребительских камер используют цветовое сжатие 4:2:0, которое уменьшает количество цветовой информации. Цветовое сжатие 4:2:0 обычно достаточно для воспроизведения видео в браузерах, но оно не может обеспечить глубину цвета, необходимую для продвинутых видеоредакторов и для цветокоррекции. Формат 4:2:2 обеспечивает вдвое больше цветовой информации при увеличении размера RAW-файла всего в 1,3 раза, что является идеальным балансом для рабочих процессов редактирования видео.

Декодирование видео 4:2:2 может быть затруднено из-за увеличенного размера файлов. Графические процессоры GeForce RTX 50-й серии поддерживают аппаратную поддержку 4:2:2, которое может декодировать до восьми источников видео 4K со скоростью 60 кадров в секунду (кадров в секунду) на один декодер, обеспечивая плавное редактирование видео с нескольких камер.

Графический процессор GeForce RTX 5090 оснащён тремя кодировщиками и двумя декодировщиками, графический процессор GeForce RTX 5080 оснащён двумя кодировщиками и двумя декодировщиками, графический процессор 5070 Ti оснащён двумя кодировщиками и одним декодировщиком, а графический процессор GeForce RTX 5070 оснащён одним кодировщиком и одним декодировщиком. Эти многоканальные кодировщики и декодировщики в сочетании с более быстрыми графическими процессорами позволяют GeForce RTX 5090 экспортировать видео на 60% быстрее, чем GeForce RTX 4090, и в 4 раза быстрее, чем GeForce RTX 3090.

Графические процессоры GeForce RTX 50-й серии также оснащены видеокодеком NVIDIA девятого поколения NVENC, который обеспечивает на 5% более высокое качество видео при кодировании HEVC и AV1 (BD-BR), а также новый режим AV1 Ultra Quality, который обеспечивает на 5% более высокую степень сжатия при том же качестве. Они также оснащены декодером NVIDIA шестого поколения, который в два раза быстрее декодирует видео H.264.
Начиная с февраля новые возможности аппаратного кодирования/декодирвоания от NVIDIA будут доступны в Adobe Premiere Pro, DaVinci Resolve, Capcut и Wondershare Filmora.

Новые графические процессоры RTX 50-й серии также поддерживают кодеки MV-HEVC, используемые для кодирования/декодирования 3D-видео, чтобы в ближайшем будущем можно было использовать такие форматы.

Улучшения стриминга в прямом эфире

Стриминг в прямом эфире — это жонглирование, когда стример должен развлекать аудиторию, вести шоу и играть в видеоигру — и всё это одновременно. Лучшие стримеры могут позволить себе нанять продюсеров и модераторов, чтобы разделить с ними нагрузку, но большинству приходится справляться с этими обязанностями самостоятельно и часто в режиме многосменной работы — до сих пор.

Streamlabs, бренд Logitech и поставщик программного обеспечения и инструментов для трансляции контента, сотрудничает с NVIDIA и Inworld AI для создания интеллектуального помощника для трансляции.

Интеллектуальный помощник для трансляции Streamlabs — это ИИ-агент, который может выступать в качестве ассистента, продюсера и технической поддержки. Ассистент может присоединяться к трансляциям в виде 3D-аватара, чтобы отвечать на вопросы, комментировать игровой процесс или чаты, а также помогать начинать разговоры в спокойные моменты. Он может помогать в создании трансляций, переключаясь на наиболее актуальные сцены и воспроизводя аудио- и видеосигналы в интересные моменты игрового процесса. Он может даже выступать в качестве помощника ИТ-специалиста, который помогает настраивать потоки и устранять неполадки.

Интеллектуальный помощник Streamlabs Streaming Assistant работает на базе технологий NVIDIA ACE для создания цифровых людей и Inworld AI — платформы искусственного интеллекта для агентского ИИ. Помощник будет доступен позднее в этом году.

Миллионы людей использовали приложение NVIDIA Broadcast, чтобы превратить офисы и комнаты в общежитиях в домашние студии с помощью функций на базе искусственного интеллекта, которые улучшают качество звука и видео без необходимости в дорогостоящем специализированном оборудовании.

В приложение NVIDIA Broadcast добавятся два новых бета-эффекта на основе ИИ.

Первая функция, Studio Voice, улучшает звук микрофона пользователя, чтобы он соответствовал звуку высококачественного микрофона. Вторая функция, Virtual Key Light, может освещать лицо объекта съёмки так, чтобы оно было равномерно освещено двумя источниками света.

Поскольку эти бета-функции используют сложные модели искусственного интеллекта, они рекомендуются для видеоконференций или прямых трансляций, не связанных с играми, с использованием графического процессора GeForce RTX 5080 или более поздней версии. NVIDIA работает над расширением этих функций для других графических процессоров GeForce RTX в будущих обновлениях.

Обновление NVIDIA Broadcast также включает обновлённый пользовательский интерфейс, который позволяет пользователям одновременно применять больше эффектов, а также улучшения в области удаления фонового шума, виртуального фона и эффектов зрительного контакта.

Эти графические процессоры поставляются с различными обновлениями ПО, в том числе с двумя новыми эффектами NVIDIA Broadcast на базе ИИ, обновлениями RTX Video и RTX Remix, а также микросервисами NVIDIA NIM — готовыми и оптимизированными моделями, созданными для ускорения рабочих процессов создания контента с помощью ИИ на ПК с RTX AI.

NVIDIA DLSS 4 предложит Multi Frame Generation улучшения для всех технологий DLSS

NVIDIA DLSS — это набор технологий нейронного рендеринга на базе тензорных ядер GeForce RTX, которые повышают частоту кадров, обеспечивая чёткие изображения высокого качества, сравнимые с рендерингом в родном разрешении, в более чем 700 играх и приложениях RTX.

На выставке CES 2025 была представлена DLSS 4 с функцией Multi Frame Generation для видеокарт GeForce RTX 50-й серии. 75 игр и приложений будут поддерживать функцию Multi Frame Generation после выхода.

DLSS Multi Frame Generation генерирует до трёх дополнительных кадров на каждый кадр, отображаемый традиционным способом, и работает в сочетании с полным набором технологий DLSS, увеличивая частоту кадров до 8 раз по сравнению с традиционным рендерингом. Благодаря такому значительному повышению производительности на видеокартах GeForce RTX 5090 можно играть в 4K с частотой 240 кадров в секунду и полной трассировкой лучей.

On the GeForce RTX 5090, DLSS 4 with Multi Frame Generation multiplies performance by over 8X versus traditional brute force rendering in this Cyberpunk 2077 scene, PC latency is halved for more responsive gameplay, and image quality is further enhanced

DLSS 4 также представляет собой крупнейшее обновление моделей искусственного интеллекта с момента выпуска DLSS 2.0 в 2020 году.

Наряду с выпуском GeForce RTX 50-й серии пользователи приложений NVIDIA смогут обновить игры и приложения, чтобы использовать эти улучшения.
75 игр и приложений с поддержкой DLSS, в которых используется генерация кадров, могут быть обновлены до Multi Frame Generation на графических процессорах GeForce RTX 50-й серии.

Для тех же игр функция Frame Generation получает обновление для графических процессоров GeForce RTX 50-й серии и GeForce 40-й серии, повышая производительность и снижая нагрузку на VRAM.

А на всех графических процессорах GeForce RTX игры с DLSS, реконструкцией лучей, сверхвысоким разрешением и DLAA можно обновить до новой модели DLSS.

DLSS Multi Frame Generation: приумножьте производительность с GPU серии GeForce RTX 50

DLSS 3 Frame Generation’s AI model использует игровые данные, такие как векторы движения и глубина, а также Optical Flow Accelerator в GeForce RTX 40-й серии для создания одного дополнительного кадра. Создание нескольких кадров было слишком затратным, поскольку для каждого нового сгенерированного кадра требовались и ускоритель оптического потока, и модель искусственного интеллекта, а затраты на производительность ограничивали работу графического процессора, что приводило к снижению частоты кадров.

DLSS 4 Multi Frame Generation объединяет несколько аппаратных средств Blackwell и программных инноваций в DLSS, чтобы сделать генерацию нескольких кадров реальностью.

Новая модель ИИ для создания кадров работает на 40% быстрее, использует на 30% меньше видеопамяти и запускается только один раз на кадр для создания нескольких кадров. Например, в игре Warhammer 40 000: Darktide эта модель обеспечила на 10% более высокую частоту кадров при использовании на 400 МБ меньше памяти при максимальных настройках 4K и DLSS для создания кадров.

Мы также ускорили создание поля оптического потока, заменив аппаратный оптический поток очень эффективной моделью ИИ. В совокупности модели ИИ значительно сокращают вычислительные затраты на создание дополнительных кадров.

Даже при такой эффективности графическому процессору всё равно необходимо выполнять 5 моделей искусственного интеллекта для суперразрешения, реконструкции лучей и создания нескольких кадров для каждого отрисованного кадра — и всё это за несколько миллисекунд, иначе DLSS Multi Frame Generation могла бы стать замедлителем. Для этого графические процессоры GeForce RTX 50-й серии оснащены тензорными ядрами 5-го поколения, производительность которых в 2,5 раза выше.

После создания новых кадров они равномерно распределяются по времени для обеспечения плавности. При создании кадров DLSS 3 используется неравномерное распределение по времени на основе процессора, что может приводить к неравномерному распределению кадров по времени между ними, влияя на плавность.

Чтобы справиться со сложностями, возникающими при создании нескольких кадров, Blackwell использует аппаратную функцию Flip Metering, которая переносит логику чередования кадров на механизм отображения, позволяя графическому процессору более точно управлять временем отображения. Механизм отображения Blackwell также был усовершенствован за счёт удвоенной производительности обработки пикселей для поддержания более высоких разрешений и частот обновления при использовании аппаратной функции Flip Metering с DLSS 4.

Благодаря совместному использованию наших новых аппаратных и программных инноваций DLSS 4 может генерировать 15 из каждых 16 пикселей с отличным качеством изображения, плавностью и задержкой.

В играх и приложениях DLSS 4 с генерацией нескольких кадров, реконструкцией лучей и сверхвысоким разрешением увеличивает частоту кадров до 8 раз по сравнению с рендерингом методом перебора и повышает частоту кадров до 1,7 раз при переходе с генерации одного кадра на генерацию нескольких кадров.

The New Transformer Model - Image Quality Improvements For All GeForce RTX Gamers

DLSS 4 — это значительное обновление архитектуры для DLSS Ray Reconstruction, DLSS Super Resolution и DLAA с первым в индустрии графики использованием модели на основе трансформера в режиме реального времени.

Ранее DLSS использовал свёрточные нейронные сети (CNN) для создания новых пикселей путём анализа локального контекста и отслеживания изменений в этих областях на последовательных кадрах. После шести лет непрерывных улучшений мы достигли предела возможностей архитектуры DLSS CNN.

Наша новая модель-трансформер в DLSS использует трансформер зрения, который позволяет оценивать относительную важность каждого пикселя во всём кадре и в нескольких кадрах одновременно. Новая модель, использующая вдвое больше параметров модели CNN для более глубокого понимания сцен, генерирует пиксели, которые обеспечивают большую стабильность, меньшее появление «призраков», более высокую детализацию в движении и более плавные края в сцене.

В контенте с интенсивной трассировкой лучей новая модель-трансформер для реконструкции лучей значительно повышает качество изображения, особенно в сценах со сложными условиями освещения. Например, в этих сценах из Alan Wake 2 повышается стабильность изображения на детально проработанном сетчатом заборе, уменьшается эффект ореола на лопастях вентилятора и устраняется мерцание на линиях электропередач, что улучшает погружение игрока в игру от третьего лица.

Модель-трансформер Super Resolution также показывает многообещающие результаты и будет выпущена в качестве бета-версии, чтобы пользователи могли изучить улучшения и оставить отзывы до официального релиза. Модель продемонстрировала более высокую временную стабильность, меньшее количество ореолов и более высокую детализацию в движении.

Новая архитектура модели-трансформера обеспечит многолетнюю возможность непрерывного улучшения качества изображений, как мы делали это с архитектурой CNN в течение последних 6 лет.

In Horizon Forbidden West™ Complete Edition, the new beta Super Resolution DLSS transformer model increases texture detail on Aloy's clothes and accessories, as well as overall clarity

Multi Frame Generation, и новые модели-трансформеры обратно совместимы с существующими интеграциями DLSS.

Когда видеокарты GeForce RTX 50-й серии появятся в магазинах, геймеры на GeForce RTX 50-й серии смогут повысить производительность с помощью DLSS Multi Frame Generation в 75 играх и приложениях, а все пользователи GeForce RTX смогут воспользоваться новыми функциями DLSS Ray Reconstruction, DLSS Super Resolution и DLAA в более чем 50 играх и приложениях.

В Alan Wake 2, Cyberpunk 2077, Indiana Jones and the Great Circle и Star Wars Outlaws будет добавлена встроенная поддержка DLSS Multi Frame Generation, когда будут выпущены графические процессоры GeForce RTX 50-й серии. Black Myth: Wukong, NARAKA: BLADEPOINT, Marvel Rivals, и Microsoft Flight Simulator 2024 последуют этому примеру в ближайшем будущем. А Black State, DOOM: The Dark Ages и Dune: Awakening уже доступны с DLSS Multi Frame Generation.

Для многих игр, которые ещё не обновились до последних моделей и функций DLSS, приложение NVIDIA включит поддержку с помощью новой функции DLSS Override. После установки нового драйвера GeForce Game Ready и последнего обновления приложения NVIDIA, а также после запуска графических процессоров GeForce RTX 50-й серии, в разделе Graphics > Program Settings в разделе «Driver Settings» для каждой поддерживаемой игры будут доступны следующие параметры DLSS Override.

Когда Frame Generation включено в игре, DLSS Override for Frame Generation — включает Multi Frame Generation для пользователей GeForce RTX 50-й серии.
DLSS Override for Model Presets — включает последнюю модель создания кадров для пользователей GeForce RTX 50-й и 40-й серий, а также модель-трансформер для суперразрешения и реконструкции лучей для всех пользователей GeForce RTX, когда DLSS включен в игре.
DLSS Override for Super Resolution — устанавливает внутреннее разрешение рендеринга для сверхвысокого разрешения DLSS, включая режим DLAA или Ultra Performance, когда в игре включено сверхвысокое разрешение.

Для обновления и улучшения игр достаточно нескольких кликов в приложении NVIDIA.

NVIDIA app DLSS Override game support will be expanded as we finish testing the new models in more titles.

NVIDIA DLSS 4: The Best Gets Better

NVIDIA DLSS произвела революцию в игровой индустрии благодаря постоянно совершенствующимся технологиям искусственного интеллекта, которые повышают производительность, улучшают качество изображения и расширяют возможности трассировки лучей, о чём никто и не мечтал, когда RTX и DLSS были впервые представлены в 2018 году. С выходом DLSS 4 вместе с графическими процессорами GeForce RTX 50-й серии все геймеры, использующие GeForce RTX на настольных компьютерах и ноутбуках, получат обновления, которые сделают их игры и приложения ещё лучше.

Технологии NVIDIA для креативных специалистов

В последние годы мы активно наблюдаем за развитием множества технологий, использующих возможности GPU для ускорения вычислений. Продукты NVIDIA являются стабильными лидерами в областях компьютерной графики, игр, обработки видео и ИИ. Все это достигнуто благодаря уникальному набору программного обеспечения и инструментов для разработчиков, предоставляющих доступ к вычислительным возможностям GPU и дополнительным компонентам ускорителей. Вокруг библиотек NVIDIA CUDA создано множество приложений и различных решений, ориентированных как на потребительский сегмент, например гейминг и креативных специалистов, так и на корпоративный и профессиональный, для САПР, высокопроизводительных вычислений и обработки больших объемов данных. Обо всем этом я неоднократно писал в своих статьях.

Но с момента выхода ускорителей RTX, мы активно используем возможности GPU для ускорения вычислений в алгоритмах трассировки лучей, новых приложениях с нейросетями и ИИ, а также как основу для многоцелевой платформы создания графики и дизайна.

На схеме ниже приведена общая концепция применения современных GPU и программного стека от NVIDIA для реализации персонализированной студии виртуального продакшена, востребованной среди индивидуальных создателей контента и медиа.

На одном персональном компьютере, инди-художники и создатели контента, могут создавать полноценные виртуальные студии. Используя возможности 3D-редакторов и платформы NVIDIA Omniverse или одного из популярных игровых движков, становится возможным создавать виртуальные пространства с ИИ-ассистентами. Используя технологии NVIDIA Audio2Face и NVIDIA ACE, создавать AI-персонажей с качественной анимацией лиц и действиями, а также связанными популярными сервисами наподобие ChatGPT, позволяя вести диалог или сопровождение в ходе трансляций или записи. Посредствам камеры и микрофона, выполняется запись видеопотока и аудио, могут быть использованы несколько камер и микрофонов, для захвата мимики и действий, а также диалога и передача этих данных в виртуальные модели персонажей или игровым аватарам. Впоследствии, видео с камер и стриминг из виртуальных студий объединяются в один поток в NVIDIA Broadcast и передается на стриминг-сервис, который посещают зрители.

В приложениях для интерактивной графики, особенно в игровых движках, таких как Unreal Engine есть поддержка технологий захвата мимики и лица, а также обработки голоса от NVIDIA. Модели наполняющие виртуальное пространства, создаются как с помощью 3D-редакторов, наподобие Autodesk Maya, Blender, так и подготавливаются в виде соответствующих ассетов. И все это может быть выполнено на одной системе с одним или даже несколькими GPU.
Благодаря возможностям платформы NVIDIA Omniverse художники могут создавать с помощью генеративных нейросетей в инструментов Omniverse пространства, а впоследствии наполнять их аватарами или использовать как фоны.

Я надумал провести несколько экспериментов с технологиями и воссоздать описанную выше концепцию. Но это будет история отдельных постов ;-) , а в завершении нашего вводного материала, мы поговорим о технических характеристиках новых GPU NVIDIA GeForce RTX 50-серии.

Характеристики ускорителей NVIDIA GeForce RTX 50-серии

Как и архитектура NVIDIA Ada Lovelace, архитектура NVIDIA Blackwell RTX (2.0), оптимизированы для применения в ускорителях для десктопов и рабочих станций. В отличие от корпоративных решений и решений для дата-центров, которые разработаны для решения узкоспециализированных, но требовательных к высокой производительности задач. Решения для персональных систем и серверов, требуют иного подхода, но при этом, могут получить больше потоковых мультипроцессоров и вычислительных ядер, в частности новая архитектура, для повышения производительности вычислений получает обновленные CUDA Cores, Tensor Cores и RT Cores.

Помимо этого, для увеличения пропускной способности в обмене данными между CPU и GPU, а также ОЗУ и SSD-накопителями, в NVIDIA GeForce RTX 50-серии применили шину PCI-Express 5.0, что предоставляет возможность использовать эти GPU с новейшими процессорами Intel и AMD.

Сводная таблица характеристик GPU NVIDIA GeForce RTX 30, 40 и 50 серии.

По доступным на текущий момент сведениям, и если проводить сравнение с GPU предыдущих поколений, можно увидеть, что ускорители 50-ой серии значительно отличаются по количеству вычислительных ядер в наиболее производительных моделях.

К примеру, взглянем на RTX 5090 и сравним ее с моделями RTX 4090 и RTX 3090.

Особо значительное различие в общем количестве CUDA Cores, в GPU RTX 5090 использовано 21760 ядер, в то время как в GPU RTX 4090 использовано 16384 ядер, что на 32.81% больше GPU на базе архитектуры Ada Lovelace. Если сравнить с все еще популярными GPU на базе архитектуры Ampere, то GPU NVIDIA RTX 3090 Ti меньше GPU NVIDIA RTX 5090 на 50.6%. Но важным изменением, является значительное увеличение кэша L2 в сравнении чипами на базе архитектуры NVIDIA Ampere. Если у GeForce RTX 3090 Ti было доступно 6 MB L2 Cache, то GeForce RTX 5090 на архитектуре NVIDIA Blackwell предоставлено 88 MB L2 Cache. Еще с выходом архитектуры GPU Ada Lovelace, объем кэша L2 был увеличен до 72 MB, сейчас, в архитектуре NVIDIA Blackwell, L2 Cache был увеличен на 16 MB, что обеспечило достаточный объем кэша для увеличенного количества ядер.

Но если говорить о моделях среднего уровня, где количество ядер CUDA, тензорных ядер и RT ядер изменилось незначительно, то в данных моделях GPU L2 Cache остался практически без изменений. Кардинальные отличия заметны только от архитектуры Ampere, где L2 Cache значительно меньше из-за особенностей самой архитектуры GPU.

Также, применение нового типа памяти GDDR7 и шины в 512-bit требуют наличия 16 32-бит контроллеров памяти. Увеличение кэша L2 и скорости шины PCI Express предоставляют возможность более высокой скорости обмена данными между компонентами системы, а увеличенный объем графической памяти, загружать больший объем данных.

Благодаря новой памяти GDDR7 производительность ускорителей среднего ценового сегмента за счет повышенной частоты и пропускной способности памяти, а также благодаря повышению частоты GPU.

Но в целом, на производительность и ее повышение нужно смотреть не только через призму производительности оборудования, но также учитывать возможности и оптимизацию ПО. Архитектура NVIDIA Blackwell, обещает повышение производительности благодаря поддержке FP4, благодаря меньшим размерам вычисляемых блоков информации и оптимизированной компрессии, а также профильной адаптации тензорных ядер для работы с FP4, предоставило возможность в повышении производительности. Хоть это и является определенным “трюком” инженеров.

Первые тесты GeForce RTX 50-серии

В сети уже есть результаты первых тестов, нельзя конечно говорить о том, что они показывают истинную производительность, так как даже драйвер находится на стадии beta-тестирования, но общую оценку по доступной информации уже можно провести.

Как я уже говорил выше, как только появится возможность протестировать новые GPU, я сделаю собственные тесты и сравню с результатами предыдущих обзоров.

Первым тестом, показавшим вычислительную производительность новых ускорителей, является Blender Benchmark. В общей базе данных Blender Benchmark можно найти результаты тестов новых моделей ускорителей как с помощью ядра Cycles 4.3, так и с помощью Cycles 3.6.

Результаты первых тестов в Blender Benchmark.

Прямые тесты из базы данных результатов Blender Benchmark показывают, что новый ускоритель NVIDIA GeForce RTX 5090 в тесте с ядром Blender Cycles 4.3 показывает прирост производительности в тесте на 35.56% если сравнивать с NVIDIA GeForce RTX 4090. Если же сравнивать с NVIDIA GeForce RTX 3090 Ti, то новый GPU от NVIDIA показывает на 171.38% большую производительность относительно результата RTX 3090 Ti.

Второй тест использует ядро Blender Cycles 3.6 LTS. В данном случае мы получаем результат, где RTX 5090 на 36.36% производительнее NVIDIA GeForce RTX 4090, и на 171.19% производительнее RTX 3090 Ti.

В данных тестах, разница производительности в % от наименьшего числа.

Прирост производительности можно хорошо объяснить как повышением частоты GPU, так и увеличенным объемом L2 Cache, и новой графической памятью GDDR7 с повышенной частотой и пропускной способности шины. Но к сожалению, в тесте не указаны остальные компоненты, такие как CPU и накопители, что также влияет на результат в тесте.

На ресурсе videocardz был опубликован результат тестирования с помощью набора 3D Mark.

Результаты первых тестов в 3D Mark.

В сообщении коллег, говорится, что это первый обзор архитектуры Blackwell, который предлагает первоначальный, хотя и несколько дорогой, взгляд на серию RTX 50.

Были собраны данные от нескольких обозревателей, которые недавно завершили тестирование видеокарты в синтетических тестах. Авторы отмечают, что данные точны и подтверждены несколькими источниками, синтетические тесты, как правило, показывают более высокую производительность, чем игровые сценарии для RTX 5090.

В среднем, по словам обозревателей, с которыми общались коллеги, геймеры могут рассчитывать на 20-процентное повышение производительности по сравнению с RTX 4090. Однако этот показатель может значительно варьироваться в зависимости от игры, разрешения и настроек. В синтетических тестах эти показатели выше: 36% в FireStrike (Performance/Extreme/Ultra), 33% в TimeSpy (Performance/Extreme) и 46% в других тестах (Speed Way, Port Royal, Steel Nomad).

В графике выше, были использованы официальные результаты 3DMark для 4090, 4080S и 7900XTX. Приведенный результат для RTX 5090 представляет собой среднее значение трёх обзоров с использованием новейших конфигураций Intel и AMD.

Как заключение

В подведении итогов. Я как-то пропустил 40-ую серию GeForce RTX, по понятным причинам не до видеокарт было. Но тесты периодически выполнял, и в целом, архитектура NVIDIA Ada Lovelace показала себя очень достойно, на ее основе были выпущены не только игровые ускорители, но и обновлена вся линейка профессиональных ускорителей.

NVIDIA Blackwell является закономерным продолжением развития архитектуры GPU, ориентированной на ускорение вычислений в задачах связанных с обучением нейронных сетей и обработкой данных, при этом, не забывая про возможности обеспечения повышения производительности в основной области применения - игры и интерактивные приложения. Качество графики с каждым годом становится все выше и выше, повышается детализация, и качество освещения, а поддержка трассировки луча, выполняемой в режиме реального времени, существенно повышает визуальное взаимодействие с виртуальным миром.

Одной из самых интересных разработок является NVIDIA DLSS 4 и возможность генерации не одного, а нескольких кадров, сейчас, архитектура NVIDIA Blackwell с оптимизацией тензорных вычислений и поддержкой FP4 позволяет быстрее обрабатывать изображение и готовить новые кадры. Для снижения проблемы скорости отклика, благодаря новой версии NVIDIA Reflex удалось компенсировать эту проблему, которая особенно заметна при генерации целых 3 кадров.

В процессе трассировки луча, полезной будет функция Ray Reconstruction, нашедшая применение даже в профессиональных приложениях, например в D5 Render, также поддержка будет реализована и в системе визуализации Chaos Vantage.

Я буду следить за развитием GPU на новой архитектуре, поговаривают будут модели еще более производительные, а линейка профессиональных GPU может быть пополнена ускорителем с объемом графической памяти, составляющим 96 ГБ.