Logo

NVIDIA: Как Софт Укрепляет Доминирование на Рынке ИИ-ускорителей?

Дилан Пател из SemiAnalysis: ПО, а не только железо, даёт NVIDIA многомерное преимущество. Утилизация H100 выросла на 57% за год благодаря ПО; GB200 NVL72 пока "сырой".

19 жовтня 2025 р., 18:56
7 мин чтения

Софт как неочевидное преимущество: Как NVIDIA укрепляет доминирование на рынке ИИ-ускорителей

В условиях стремительного развития технологий искусственного интеллекта (ИИ) и масштабного внедрения больших языковых моделей (LLM) отрасль микросхем переживает настоящую революцию. На первый взгляд, основным полем битвы за лидерство в этом сегменте представляется аппаратное обеспечение, где такие компании, как Groq, Cerebras и Etched, активно создают собственные чипы в качестве альтернативы графическим процессорам (GPU) NVIDIA. Однако более глубокий анализ раскрывает, что истинное стратегическое преимущество NVIDIA заключается не только в железе, но и в тщательно построенной программной экосистеме.

Дилан Пател, основатель уважаемой аналитической компании SemiAnalysis, выразил скептицизм относительно перспектив серьёзной конкуренции с NVIDIA в ближайшем будущем. В недавнем подкасте «No Priors» Пател подчеркнул, что «зеленый гигант» обладает многомерным преимуществом: от значительной наценки на продукцию, позволяющей гибко формировать цены, до оптимизированных цепочек поставок и огромных объёмов производства, что обеспечивает более низкую себестоимость. Тем не менее, ключевой актив NVIDIA, по его словам, - это программное обеспечение, которое даёт компаниям возможность эффективно обучать и применять LLM.

Роль программного обеспечения в производительности GPU

Пател уже давно указывал на то, что инженеры AMD не уступают по квалификации, а аппаратные характеристики их видеокарт сопоставимы с NVIDIA. Однако при масштабировании использования на сотни или тысячи карт производительность AMD существенно падает из-за недостатков в программном обеспечении. Иными словами, AMD инвестирует в создание передового «железа», но не может раскрыть его весь потенциал вследствие слабости в ПО.

Для иллюстрации важности программного фактора SemiAnalysis опубликовала данные замеров, показывающие эффект от улучшения софта NVIDIA. Исследователи проводили тренировку аналога GPT-3 (крупной модели без использования «микстуры экспертов», что сегодня редкость) с применением актуальных версий библиотек, выпускавшихся с января по декабрь 2024 года. В экспериментах использовались GPU H100, уже год находившиеся на рынке и активно внедряемые в дата-центры. Казалось бы, программное обеспечение должно было быть доработано к моменту старта эксперимента.

Результаты продемонстрировали поразительный рост эффективности: утилизация пиковых флопсов GPU (MFU - model flops utilization) возросла с 34 % до 54 % за год, что составляет относительное увеличение в 57 %. Примечательно, что изменения в аппаратной части отсутствовали; прирост производительности был достигнут исключительно за счёт обновления драйверов и библиотек. Основные улучшения, согласно отчёту, наблюдались в библиотеках CuDNN/CuBLAS и NCCL. При использовании формата FP8 MFU вырос с 29,5 % до 39,5 %, демонстрируя 34 % прирост. Тренировка проводилась на 128 GPU.

Практическое значение этих цифр огромно. Помимо очевидного снижения расходов на обучение моделей, такие гиганты, как OpenAI, Anthropic и Google, крайне заинтересованы в максимизации эффективности своего оборудования. Если даже небольшие архитектурные приёмы могут улучшить обучение на 3-5 %, то повышение производительности на десятки процентов за счёт оптимизации ПО представляет собой колоссальную экономию, измеряемую сотнями миллионов и миллиардами долларов при масштабных запусках. Специалисты, способные к такой оптимизации, пользуются огромным спросом.

Проблемы внедрения и перспективы новых поколений GPU

В то время как программные улучшения раскрывают потенциал существующих систем, новое оборудование, такое как GB200 NVL72, сталкивается с начальными трудностями внедрения. По данным SemiAnalysis, эти системы, только начавшие поступать на рынок и в дата-центры, в настоящее время применяются преимущественно для инференса и отладки, а не для обучения моделей. Одна из причин - ещё не отточенный программный стек. Более того, наблюдаются проблемы с надёжностью оборудования; в одной стойке на 72 GPU частота отказов требует, чтобы восемь соседних карт находились в резерве для оперативной замены вышедших из строя.

На текущий момент эффективность GB200 NVL72 в пересчёте на доллар лишь сравнялась с H100; весной она была ниже из-за «сырого» ПО NVIDIA. По прогнозам NVIDIA, которые разделяют аналитики SemiAnalysis, к концу 2025 года GB200 должен стать в 2,7 раза эффективнее H100 с точки зрения «доллар за единицу вычислений», несмотря на существенно более высокую стоимость GB200. Ожидается, что после стабилизации программного стека и повышения надёжности их начнут использовать для обучения передовых моделей.

SemiAnalysis подчёркивает, что отсутствие крупномасштабных тренировочных операций на GB200 NVL72 сегодня означает, что NVIDIA H100 и H200, а также Google TPU, остаются единственными GPU, успешно применяемыми для обучения моделей в масштабе «фронтира».

Ответ конкурентов: Программные инновации за пределами NVIDIA

Хотя NVIDIA сохраняет доминирующее положение, конкуренция в области программного обеспечения также растёт. Проект StringZilla v4, представленный Эшем Варданяном, демонстрирует значительные успехи в оптимизации обработки строк. StringZilla v4, библиотека с открытым исходным кодом под лицензией Apache 2.0, теперь поддерживает CUDA и ориентирована на SIMD-операции, достигая впечатляющих результатов. Например, в тестах на расстояние Левенштейна StringZilla::LevenshteinDistances на NVIDIA H100 достигает 624 730 MCUPS (млн обновлений ячеек в секунду), что в 46 раз быстрее cudf.edit_distance для строк длиной около 1 000 байт и в 109 раз быстрее для строк длиной около 10 000 байт.

Это указывает на то, что даже в специфических, но вычислительно-интенсивных задачах программные оптимизации могут радикально изменить ландшафт производительности. В биоинформатике, где расстояние Левенштейна и алгоритмы Смита-Ватермана с расширениями Гото используются для сравнения ДНК и белков, StringZilla с GPU-ускорением демонстрирует до 10 098 MCUPS против 303 MCUPS у biopython.

Разработки StringZilla также включают высокоэффективные некриптографические хеш-функции (XXH3, MurMurHash, aHash), которые превосходят memcpy за счёт использования «невременных» хранилищ, записывающих данные непосредственно в ОЗУ, минуя кэши CPU, что уменьшает их загрязнение и повышает энергоэффективность. В тестах на хеширование длинных строк StringZilla достигает 11,23 ГиБ/с, опережая xxh3::xxh3_64 (9,48 ГиБ/с) и aHash::hash_one (8,61 ГиБ/с).

В области генераторов псевдослучайных чисел sz::fill_random показывает производительность 17,30 ГиБ/с для строк около 100 байт, значительно превосходя rand_xoshiro::Xoshiro128Plus (2,66 ГиБ/с). В MinHash для фингерпринтинга биологических последовательностей szs::Fingerprints на одном GPU достигает 392,37 MiB/s, тогда как последовательный MinHash всего 0,47 MiB/s.

Эти примеры подтверждают, что программные инновации способны существенно повысить производительность даже на уже существующих аппаратных платформах, создавая новые вызовы для доминирующего игрока.

Вызовы китайских конкурентов и будущее индустрии

На международной арене, помимо американских технологических гигантов, Китай активно стремится догнать лидеров. Такие компании, как Huawei, Baidu и Alibaba, разрабатывают собственные процессоры для ИИ. Джордан Нанос из SemiAnalysis ставит Huawei в ряд серьёзных конкурентов NVIDIA наряду с Google и Amazon, опережающих AMD. Несмотря на то что китайские производители сталкиваются с ограничениями на экспорт передовых американских чипов, эксперты отмечают, что со временем и при наличии значительных инвестиций и квалифицированных кадров Китай сможет создать собственные современные производственные мощности.

Тем не менее, большинство аналитиков не предвидят ослабления доминирования NVIDIA в ближайшем будущем. Джон Белтон из Ernst & Young констатирует, что NVIDIA является основой большинства современных ИИ-приложений, постоянно выпускает новые продукты и поддерживает темп, который трудно выдержать конкурентам. Объявление NVIDIA о выходе новой линейки Rubin к концу 2026 года с производительностью, в 7,5 раз превышающей текущий флагман Blackwell, лишь подтверждает эту тенденцию.

В конечном итоге успех в гонке ИИ-ускорителей определяется не только мощью железа, но и сложной синергией между «железом» и отлаженным, постоянно совершенствующимся программным стеком. Пока NVIDIA продолжает демонстрировать мастерство в обоих этих направлениях, её лидерство остаётся неоспоримым, однако стимулы для программных инноваций со стороны конкурентов, таких как StringZilla, показывают возможные пути перераспределения сил на отдельных нишевых рынках.

Вопросы и ответы

Софт как неочевидное преимущество: Как NVIDIA укрепляет доминирование на рынке ИИ-ускорителей
Роль программного обеспечения в производительности GPU
Проблемы внедрения и перспективы новых поколений GPU
Ответ конкурентов: Программные инновации за пределами NVIDIA
Вызовы китайских конкурентов и будущее индустрии