Дилан Пател из SemiAnalysis: ПО, а не только железо, даёт NVIDIA многомерное преимущество. Утилизация H100 выросла на 57% за год благодаря ПО; GB200 NVL72 пока "сырой".
Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк, нацеленной в первую очередь на SIMD.
The NVIDIA GB200 NVL72 offers up to 13.5 TB of HBM3e memory, while the NVIDIA H100 has 80 GB of HBM3 memory. The GB200 NVL72 provides significantly more memory ...
Более того, Nvidia является «трёхголовым драконом», как недавно выразился Дилан Пател, глава консультационной фирмы SemiAnalysis, на подкасте « ...
H100 extends NVIDIA's market-leading inference leadership with several advancements that accelerate inference by up to 30X and deliver the lowest latency.
This is primarily driven by the fact that the GB200 chip consumes 1200W per chip vs 700W for the H100. Source: SemiAnalysis. When factoring in ...
... Competition: The Huawei Threat 22:32 Jensen's Next Move: Nvidia's ... A Deep Dive into NVIDIA Blackwell with SemiAnalysis' Dylan Patel.
В условиях стремительного развития технологий искусственного интеллекта (ИИ) и масштабного внедрения больших языковых моделей (LLM) отрасль микросхем переживает настоящую революцию. На первый взгляд, основным полем битвы за лидерство в этом сегменте представляется аппаратное обеспечение, где такие компании, как Groq, Cerebras и Etched, активно создают собственные чипы в качестве альтернативы графическим процессорам (GPU) NVIDIA. Однако более глубокий анализ раскрывает, что истинное стратегическое преимущество NVIDIA заключается не только в железе, но и в тщательно построенной программной экосистеме.
Дилан Пател, основатель уважаемой аналитической компании SemiAnalysis, выразил скептицизм относительно перспектив серьёзной конкуренции с NVIDIA в ближайшем будущем. В недавнем подкасте «No Priors» Пател подчеркнул, что «зеленый гигант» обладает многомерным преимуществом: от значительной наценки на продукцию, позволяющей гибко формировать цены, до оптимизированных цепочек поставок и огромных объёмов производства, что обеспечивает более низкую себестоимость. Тем не менее, ключевой актив NVIDIA, по его словам, - это программное обеспечение, которое даёт компаниям возможность эффективно обучать и применять LLM.
Пател уже давно указывал на то, что инженеры AMD не уступают по квалификации, а аппаратные характеристики их видеокарт сопоставимы с NVIDIA. Однако при масштабировании использования на сотни или тысячи карт производительность AMD существенно падает из-за недостатков в программном обеспечении. Иными словами, AMD инвестирует в создание передового «железа», но не может раскрыть его весь потенциал вследствие слабости в ПО.
Для иллюстрации важности программного фактора SemiAnalysis опубликовала данные замеров, показывающие эффект от улучшения софта NVIDIA. Исследователи проводили тренировку аналога GPT-3 (крупной модели без использования «микстуры экспертов», что сегодня редкость) с применением актуальных версий библиотек, выпускавшихся с января по декабрь 2024 года. В экспериментах использовались GPU H100, уже год находившиеся на рынке и активно внедряемые в дата-центры. Казалось бы, программное обеспечение должно было быть доработано к моменту старта эксперимента.
Результаты продемонстрировали поразительный рост эффективности: утилизация пиковых флопсов GPU (MFU - model flops utilization) возросла с 34 % до 54 % за год, что составляет относительное увеличение в 57 %. Примечательно, что изменения в аппаратной части отсутствовали; прирост производительности был достигнут исключительно за счёт обновления драйверов и библиотек. Основные улучшения, согласно отчёту, наблюдались в библиотеках CuDNN/CuBLAS и NCCL. При использовании формата FP8 MFU вырос с 29,5 % до 39,5 %, демонстрируя 34 % прирост. Тренировка проводилась на 128 GPU.
Практическое значение этих цифр огромно. Помимо очевидного снижения расходов на обучение моделей, такие гиганты, как OpenAI, Anthropic и Google, крайне заинтересованы в максимизации эффективности своего оборудования. Если даже небольшие архитектурные приёмы могут улучшить обучение на 3-5 %, то повышение производительности на десятки процентов за счёт оптимизации ПО представляет собой колоссальную экономию, измеряемую сотнями миллионов и миллиардами долларов при масштабных запусках. Специалисты, способные к такой оптимизации, пользуются огромным спросом.
В то время как программные улучшения раскрывают потенциал существующих систем, новое оборудование, такое как GB200 NVL72, сталкивается с начальными трудностями внедрения. По данным SemiAnalysis, эти системы, только начавшие поступать на рынок и в дата-центры, в настоящее время применяются преимущественно для инференса и отладки, а не для обучения моделей. Одна из причин - ещё не отточенный программный стек. Более того, наблюдаются проблемы с надёжностью оборудования; в одной стойке на 72 GPU частота отказов требует, чтобы восемь соседних карт находились в резерве для оперативной замены вышедших из строя.
На текущий момент эффективность GB200 NVL72 в пересчёте на доллар лишь сравнялась с H100; весной она была ниже из-за «сырого» ПО NVIDIA. По прогнозам NVIDIA, которые разделяют аналитики SemiAnalysis, к концу 2025 года GB200 должен стать в 2,7 раза эффективнее H100 с точки зрения «доллар за единицу вычислений», несмотря на существенно более высокую стоимость GB200. Ожидается, что после стабилизации программного стека и повышения надёжности их начнут использовать для обучения передовых моделей.
SemiAnalysis подчёркивает, что отсутствие крупномасштабных тренировочных операций на GB200 NVL72 сегодня означает, что NVIDIA H100 и H200, а также Google TPU, остаются единственными GPU, успешно применяемыми для обучения моделей в масштабе «фронтира».
Хотя NVIDIA сохраняет доминирующее положение, конкуренция в области программного обеспечения также растёт. Проект StringZilla v4, представленный Эшем Варданяном, демонстрирует значительные успехи в оптимизации обработки строк. StringZilla v4, библиотека с открытым исходным кодом под лицензией Apache 2.0, теперь поддерживает CUDA и ориентирована на SIMD-операции, достигая впечатляющих результатов. Например, в тестах на расстояние Левенштейна StringZilla::LevenshteinDistances на NVIDIA H100 достигает 624 730 MCUPS (млн обновлений ячеек в секунду), что в 46 раз быстрее cudf.edit_distance для строк длиной около 1 000 байт и в 109 раз быстрее для строк длиной около 10 000 байт.
Это указывает на то, что даже в специфических, но вычислительно-интенсивных задачах программные оптимизации могут радикально изменить ландшафт производительности. В биоинформатике, где расстояние Левенштейна и алгоритмы Смита-Ватермана с расширениями Гото используются для сравнения ДНК и белков, StringZilla с GPU-ускорением демонстрирует до 10 098 MCUPS против 303 MCUPS у biopython.
Разработки StringZilla также включают высокоэффективные некриптографические хеш-функции (XXH3, MurMurHash, aHash), которые превосходят memcpy за счёт использования «невременных» хранилищ, записывающих данные непосредственно в ОЗУ, минуя кэши CPU, что уменьшает их загрязнение и повышает энергоэффективность. В тестах на хеширование длинных строк StringZilla достигает 11,23 ГиБ/с, опережая xxh3::xxh3_64 (9,48 ГиБ/с) и aHash::hash_one (8,61 ГиБ/с).
В области генераторов псевдослучайных чисел sz::fill_random показывает производительность 17,30 ГиБ/с для строк около 100 байт, значительно превосходя rand_xoshiro::Xoshiro128Plus (2,66 ГиБ/с). В MinHash для фингерпринтинга биологических последовательностей szs::Fingerprints на одном GPU достигает 392,37 MiB/s, тогда как последовательный MinHash всего 0,47 MiB/s.
Эти примеры подтверждают, что программные инновации способны существенно повысить производительность даже на уже существующих аппаратных платформах, создавая новые вызовы для доминирующего игрока.
На международной арене, помимо американских технологических гигантов, Китай активно стремится догнать лидеров. Такие компании, как Huawei, Baidu и Alibaba, разрабатывают собственные процессоры для ИИ. Джордан Нанос из SemiAnalysis ставит Huawei в ряд серьёзных конкурентов NVIDIA наряду с Google и Amazon, опережающих AMD. Несмотря на то что китайские производители сталкиваются с ограничениями на экспорт передовых американских чипов, эксперты отмечают, что со временем и при наличии значительных инвестиций и квалифицированных кадров Китай сможет создать собственные современные производственные мощности.
Тем не менее, большинство аналитиков не предвидят ослабления доминирования NVIDIA в ближайшем будущем. Джон Белтон из Ernst & Young констатирует, что NVIDIA является основой большинства современных ИИ-приложений, постоянно выпускает новые продукты и поддерживает темп, который трудно выдержать конкурентам. Объявление NVIDIA о выходе новой линейки Rubin к концу 2026 года с производительностью, в 7,5 раз превышающей текущий флагман Blackwell, лишь подтверждает эту тенденцию.
В конечном итоге успех в гонке ИИ-ускорителей определяется не только мощью железа, но и сложной синергией между «железом» и отлаженным, постоянно совершенствующимся программным стеком. Пока NVIDIA продолжает демонстрировать мастерство в обоих этих направлениях, её лидерство остаётся неоспоримым, однако стимулы для программных инноваций со стороны конкурентов, таких как StringZilla, показывают возможные пути перераспределения сил на отдельных нишевых рынках.
Недавно я выпустил StringZilla v4 — первый релиз с поддержкой CUDA моей библиотеки для обработки строк, нацеленной в первую очередь на SIMD.
The NVIDIA GB200 NVL72 offers up to 13.5 TB of HBM3e memory, while the NVIDIA H100 has 80 GB of HBM3 memory. The GB200 NVL72 provides significantly more memory ...
Более того, Nvidia является «трёхголовым драконом», как недавно выразился Дилан Пател, глава консультационной фирмы SemiAnalysis, на подкасте « ...
H100 extends NVIDIA's market-leading inference leadership with several advancements that accelerate inference by up to 30X and deliver the lowest latency.
This is primarily driven by the fact that the GB200 chip consumes 1200W per chip vs 700W for the H100. Source: SemiAnalysis. When factoring in ...
... Competition: The Huawei Threat 22:32 Jensen's Next Move: Nvidia's ... A Deep Dive into NVIDIA Blackwell with SemiAnalysis' Dylan Patel.
Вопросы и ответы