Logo

Китайский DeepSeek-R1 Против OpenAI: Как $15 Миллионов Изменили Правила Игры в ИИ

Китайский DeepSeek-R1, опубликованный в Nature, бросает вызов OpenAI: модель обучена за $15 млн, пока Сэм Альтман признает давление, а OpenAI начинает расследование.

10 жовтня 2025 р., 08:33
6 мин чтения

DeepSeek-R1: Свежая эра доступности больших языковых моделей и вызов гегемонии OpenAI

Выпуск DeepSeek-R1, модели искусственного интеллекта от китайской компании DeepSeek, опубликованный в авторитетном научном журнале Nature 9 октября 2025 года, предвещает существенные изменения в ландшафте больших языковых моделей (LLM). Эта система, предлагающая производительность, сравнимую с ведущими проприетарными решениями при значительно сниженных затратах, ставит под вопрос устоявшуюся парадигму развития ИИ, возглавляемую OpenAI.

Примечательно, что DeepSeek-R1 уже возглавила рейтинг загрузок в американском App Store, подтверждая интерес пользователей к её возможностям. Конкурентное давление растёт: Сэм Альтман, генеральный директор OpenAI, назвал DeepSeek-R1 «впечатляющей моделью, особенно с учётом её стоимости», признал в посте на X, что её появление мотивирует OpenAI ускорить выпуск собственных продуктов. Тем не менее, напряжение между двумя игроками стало очевидным: 9 октября 2025 года OpenAI начала расследование относительно возможного обучения DeepSeek своей модели посредством многократных запросов к системам OpenAI.

Архитектурные инновации и экономическая эффективность

Ключевое отличие DeepSeek-R1 состоит в подходе к обучению и разработке, который радикально уменьшает издержки, сохраняя при этом высокую продуктивность. По данным The Wall Street Journal, DeepSeek сократила объёмы обработки данных, используя как собственные разработки, так и методики, адаптированные от других китайских компаний. Люк Арригони, генеральный директор Loti AI, отметил, что хотя применённые DeepSeek методы не новы, «их использование в таком масштабе и с такой уверенностью стало действительно новаторским».

DeepSeek-R1 реализует несколько основных технологических решений:

  • Смесь экспертов (MoE): Приём, позволяющий модели динамически активировать только релевантные подмодели (экспертов) для обработки конкретных запросов, что существенно повышает эффективность использования вычислительных ресурсов.
  • Цепочка рассуждений (CoT): Как объясняет Линь Цяо, генеральный директор и сооснователь AI-стартапа Fireworks AI, этот метод позволяет модели решать комплексные задачи поэтапно. Хотя модель OpenAI o1 также применяет CoT, DeepSeek-R1 отличается тем, что она не только демонстрирует ход рассуждений, но и может использовать эти данные для обучения более компактных ИИ-моделей. Это критическое преимущество для создания специализированных и эффективных систем, применимых на периферийных устройствах.
  • Оптимизированные наборы данных: DeepSeek сосредоточена на высококачественных, предметно-ориентированных наборах, устраняя избыточные или низкоценные входные данные. Такой подход обеспечивает более быструю сходимость и сокращает количество эпох обучения, как отмечается в анализе, опубликованном 27 января 2025 года в medium.com/@nrgore1/deepseek-vs-openai-a-comparative-analysis-of-llm-development-and-cost-efficiency-a8534f32c9a8.
  • Проприетарные аппаратные ускорители: Компания разработала специализированные ускорители, оптимизированные для архитектуры их моделей. Эти энергоэффективные устройства, предназначенные для тензорных операций, позволяют сократить расходы на электроэнергию и оборудование почти на 40 %.
  • Методы сжатия моделей: DeepSeek использует инновационные техники сжатия, включая оптимизацию разреженных матриц (sparse matrix optimizations) и квантование (quantization), что уменьшает потребность в памяти и вычислительных ресурсах без значительной потери точности.

По оценкам, OpenAI затратила более 100 млн долларов на обучение GPT-4, тогда как DeepSeek достигла сопоставимых результатов для R1 с бюджетом около 15 млн долларов. Эти цифры подчёркивают большую разницу в издержках разработки: DeepSeek-R1 обходится в 0,55 доллара за миллион входных токенов против 30 долларов у GPT-4, и 2,19 доллара за миллион выходных токенов по сравнению с 60 долларами у GPT-4.

Сравнительный анализ производительности и возможностей

DeepSeek-R1 обладает заметно большим окном контекста - 128 K токенов, в отличие от 8192 токенов у GPT-4, а также способна генерировать до 32 K выходных токенов за один запрос, что вчетверо превышает максимум GPT-4. DeepSeek-R1 дебютировала 20 января 2025 года, тогда как GPT-4 была запущена 12 июня 2023 года.

В эталонных тестах DeepSeek-R1 продемонстрировала конкурентоспособные результаты:

  • MMLU (Massive Multitask Language Understanding): DeepSeek-R1 превышает GPT-4 с 90,8 % (Pass@1) против 86,4 % (5-shot) у GPT-4.
  • MMLU-Pro: На более сложном тесте DeepSeek-R1 показывает 84 % EM, тогда как у GPT-4 данные отсутствуют.
  • GPQA (PhD-level knowledge in sciences): DeepSeek-R1 достигает 71,5 % (Pass@1), подтверждая свою компетентность в специализированных областях.
  • IFEval (instruction-following abilities): DeepSeek-R1 набирает 83,3 %.

Однако GPT-4 сохраняет лидерство в некоторых аспектах:

  • MMMU (мультимодальное понимание): GPT-4 достигает 34,9 %, у DeepSeek-R1 данные не представлены.
  • HellaSwag (завершение предложений): GPT-4 лидирует с 95,3 % (10-shot).
  • HumanEval (генерация кода): GPT-4 показывает 67 % (0-shot).

В целом, обе модели, o1 от OpenAI и R1 от DeepSeek, способны выполнять задачи, требующие рассуждений, такие как написание бизнес-планов или создание кроссвордов. Исследователи DeepSeek утверждают, что R1 продемонстрировала «очень конкурентоспособные результаты» по сравнению с ведущими моделями OpenAI, в том числе в тестах на программирование, разработанных самой OpenAI. Важно отметить, что R1 показала производительность, сравнимую с o1, и превзошла более раннюю версию o1-mini.

Открытость против проприетарности: идеологический раскол

DeepSeek выпустила «веса» своей модели R1, сделав её доступной для свободного скачивания, использования и модификации. Этот шаг делает R1 привлекательной для разработчиков, поскольку позволяет развертывать её на собственных серверах или серверах в США. Люк Ким, генеральный директор стартапа Liner, заявил, что его компания рассматривает возможность применения R1 благодаря её открытому коду и возможности лёгкой замены на другие ИИ-модели. Платформа Hugging Face сообщает о 3,2 млн загрузок сообществом моделей R1.

OpenAI, напротив, использует проприетарный подход для своей модели o1. Это означает, что доступ к модели и её функциям платный. Хотя закрытые технологии иногда предпочитаются из-за проверенных механизмов кибербезопасности, решения с открытым исходным кодом обеспечивают большую гибкость и возможность кастомизации.

Тем не менее, полная открытость DeepSeek-R1 остаётся предметом дискуссий. Хотя компания опубликовала отчёт о процессе обучения, она не предоставила набор данных, использованный для обучения. Некоторые эксперты считают, что без доступа к обучающим данным модель нельзя считать полностью открытой, что подчёркивает нюансы понятия «открытый исходный код» в контексте больших языковых моделей.

Этические и геополитические аспекты

Пользователи флагманской модели DeepSeek V3 обнаружили, что она избегает ответов на политически чувствительные вопросы о Китае и его лидере Си Цзиньпине, часто придерживаясь официальной риторики Пекина. В отличие от этого, ChatGPT предоставляет альтернативные точки зрения, включая критические. Такая цензурная политика порождает вопросы о потенциальном применении ИИ в контексте государственных интересов и контроля информации.

OpenAI утверждает, что разработала «новый подход к обучению безопасности» для модели o1, направленный на соблюдение корпоративных стандартов и предотвращение взлома защитных механизмов ИИ-моделей. Компания заключила официальные соглашения с институтами безопасности ИИ в США и Великобритании, что указывает на растущую озабоченность этическими вопросами и безопасностью ИИ на фоне активной конкуренции.

В конечном итоге, DeepSeek-R1 бросает вызов доминированию OpenAI, предлагая альтернативный путь развития LLM, основанный на экономической эффективности и открытости. В то время как OpenAI сохраняет лидерство в общих возможностях и рыночном принятии, инновационный подход DeepSeek к снижению затрат и повышению доступности, подтверждённый публикацией в Nature, обещает ускорить темпы развития ИИ и его демократизацию.

Вопросы и ответы

DeepSeek-R1: Свежая эра доступности больших языковых моделей и вызов гегемонии OpenAI
Архитектурные инновации и экономическая эффективность
Сравнительный анализ производительности и возможностей
Открытость против проприетарности: идеологический раскол
Этические и геополитические аспекты