Logo

Qwen3-VL-Thinking: Прорыв открытой мультимодальной модели в топ-3 мировых бенчмарков

9 октября 2025 года, Шанхай - Последние разработки Alibaba Cloud в области больших языковых моделей (LLM) снова привлекли внимание глобального сообщества ИИ. Среди представленных решений особо выделяется Qwen3-VL-235B-A22B-Thinking, которая достигла беспрецедентного результата для открытых мультимодальных моделей, заняв третье место в независимом бенчмарке, отслеживающем производительность ИИ. Этот успех представляет собой значительный шаг вперёд в развитии доступных, передовых ИИ-технологий.

Результаты бенчмарка, детализированные на abdullin.com/llm-benchmarks, показывают следующие ключевые позиции:

  • Qwen3 Max Instruct: Самая масштабная закрытая модель Qwen, насчитывающая более 1 триллиона параметров, заняла 17-е место. Ее эффективность превышает gpt-5-nano, однако отстает от o1-2024-12-17.
  • Qwen3-VL-235B-A22B-Instruct: Мультимодальная модель с открытыми весами, доступная на Hugging Face, заявила о себе, заняв 19-е место. Этот показатель сравним с gpt-5-nano или deepseek-r1, подчёркивая её возможности в работе с визуальным контентом.
  • Qwen3-VL-235B-A22B-Thinking: Открытая мультимодальная модель, ориентированная на расширенные когнитивные функции, заняла третье место. Это высший результат для модели с открытыми весами за всю историю бенчмарка. Модель доступна для загрузки и изучения на Hugging Face.

Открытые веса и доступность

Выпуск Qwen3-VL-235B-A22B-Thinking с открытыми весами представляет собой стратегический шаг, способствующий демократизации доступа к передовым ИИ-технологиям. Несмотря на существенный размер модели (235 млрд параметров, общий вес - полтерабайта), что усложняет её практическое применение для большинства индивидуальных пользователей, сам факт её открытости стимулирует исследования и разработки. Как отмечает ведущий эксперт, "модели весом в пол-терабайта мало кто будет запускать на практике - не стоит оно того. Куда эффективнее взять gpt-oss-120B с 7-го места или Qwen3-32B с 17-го места". Однако этот прорыв свидетельствует о потенциале, который в скором времени может быть реализован в более компактных и доступных формах.

Анализ производительности и инновации

Ключевое различие Qwen3-VL-235B-A22B-Thinking состоит в её способности к «мышлению» (Thinking), что, по данным Alibaba Cloud, подразумевает расширенные возможности логического вывода и причинно-следственного анализа. Модель поддерживает функциональность «Image-Text-to-Text», позволяя обрабатывать изображения и текст, генерируя текстовые ответы. Среди заявленных характеристик Qwen3-VL особо выделяются:

  • Визуальный агент: Способность взаимодействовать с графическими интерфейсами ПК/мобильных устройств, распознавать элементы, понимать функции и выполнять задачи.
  • Совершенное визуальное кодирование: Генерация Draw.io/HTML/CSS/JS из изображений/видео.
  • Продвинутое пространственное ощущение: Оценка положения объектов, точек обзора и окклюзий, способствующая трёхмерному пространственному мышлению.
  • Длинный контекст и восприятие видео: Нативный контекст в 256K, расширяемый до 1M, для обработки книг и многочасовых видео с полным сохранением информации и индексацией до секунды.
  • Усиленное мультимодальное рассуждение: Превосходство в STEM/математическом причинно-следственном анализе и логических, основанных на доказательствах ответах.
  • Повышенное визуальное распознавание: Более широкое и качественное предварительное обучение, позволяющее «распознавать всё»: знаменитостей, аниме, продукты, достопримечательности, флору и фауну.
  • Улучшенный OCR: Поддержка 32 языков (по сравнению с 19 ранее), устойчивость к низкому освещению, размытию и наклону, улучшенная работа с редкими/старинными символами и жаргоном, а также продвинутый анализ структуры длинных документов.
  • Понимание текста на уровне базовых LLM: Бесшовное слияние текста и зрения для унифицированного восприятия без потерь.

Эти свойства подчёркивают амбиции Alibaba Cloud в создании целостных мультимодальных ИИ, способных к всестороннему взаимодействию с цифровым и физическим миром. Развитие подобных «думающих» моделей открывает путь к более продвинутому ИИ, способному не просто создавать контент, а и интерпретировать его с глубоким пониманием.

Влияние на рынок и перспективы

Выход Qwen3-VL-235B-A22B-Thinking в тройку лидеров бенчмарка, особенно в конкурентной среде закрытых моделей, представляет собой важное событие. Это подтверждает, что открытые исходные коды способны не только догонять, но и опережать проприетарные разработки в определённых областях. Хотя текущий размер модели ограничивает её широкое внедрение, её наличие стимулирует дальнейшие исследования в области оптимизации. Ожидается, что прогресс в этой сфере приведёт к созданию более практичных и масштабируемых вариантов, которые смогут применяться в широком спектре задач - от автоматизированных систем до интерактивного контента и научных исследований.

В заключение, победа Qwen3-VL-235B-A22B-Thinking - это не просто техническое достижение; это показатель зрелости и конкурентоспособности открытого ИИ-сообщества, показывающий, что передовые мультимодальные возможности становятся всё более доступными и эффективными.

Вопросы и ответы

Qwen3-VL-Thinking: Прорыв открытой мультимодальной модели в топ-3 мировых бенчмарков
Открытые веса и доступность
Анализ производительности и инновации
Влияние на рынок и перспективы