Logo

Meta SAM 3: Языковое Взаимодействие Революционизирует Сегментацию Изображений

14 октября 2025 года Meta представила SAM 3 на ICLR 2026, инновационную модель для сегментации изображений. Она интегрирует распознавание естественного языка, позволяя пользователям описывать объекты текстом, демонстрируя значительные улучшения.

16 жовтня 2025 р., 20:31
6 мин чтения

Переосмысление сегментации изображений: SAM 3 от Meta демонстрирует небывалые возможности языкового взаимодействия

НЬЮ-ЙОРК, 14 октября 2025 г. - Компания Meta представила третье поколение своей модели Segment Anything Model (SAM), названное SAM 3, на конференции ICLR 2026. Этот шаг обозначает существенную эволюцию в области сегментации изображений, объединяя функции распознавания естественного языка с высокой точностью сегментирования. В отличие от прежних версий, SAM 3 умеет не только выделять отдельные объекты, но и определять и сегментировать все экземпляры визуальной концепции, заданной текстовым описанием или примерами изображений, что ознаменовывает наступление эпохи «сегментации концепций с использованием подсказок» (Promptable Concept Segmentation, PCS).

Предыдущие итерации SAM демонстрировали ограниченную, но новаторскую функциональность: первая версия позволяла сегментировать объект по клику пользователя, а SAM 2 расширил эти возможности, добавив поддержку видео и «память» для отслеживания объектов. SAM 3, в свою очередь, меняет процесс, позволяя пользователям описывать желаемый объект - например, «жёлтый школьный автобус», «полосатый кот» или «красное яблоко» - и получать сегментированные маски для всех подходящих экземпляров. Такая новая парадигма обеспечивает беспрецедентный уровень взаимодействия с системами компьютерного зрения.

Архитектурные инновации и производительность

В основе SAM 3 лежит сложная архитектура, включающая детектор и трекер, использующие общий Vision Backbone (входная сеть, извлекающая признаки изображений). Ключевые нововведения включают:

  • Разделение распознавания и локализации: SAM 3 применяет «голову присутствия» (presence head), которая предсказывает глобальное наличие концепции, тогда как запросы предложений (proposal queries) сосредоточены исключительно на локализации. Это помогает избежать конфликтных целей и повышает точность. Влияние «головы присутствия» проявляется в росте показателя CGF1 на 5,7 пункта (увеличение на 9,9 %), при этом улучшение распознавания (IL_MCC) достигает 6,5 %.
  • Унифицированные концептуальные и визуальные подсказки: Модель поддерживает как PCS (подсказки на основе концепций), так и PVS (визуальные подсказки, аналогичные кликам или рамкам SAM 2) в рамках единой архитектуры.
  • Интерактивное уточнение с помощью примеров: Пользователи могут добавлять позитивные или негативные примеры изображений для итеративного уточнения результатов. Система обобщает эти примеры, улучшая сегментацию схожих объектов, а не просто корректируя отдельные экземпляры. Добавление трёх примеров приводит к подъёму метрики CGF1 на 18,6 пункта по сравнению с результатами, полученными только на основе текстовых подсказок.
  • Временное разрешение: Для обработки окклюзий, многолюдных сцен и сбоев отслеживания в видеопотоках используются баллы обнаружения масклетов и периодическая повторная подача подсказок, что согласуется с лучшими практиками сегментации и отслеживания объектов.

SAM 3 демонстрирует заметное улучшение производительности по сравнению с существующими системами. Согласно представленным данным, модель обеспечивает:

  • Существенное превосходство: Приблизительно вдвое лучшую эффективность по сравнению с SAM 2 в задачах сегментации концепций с подсказками.
  • Близкую к человеческой точность: Результаты на тестах с открытым словарём приближаются к человеческому уровню, достигая 88 % от нижней границы оценки человеческой производительности на бенчмарке SA-Co/Gold.
  • Высокую скорость: Время вывода одного изображения составляет 30 мс для сцены с более чем 100 обнаруженными объектами на GPU H200, при этом производительность на видео почти достигает реального времени для примерно пяти одновременно отслеживаемых объектов.

Показатели бенчмарков подчёркивают эти достижения:

Бенчмарк Метрика SAM 3 Предыдущий лучший Улучшение

Беспрецедентный набор данных SA-Co

Одной из фундаментальных причин выдающейся эффективности SAM 3 является применение нового, масштабного набора данных SA-Co (Segment Anything with Concepts). Этот датасет, созданный Meta, значительно опережает предыдущие стандарты, такие как COCO и LVIS, по объёму и разнообразию концепций.

SA-Co включает:

  • SA-Co/HQ: 5,2 млн изображений с 4 млн уникальных фраз, аннотированных людьми.
  • SA-Co/SYN: 38 млн фраз и 1,4 млрд масок, сгенерированных полностью искусственным интеллектом.
  • SA-Co/VIDEO: 52 500 видео с 24 800 уникальными фразами для временной аннотации.

Бенчмарк SA-Co содержит 214 000 уникальных фраз, охватывающих 126 000 изображений и видео, что представляет более чем 50-кратное увеличение количества концепций по сравнению с текущими бенчмарками. Роль AI-аннотаторов и верификаторов, использующих модели Llama и тонко настроенные мультимодальные LLM, была ключевой в создании этого небывалого объёма данных, значительно повышая качество и полноту масок.

Приложения и ограничения

Возможности SAM 3 открывают двери для широкого спектра практических применений, включая:

  • Модерацию контента: Автоматическое обнаружение и сегментацию всех экземпляров нежелательного контента.
  • Электронную коммерцию: Выделение продуктов на изображениях каталогов, способствующее автоматической аннотации.
  • Медицинскую визуализацию: Идентификацию типов тканей или аномалий.
  • Автономные системы: Отслеживание объектов, таких как дорожные знаки, пешеходы или транспортные средства, по категориям.
  • Видео-аналитику: Подсчёт и слежение за людьми в определённой одежде или выполняющими конкретные действия.

Тем не менее, как и у любой передовой технологии, у SAM 3 есть свои ограничения. Модель лучше всего работает с простыми именными фразами; сложные синтаксические конструкции могут потребовать интеграции с крупными мультимодальными языковыми моделями (MLLM). Кроме того, некоторые концепции остаются неоднозначными (например, «маленькое окно», «уютная комната»), а вычислительные требования SAM 3 выше, чем у специализированных детекторов, таких как YOLO. При этом связь с MLLM повышает способность SAM 3 обрабатывать сложные запросы, обеспечивая, к примеру, 76.0 gIoU в ReasonSeg (рост на 16.9 % по сравнению с предыдущими лучшими показателями).

Будущее и доступность

С полной документацией, размещённой на OpenReview, SAM 3 находится в стадии рецензирования ICLR 2026. Ожидается, что Meta выпустит модели и бенчмарки для публичного использования после завершения процесса оценки, вероятно, в 2026 году. Ultralytics уже объявила о немедленной поддержке SAM 3, как только модель станет доступна.

Таким образом, SAM 3 представляет собой фундаментальный шаг вперёд в сфере компьютерного зрения, демонстрируя способность моделей не только «видеть», но и «понимать» визуальные концепции на основе текстовых или визуальных подсказок с небывалой точностью и масштабом. Это знаменует важный прогресс на пути к более интуитивным и мощным системам ИИ.

Вопросы и ответы

Переосмысление сегментации изображений: SAM 3 от Meta демонстрирует небывалые возможности языкового взаимодействия
Архитектурные инновации и производительность
Беспрецедентный набор данных SA-Co
Приложения и ограничения
Будущее и доступность