Logo

SAM 3: ИИ-Модели Сегментации Революционизируют Компьютерное Зрение

SAM 3, по слухам, подана на ICLR 2026, обещая текстовые подсказки для видео. Фонд Segment Anything от Meta AI, с набором SA-1B в 1,1 млрд масок, активно используется: НГУ применяет SAM 2 для клеток томатов, CellSAM — для точного анализа клеток.

15 жовтня 2025 р., 14:34
6 мин чтения

Эволюция сегментации: от точечной идентификации к универсальным ИИ-моделям

В области компьютерного зрения наблюдается переломный сдвиг, движимый развитием фундаментальных моделей, которые обещают сделать более доступной сложную задачу сегментации изображений. Внутренние дискуссии и недавние публикации указывают на то, что модель Segment Anything 3 (SAM 3) по слухам была подана на рассмотрение для конференции ICLR 2026, что указывает на существенный прогресс в сторону более самостоятельных и продвинутых систем сегментации. Эта предполагаемая версия следует за SAM 1, которая предлагала сегментацию изображений по клику, и SAM 2, расширившей эту возможность на видео, добавив отслеживание. SAM 3, согласно имеющейся информации, позволит выполнять сегментацию и отслеживание на видео с помощью текстовых подсказок, исключая необходимость интерактивного ввода данных.

Текущие разработки уже демонстрируют практическую применимость этих моделей. Например, в Новосибирском государственном университете используется SAM 2 для снижения сложности аннотирования различных типов клеток томатов и отслеживания их развития на микроскопических изображениях, что выделяет растущий интерес к таким технологиям в научных исследованиях и автоматизации.

Фонд Segment Anything: Переопределение доступности сегментации

Проект Segment Anything, инициированный исследовательской лабораторией Meta AI, нацелен на преодоление традиционных барьеров в сегментации изображений. Исторически эта задача требовала специализированного опыта, значительных вычислительных ресурсов и обширных аннотированных наборов данных. Стратегия Meta AI заключалась в создании фундаментальной модели с поддержкой подсказок, обученной на разнообразном наборе данных, способной адаптироваться к конкретным задачам без обширного специализированного обучения - подход, аналогичный тем, что применяются в моделях обработки естественного языка.

В основе Segment Anything Model (SAM) лежит её крупнейший в мире набор данных сегментации, SA-1B, содержащий более 1,1 миллиарда масок, полученных примерно из 11 млн лицензированных и конфиденциальных изображений. Этот набор в 400 раз превышает любой предыдущий набор данных сегментации. Разработка SA-1B представляла собой итеративный процесс: интерактивная разметка с помощью ранних версий SAM использовалась для дообучения модели, а затем обновлённая модель, в свою очередь, ускоряла процесс аннотирования. Такой цикл позволил достичь значительной эффективности: разметка маски занимает около 14 секунд при использовании инструмента SAM, что в 6,5 раза быстрее, чем полностью ручная аннотация в COCO, и вдвое ускоряет работу по сравнению с предыдущими крупными проектами аннотации с моделью-помощником.

Архитектура SAM базируется на обработке изображений и подсказок: кодировщик изображений генерирует одноразовое векторное представление для изображения, а лёгкий кодировщик в реальном времени превращает любую подсказку в вектор встраивания. Эти векторные представления затем объединяются в лёгком декодере для предсказания масок сегментации. После получения встраивания изображения SAM может генерировать сегмент для любой подсказки в веб-браузере за ~50 мс. Эта способность к обобщению позволяет SAM выполнять сегментацию без дополнительного обучения (zero-shot transfer) в новых предметных областях, включая подводные снимки и исследования клеток под микроскопом.

Проблемы и решения в биомедицинской сегментации: появление CellSAM

В то время как SAM продемонстрировала впечатляющие возможности в общих задачах сегментации, адаптация её к биомедицинским изображениям, особенно клеточным, представляет уникальные вызовы, как отмечено в препринте PMC10690226 от 20 ноября 2023 года. Клеточные изображения часто включают разнообразные методы визуализации (например, фазовая микроскопия, флуоресцентная микроскопия), тысячи объектов в одном поле зрения (по сравнению с десятками на естественном изображении) и неопределённые, зашумлённые границы. Более того, автоматическая стратегия подсказок SAM, использующая равномерную сетку точек, плохо подходит для клеточных изображений из-за широкого диапазона плотности клеток.

Для преодоления этих ограничений исследователи из Caltech и Howard Hughes Medical Institute создали CellSAM, специализированную фундаментальную модель для сегментации клеток. CellSAM расширяет методологию SAM, интегрируя автоматическое обнаружение клеток через Transformer-подобный детектор объектов CellFinder, который использует ту же сеть ViT (Vision Transformer), что и SAM, для извлечения признаков. CellFinder генерирует ограничивающие рамки вокруг клеток, которые затем служат подсказками для SAM. Такая двухэтапная архитектура позволяет CellSAM достигать уровня человеческой производительности при сегментации млекопитающих клеток, дрожжей и бактерий, полученных разными методами визуализации.

CellSAM была обучена на комплексном наборе данных, охватывающем пять широких архетипов: ткани, клеточные культуры, дрожжи, H&E-изображения и бактерии. В наборе присутствуют источники, такие как TissueNet, DeepBacs, BriFiSeg, Cellpose, Omnipose, YeastNet, YeaZ и Kaggle Data Science Bowl 2018. По сравнению с существующими подходами, например Cellpose, CellSAM показала выдающиеся результаты, особенно в роли модели-генералиста, опережая генералистские модели Cellpose во всех категориях данных. Исследование также продемонстрировало, что эффективность CellSAM сопоставима с показателями экспертов-аннотаторов, при этом двусторонний t-тест не выявил значимых различий между ними.

Применение CellSAM: от транскриптомики до живой визуализации

Универсальность CellSAM распространяется на различные рабочие процессы биомедицинского анализа, устраняя необходимость в отдельных инструментах сегментации для разных задач:

  • Пространственная транскриптомика: CellSAM-generalist, в сочетании с конвейерами вроде Polaris, позволяет проводить точный анализ экспрессии генов на уровне отдельных клеток в данных MERFISH и seqFISH, даже для сложных тканевых изображений с плотными клетками и запутанной морфологией.
  • Живая визуализация клеток: CellSAM применяется для сегментации и отслеживания отдельных клеток в кинематических сериалах, что даёт возможность количественно оценивать такие процессы, как активность AMP-киназы в HeLa-клетках и наблюдать линии в развивающихся дрожжевых клетках.
  • 3D-сегментация: Модель способна генерировать трёхмерные сегментации, объединяя отдельные срезы с помощью алгоритмов, например u-Segment3D, что демонстрирует её применимость к органоидам и толстым срезам тканей.

Эти интеграции подчёркивают потенциал CellSAM действовать как «фундаментальная модель», значительно сокращающую ручные усилия и повышающую масштабируемость анализа биологических изображений.

Взгляд в будущее: отслеживание клеток и промптинг на основе естественного языка

Дальнейшее развитие моделей, подобных SAM, предвещает возможность прямого отслеживания клеток. В предварительной статье, опубликованной на ArXiv 12 сентября 2025 года arXiv:2509.09943, исследователи предлагают структуру отслеживания клеток с нулевым выстрелом через интеграцию Segment Anything 2 (SAM2) в конвейер отслеживания. Этот подход нацелен на преодоление традиционных проблем, таких как делящиеся объекты, низкое отношение сигнал/шум и высокая плотность клеток, без обязательной ручной разметки.

Если SAM 3 действительно будет использовать текстовые подсказки для сегментации и отслеживания видео, как указывают анонсы, это ознаменует переход к более интуитивным и эффективным рабочим процессам. Возможность описывать объекты естественным языком, а не вручную указывать их кликами или ограничивающими рамками, существенно снизит когнитивную нагрузку на пользователя и позволит добиваться более тонких результатов. Такое развитие не только упростит задачи для исследователей и специалистов по разметке данных, но и ускорит автоматизацию в таких областях, как сельскохозяйственная робототехника - к примеру, в создании роботов-манипуляторов для сбора томатов, способных различать спелые и неспелые плоды по сложным критериям, как продемонстрировал студент Новосибирского государственного университета Антон Власенко. Власенко, использующий YOLOv8 и другие библиотеки компьютерного зрения, разработал робота-манипулятора, который не только определяет зрелость томатов, но и прогнозирует оптимальное время сбора, что свидетельствует о конвергенции передовых моделей сегментации и их практического применения в автоматизированных системах.

Эти события подчёркивают ключевую роль фундаментальных моделей в формировании будущего компьютерного зрения, особенно в областях, где ранее преобладала трудоёмкая ручная разметка и узкоспециализированные решения. По мере того как модели становятся всё более сложными и самостоятельными, их влияние на научные исследования, промышленную автоматизацию и персонализированные технологии будет лишь расти, открывая новые возможности для взаимодействия с цифровым миром и его понимания.

Вопросы и ответы

Эволюция сегментации: от точечной идентификации к универсальным ИИ-моделям
Фонд Segment Anything: Переопределение доступности сегментации
Проблемы и решения в биомедицинской сегментации: появление CellSAM
Применение CellSAM: от транскриптомики до живой визуализации
Взгляд в будущее: отслеживание клеток и промптинг на основе естественного языка