SAM 3, по слухам, подана на ICLR 2026, обещая текстовые подсказки для видео. Фонд Segment Anything от Meta AI, с набором SA-1B в 1,1 млрд масок, активно используется: НГУ применяет SAM 2 для клеток томатов, CellSAM — для точного анализа клеток.
We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images ... ICLR 2026 Conference ...
Благодаря SAM сбор новых масок сегментации стал быстрым, как никогда. При использовании нашего инструмента для интерактивного аннотирования ...
Его робот способен анализировать время созревания различных сортов томатов и собирать только спелые плоды. Недозревшие он оставляет на кустах и ...
In this work, we present CellSAM, a universal model for cell segmentation that generalizes across diverse cellular imaging data.
To overcome these limitations, we propose a zero-shot cell tracking framework by integrating Segment Anything 2 (SAM2), a large foundation ...
В области компьютерного зрения наблюдается переломный сдвиг, движимый развитием фундаментальных моделей, которые обещают сделать более доступной сложную задачу сегментации изображений. Внутренние дискуссии и недавние публикации указывают на то, что модель Segment Anything 3 (SAM 3) по слухам была подана на рассмотрение для конференции ICLR 2026, что указывает на существенный прогресс в сторону более самостоятельных и продвинутых систем сегментации. Эта предполагаемая версия следует за SAM 1, которая предлагала сегментацию изображений по клику, и SAM 2, расширившей эту возможность на видео, добавив отслеживание. SAM 3, согласно имеющейся информации, позволит выполнять сегментацию и отслеживание на видео с помощью текстовых подсказок, исключая необходимость интерактивного ввода данных.
Текущие разработки уже демонстрируют практическую применимость этих моделей. Например, в Новосибирском государственном университете используется SAM 2 для снижения сложности аннотирования различных типов клеток томатов и отслеживания их развития на микроскопических изображениях, что выделяет растущий интерес к таким технологиям в научных исследованиях и автоматизации.
Проект Segment Anything, инициированный исследовательской лабораторией Meta AI, нацелен на преодоление традиционных барьеров в сегментации изображений. Исторически эта задача требовала специализированного опыта, значительных вычислительных ресурсов и обширных аннотированных наборов данных. Стратегия Meta AI заключалась в создании фундаментальной модели с поддержкой подсказок, обученной на разнообразном наборе данных, способной адаптироваться к конкретным задачам без обширного специализированного обучения - подход, аналогичный тем, что применяются в моделях обработки естественного языка.
В основе Segment Anything Model (SAM) лежит её крупнейший в мире набор данных сегментации, SA-1B, содержащий более 1,1 миллиарда масок, полученных примерно из 11 млн лицензированных и конфиденциальных изображений. Этот набор в 400 раз превышает любой предыдущий набор данных сегментации. Разработка SA-1B представляла собой итеративный процесс: интерактивная разметка с помощью ранних версий SAM использовалась для дообучения модели, а затем обновлённая модель, в свою очередь, ускоряла процесс аннотирования. Такой цикл позволил достичь значительной эффективности: разметка маски занимает около 14 секунд при использовании инструмента SAM, что в 6,5 раза быстрее, чем полностью ручная аннотация в COCO, и вдвое ускоряет работу по сравнению с предыдущими крупными проектами аннотации с моделью-помощником.
Архитектура SAM базируется на обработке изображений и подсказок: кодировщик изображений генерирует одноразовое векторное представление для изображения, а лёгкий кодировщик в реальном времени превращает любую подсказку в вектор встраивания. Эти векторные представления затем объединяются в лёгком декодере для предсказания масок сегментации. После получения встраивания изображения SAM может генерировать сегмент для любой подсказки в веб-браузере за ~50 мс. Эта способность к обобщению позволяет SAM выполнять сегментацию без дополнительного обучения (zero-shot transfer) в новых предметных областях, включая подводные снимки и исследования клеток под микроскопом.
В то время как SAM продемонстрировала впечатляющие возможности в общих задачах сегментации, адаптация её к биомедицинским изображениям, особенно клеточным, представляет уникальные вызовы, как отмечено в препринте PMC10690226 от 20 ноября 2023 года. Клеточные изображения часто включают разнообразные методы визуализации (например, фазовая микроскопия, флуоресцентная микроскопия), тысячи объектов в одном поле зрения (по сравнению с десятками на естественном изображении) и неопределённые, зашумлённые границы. Более того, автоматическая стратегия подсказок SAM, использующая равномерную сетку точек, плохо подходит для клеточных изображений из-за широкого диапазона плотности клеток.
Для преодоления этих ограничений исследователи из Caltech и Howard Hughes Medical Institute создали CellSAM, специализированную фундаментальную модель для сегментации клеток. CellSAM расширяет методологию SAM, интегрируя автоматическое обнаружение клеток через Transformer-подобный детектор объектов CellFinder, который использует ту же сеть ViT (Vision Transformer), что и SAM, для извлечения признаков. CellFinder генерирует ограничивающие рамки вокруг клеток, которые затем служат подсказками для SAM. Такая двухэтапная архитектура позволяет CellSAM достигать уровня человеческой производительности при сегментации млекопитающих клеток, дрожжей и бактерий, полученных разными методами визуализации.
CellSAM была обучена на комплексном наборе данных, охватывающем пять широких архетипов: ткани, клеточные культуры, дрожжи, H&E-изображения и бактерии. В наборе присутствуют источники, такие как TissueNet, DeepBacs, BriFiSeg, Cellpose, Omnipose, YeastNet, YeaZ и Kaggle Data Science Bowl 2018. По сравнению с существующими подходами, например Cellpose, CellSAM показала выдающиеся результаты, особенно в роли модели-генералиста, опережая генералистские модели Cellpose во всех категориях данных. Исследование также продемонстрировало, что эффективность CellSAM сопоставима с показателями экспертов-аннотаторов, при этом двусторонний t-тест не выявил значимых различий между ними.
Универсальность CellSAM распространяется на различные рабочие процессы биомедицинского анализа, устраняя необходимость в отдельных инструментах сегментации для разных задач:
Эти интеграции подчёркивают потенциал CellSAM действовать как «фундаментальная модель», значительно сокращающую ручные усилия и повышающую масштабируемость анализа биологических изображений.
Дальнейшее развитие моделей, подобных SAM, предвещает возможность прямого отслеживания клеток. В предварительной статье, опубликованной на ArXiv 12 сентября 2025 года arXiv:2509.09943, исследователи предлагают структуру отслеживания клеток с нулевым выстрелом через интеграцию Segment Anything 2 (SAM2) в конвейер отслеживания. Этот подход нацелен на преодоление традиционных проблем, таких как делящиеся объекты, низкое отношение сигнал/шум и высокая плотность клеток, без обязательной ручной разметки.
Если SAM 3 действительно будет использовать текстовые подсказки для сегментации и отслеживания видео, как указывают анонсы, это ознаменует переход к более интуитивным и эффективным рабочим процессам. Возможность описывать объекты естественным языком, а не вручную указывать их кликами или ограничивающими рамками, существенно снизит когнитивную нагрузку на пользователя и позволит добиваться более тонких результатов. Такое развитие не только упростит задачи для исследователей и специалистов по разметке данных, но и ускорит автоматизацию в таких областях, как сельскохозяйственная робототехника - к примеру, в создании роботов-манипуляторов для сбора томатов, способных различать спелые и неспелые плоды по сложным критериям, как продемонстрировал студент Новосибирского государственного университета Антон Власенко. Власенко, использующий YOLOv8 и другие библиотеки компьютерного зрения, разработал робота-манипулятора, который не только определяет зрелость томатов, но и прогнозирует оптимальное время сбора, что свидетельствует о конвергенции передовых моделей сегментации и их практического применения в автоматизированных системах.
Эти события подчёркивают ключевую роль фундаментальных моделей в формировании будущего компьютерного зрения, особенно в областях, где ранее преобладала трудоёмкая ручная разметка и узкоспециализированные решения. По мере того как модели становятся всё более сложными и самостоятельными, их влияние на научные исследования, промышленную автоматизацию и персонализированные технологии будет лишь расти, открывая новые возможности для взаимодействия с цифровым миром и его понимания.
We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images ... ICLR 2026 Conference ...
Благодаря SAM сбор новых масок сегментации стал быстрым, как никогда. При использовании нашего инструмента для интерактивного аннотирования ...
Его робот способен анализировать время созревания различных сортов томатов и собирать только спелые плоды. Недозревшие он оставляет на кустах и ...
In this work, we present CellSAM, a universal model for cell segmentation that generalizes across diverse cellular imaging data.
To overcome these limitations, we propose a zero-shot cell tracking framework by integrating Segment Anything 2 (SAM2), a large foundation ...
Вопросы и ответы