14 октября 2025 года Meta представила SAM 3 на ICLR 2026, инновационную модель для сегментации изображений. Она интегрирует распознавание естественного языка, позволяя пользователям описывать объекты текстом, демонстрируя значительные улучшения.
We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images and videos based on concept ...
А по итогу Serious Sam 2 оказался в разы лучше TSE. Лучше во всем. И в плане геймплея, и сюжета. Вторая часть стала даже моим самым одним их ...
Любительский перевод игры Serious Sam 3 BFE. (18+). Перевод выполнен почти с нуля, максимально ближе к оригинальному тексту.
How Does SAM 3 Differ From SAM 2? ; Recognition, Geometry-based only, Text and visual recognition ; Architecture, Tracker only, Detector + Tracker ...
НЬЮ-ЙОРК, 14 октября 2025 г. - Компания Meta представила третье поколение своей модели Segment Anything Model (SAM), названное SAM 3, на конференции ICLR 2026. Этот шаг обозначает существенную эволюцию в области сегментации изображений, объединяя функции распознавания естественного языка с высокой точностью сегментирования. В отличие от прежних версий, SAM 3 умеет не только выделять отдельные объекты, но и определять и сегментировать все экземпляры визуальной концепции, заданной текстовым описанием или примерами изображений, что ознаменовывает наступление эпохи «сегментации концепций с использованием подсказок» (Promptable Concept Segmentation, PCS).
Предыдущие итерации SAM демонстрировали ограниченную, но новаторскую функциональность: первая версия позволяла сегментировать объект по клику пользователя, а SAM 2 расширил эти возможности, добавив поддержку видео и «память» для отслеживания объектов. SAM 3, в свою очередь, меняет процесс, позволяя пользователям описывать желаемый объект - например, «жёлтый школьный автобус», «полосатый кот» или «красное яблоко» - и получать сегментированные маски для всех подходящих экземпляров. Такая новая парадигма обеспечивает беспрецедентный уровень взаимодействия с системами компьютерного зрения.
В основе SAM 3 лежит сложная архитектура, включающая детектор и трекер, использующие общий Vision Backbone (входная сеть, извлекающая признаки изображений). Ключевые нововведения включают:
SAM 3 демонстрирует заметное улучшение производительности по сравнению с существующими системами. Согласно представленным данным, модель обеспечивает:
Показатели бенчмарков подчёркивают эти достижения:
| Бенчмарк | Метрика | SAM 3 | Предыдущий лучший | Улучшение |
|---|
Одной из фундаментальных причин выдающейся эффективности SAM 3 является применение нового, масштабного набора данных SA-Co (Segment Anything with Concepts). Этот датасет, созданный Meta, значительно опережает предыдущие стандарты, такие как COCO и LVIS, по объёму и разнообразию концепций.
SA-Co включает:
Бенчмарк SA-Co содержит 214 000 уникальных фраз, охватывающих 126 000 изображений и видео, что представляет более чем 50-кратное увеличение количества концепций по сравнению с текущими бенчмарками. Роль AI-аннотаторов и верификаторов, использующих модели Llama и тонко настроенные мультимодальные LLM, была ключевой в создании этого небывалого объёма данных, значительно повышая качество и полноту масок.
Возможности SAM 3 открывают двери для широкого спектра практических применений, включая:
Тем не менее, как и у любой передовой технологии, у SAM 3 есть свои ограничения. Модель лучше всего работает с простыми именными фразами; сложные синтаксические конструкции могут потребовать интеграции с крупными мультимодальными языковыми моделями (MLLM). Кроме того, некоторые концепции остаются неоднозначными (например, «маленькое окно», «уютная комната»), а вычислительные требования SAM 3 выше, чем у специализированных детекторов, таких как YOLO. При этом связь с MLLM повышает способность SAM 3 обрабатывать сложные запросы, обеспечивая, к примеру, 76.0 gIoU в ReasonSeg (рост на 16.9 % по сравнению с предыдущими лучшими показателями).
С полной документацией, размещённой на OpenReview, SAM 3 находится в стадии рецензирования ICLR 2026. Ожидается, что Meta выпустит модели и бенчмарки для публичного использования после завершения процесса оценки, вероятно, в 2026 году. Ultralytics уже объявила о немедленной поддержке SAM 3, как только модель станет доступна.
Таким образом, SAM 3 представляет собой фундаментальный шаг вперёд в сфере компьютерного зрения, демонстрируя способность моделей не только «видеть», но и «понимать» визуальные концепции на основе текстовых или визуальных подсказок с небывалой точностью и масштабом. Это знаменует важный прогресс на пути к более интуитивным и мощным системам ИИ.
We present Segment Anything Model (SAM) 3, a unified model that detects, segments, and tracks objects in images and videos based on concept ...
А по итогу Serious Sam 2 оказался в разы лучше TSE. Лучше во всем. И в плане геймплея, и сюжета. Вторая часть стала даже моим самым одним их ...
Любительский перевод игры Serious Sam 3 BFE. (18+). Перевод выполнен почти с нуля, максимально ближе к оригинальному тексту.
How Does SAM 3 Differ From SAM 2? ; Recognition, Geometry-based only, Text and visual recognition ; Architecture, Tracker only, Detector + Tracker ...
Вопросы и ответы