15 октября 2025 года Sourceful представил Riverflow 1, новую VLM-модель для редактирования изображений. Модель демонстрирует превосходство над Gemini 2.5 Flash в тестах, но сталкивается с проблемами скорости и сохранения контекста при сложных изменениях.
Riverflow 1 consistently delivers better instruction-following and higher-resolution rendering than Gemini 2.5 Flash (Nano-Banana), the prior ...
1. Диффузионные модели обучаются на данных из интернета и используют VLM для синтетической разметки. При этом для понимания текста они ...
Лондон, 15 октября 2025 г. - В непрерывно меняющемся ландшафте генеративных изображений на арене редактирования появилась новая сила: Riverflow 1 от компании Sourceful. Этот свежий игрок, незаметно вышедший на рынок, уже демонстрирует впечатляющие результаты, опережая именитых конкурентов в тестах на Image Editing Arena. Sourceful, известная своими нейронными сетями, специально «заточенными» под дизайн и упаковку, заявляет о революционном подходе к редактированию, основанном на «языковой модели визуального мышления» (Visual Language Model, VLM). Однако внимательный разбор ставит вопрос: действительно ли это прорыв или лишь искусно доработанная версия существующих открытых моделей, таких как Stable Diffusion 3.5?
Sourceful, присутствующая на рынке уже полгода, предлагает свои решения для дизайна и упаковки. Последняя их разработка, Riverflow 1, позиционируется как передовая модель для редактирования изображений. Компания утверждает, что обучила VLM, способную интегрировать диффузионные изображения (как частично, так и полностью завершённые шаги) в процесс «цепочки рассуждений» (Chain of Thought) при исследовании пространства редактирования. По их словам, это позволяет «изменять направление пути редактирования, что обеспечивает более высокую согласованность, лучшее соблюдение многошаговых операций и более быстрые ответы на простые задачи редактирования». Важный момент: в Riverflow 1 не применяются диффузионные модели от Google или OpenAI; вместо этого используются «диффузионные модели с открытыми весами». Какие именно - не уточняется, вызывая обоснованные подозрения в глубокой модификации распространённых открытых решений.
Генеральный директор Sourceful, Винг Чан, в своём исследовании от 14 октября 2025 года «Introducing Sourceful Riverflow 1» подчёркивает, что модель достигла «состояния искусства» по показателям эффективности на независимом бенчмарке Artificial Analysis. Riverflow 1, как утверждается, превосходит Gemini 2.5 Flash (Nano-Banana) в точности следования инструкциям и качестве рендеринга высокого разрешения. Среди заявленных преимуществ:
Sourceful отмечает, что их исследователи наблюдали за работой дизайнеров, которые используют многошаговый подход к редактированию, изолируя отдельные элементы и итерируя улучшения. Именно этот «пошаговый, управляемый рассуждениями подход», проверенный в больших языковых и видеомоделях через «цепочку рассуждений» и «цепочку кадров», был перенесён в редактирование изображений в Riverflow 1.
Модель Riverflow 1 уже доступна на платформе Sourceful и через API, в том числе у партнёра по запуску Runware. Предлагаются три уровня доступа для разработчиков:
riverflow-1-mini: $0.05 за изображениеriverflow-1: $0.066 за изображениеriverflow-1-pro: находится в закрытой бета-версии, цены пока не объявлены.На сайте Sourceful также предоставляются 70 бесплатных кредитов (эквивалентно 14 редактированиям) для ознакомления. Однако месячная подписка за $9 предлагает лишь 40 редактирований (200 кредитов), что может выглядеть невыгодным для активных пользователей.
Помимо самой модели, Sourceful анонсирует разработку «Brand World» - модели, которая будет принимать фирменные активы (логотипы, цветовые схемы) для генерации реалистичных изображений, пригодных для макетов и мерчендайзинга. Все модели поддерживают разрешение 1K, 11 различных соотношений сторон и прозрачный вывод.
Тесты, проведённые компанией, показывают превосходство Riverflow 1 над конкурентами, в частности над Nano-Banana. Тем не менее, пользовательский опыт выявил ряд проблем:
В ходе предварительного тестирования Riverflow 1 продемонстрировал следующие результаты:
Эти примеры указывают на потенциальные проблемы с сохранением контекста и детализацией при сложных многошаговых изменениях, хотя Sourceful заявляет, что модель должна выполнять такие задачи безупречно. Постоянное «смещение камеры» при редактировании, где требуется фиксированный фон, остаётся серьёзным ограничением для профессионального применения.
Утверждение о «языковой модели визуального мышления» согласуется с текущими тенденциями в ИИ. Vision Language Models (VLM) объединяют визуальные кодировщики и большие языковые модели (LLM) для понимания контекста и генерации ответов. Такие решения, как LLaVA и CogVLM, демонстрируют способность к «рассуждению» благодаря обучению на огромных датасетах. Например, Stable Diffusion 3 использует CogVLM для разметки своего набора данных, где 50 % информации синтетическая.
Тем не менее, как отмечают эксперты, данные, на которых обучаются как диффузионные модели, так и VLM, часто имеют ограничения. CLIP (Contrastive Language-Image Pre-training), лежащий в основе многих VLM, обучается на открытых и проприетарных датасетах, таких как LAION-5B, собранных из интернета. Эти данные могут быть поверхностными, создавая «потолок» для качества генерации специфических объектов. Модели уверенно работают с тем, что часто встречается онлайн (портреты, животные, пейзажи), но сталкиваются с трудностями при работе с архитектурными элементами, техническими деталями или сложными текстурами. Такая «замкнутая петля», когда модели обучаются на данных, размеченных другими моделями, которые в свою очередь обучены на тех же исходных данных, может сдерживать прорывное развитие.
Riverflow 1 от Sourceful - это интересный шаг вперёд в области редактирования изображений с применением AI. Заявленная способность к «рассуждающему» редактированию и впечатляющие результаты на бенчмарках показывают потенциал. Однако реальный пользовательский опыт свидетельствует о том, что модель, возможно, всё ещё находится в ранних стадиях развития, имеет проблемы с производительностью и сохранением контекста в сложных сценариях. Вопрос о том, является ли Riverflow 1 истинным прорывом или лишь глубокой доработкой открытых моделей, остаётся открытым до более всестороннего независимого тестирования. В любом случае, это ещё одно подтверждение того, как быстро прогрессирует индустрия генеративного ИИ, и каждый новый игрок вносит свой вклад в эту гонку.
Пользователям рекомендуется самостоятельно протестировать Riverflow 1, используя предоставленные бесплатные кредиты, чтобы лично оценить возможности и ограничения новой модели. `sourceful:1@0` для mini-версии и `sourceful:1@1` для стандартной доступны через API на Runware.
Riverflow 1 consistently delivers better instruction-following and higher-resolution rendering than Gemini 2.5 Flash (Nano-Banana), the prior ...
1. Диффузионные модели обучаются на данных из интернета и используют VLM для синтетической разметки. При этом для понимания текста они ...
Вопросы и ответы