Logo

Riverflow 1: Sourceful Революция или Переосмысленная Диффузия?

15 октября 2025 года Sourceful представил Riverflow 1, новую VLM-модель для редактирования изображений. Модель демонстрирует превосходство над Gemini 2.5 Flash в тестах, но сталкивается с проблемами скорости и сохранения контекста при сложных изменениях.

16 жовтня 2025 р., 19:43
6 мин чтения

Riverflow 1 от Sourceful: Новая эпоха редактирования изображений с «мышлением» или лишь доработанная Диффузия?

Лондон, 15 октября 2025 г. - В непрерывно меняющемся ландшафте генеративных изображений на арене редактирования появилась новая сила: Riverflow 1 от компании Sourceful. Этот свежий игрок, незаметно вышедший на рынок, уже демонстрирует впечатляющие результаты, опережая именитых конкурентов в тестах на Image Editing Arena. Sourceful, известная своими нейронными сетями, специально «заточенными» под дизайн и упаковку, заявляет о революционном подходе к редактированию, основанном на «языковой модели визуального мышления» (Visual Language Model, VLM). Однако внимательный разбор ставит вопрос: действительно ли это прорыв или лишь искусно доработанная версия существующих открытых моделей, таких как Stable Diffusion 3.5?

Взгляд из-за кулис: Технология и амбиции

Sourceful, присутствующая на рынке уже полгода, предлагает свои решения для дизайна и упаковки. Последняя их разработка, Riverflow 1, позиционируется как передовая модель для редактирования изображений. Компания утверждает, что обучила VLM, способную интегрировать диффузионные изображения (как частично, так и полностью завершённые шаги) в процесс «цепочки рассуждений» (Chain of Thought) при исследовании пространства редактирования. По их словам, это позволяет «изменять направление пути редактирования, что обеспечивает более высокую согласованность, лучшее соблюдение многошаговых операций и более быстрые ответы на простые задачи редактирования». Важный момент: в Riverflow 1 не применяются диффузионные модели от Google или OpenAI; вместо этого используются «диффузионные модели с открытыми весами». Какие именно - не уточняется, вызывая обоснованные подозрения в глубокой модификации распространённых открытых решений.

Генеральный директор Sourceful, Винг Чан, в своём исследовании от 14 октября 2025 года «Introducing Sourceful Riverflow 1» подчёркивает, что модель достигла «состояния искусства» по показателям эффективности на независимом бенчмарке Artificial Analysis. Riverflow 1, как утверждается, превосходит Gemini 2.5 Flash (Nano-Banana) в точности следования инструкциям и качестве рендеринга высокого разрешения. Среди заявленных преимуществ:

  • Точное редактирование текста: Модель способна вносить точечные изменения в текст на изображениях.
  • Улучшение качества изображения: Riverflow может повышать чёткость и снижать уровень шума.
  • Удаление дефектов: Функция стирания пятен или царапин без затрагивания остальных элементов.
  • Многословное редактирование текста: Более последовательное применение сложных текстовых правок.
  • Многоэтапное редактирование: Модель легко справляется со сложной многошаговой логикой.
  • Функция прозрачности: Встроенная поддержка прозрачных фонов.

Sourceful отмечает, что их исследователи наблюдали за работой дизайнеров, которые используют многошаговый подход к редактированию, изолируя отдельные элементы и итерируя улучшения. Именно этот «пошаговый, управляемый рассуждениями подход», проверенный в больших языковых и видеомоделях через «цепочку рассуждений» и «цепочку кадров», был перенесён в редактирование изображений в Riverflow 1.

Экономика доступа: Ценообразование и доступность

Модель Riverflow 1 уже доступна на платформе Sourceful и через API, в том числе у партнёра по запуску Runware. Предлагаются три уровня доступа для разработчиков:

  • riverflow-1-mini: $0.05 за изображение
  • riverflow-1: $0.066 за изображение
  • riverflow-1-pro: находится в закрытой бета-версии, цены пока не объявлены.

На сайте Sourceful также предоставляются 70 бесплатных кредитов (эквивалентно 14 редактированиям) для ознакомления. Однако месячная подписка за $9 предлагает лишь 40 редактирований (200 кредитов), что может выглядеть невыгодным для активных пользователей.

Помимо самой модели, Sourceful анонсирует разработку «Brand World» - модели, которая будет принимать фирменные активы (логотипы, цветовые схемы) для генерации реалистичных изображений, пригодных для макетов и мерчендайзинга. Все модели поддерживают разрешение 1K, 11 различных соотношений сторон и прозрачный вывод.

Анализ производительности: Обещания и реальность

Тесты, проведённые компанией, показывают превосходство Riverflow 1 над конкурентами, в частности над Nano-Banana. Тем не менее, пользовательский опыт выявил ряд проблем:

  1. Длительная генерация: Процесс генерации на сайте занимает «БЕЗ МАЛОГО минуту», что значительно дольше, чем у многих современных аналогов. Это заметный недостаток для инструментов, претендующих на статус «быстрых решений».
  2. Навязчивые элементы: Сайт активно предлагает макеты для печати за дополнительную плату, отвлекая от главного функционала редактирования.
  3. Неудобный интерфейс: Навигация может быть запутанной из-за акцента на старый генератор дизайна и упаковки.
  4. Водяные знаки: Модель накладывает на изображения узнаваемые логотипы Sourceful, что ограничивает бесплатную версию.

В ходе предварительного тестирования Riverflow 1 продемонстрировал следующие результаты:

  • Перекрашивание объектов: Белка была перекрашена в зелёный цвет, при этом, в отличие от REVE, затронут также рот, но камера осталась в стабильном положении.
  • Замена цифр: На бутылках цифры заменены корректно, однако положение камеры изменилось.
  • Изменения внешности: Модель наклонила шляпу и перекрасила футболку в красный, но при этом утратила текстуру. При попытке убрать очки камера также сместилась.

Эти примеры указывают на потенциальные проблемы с сохранением контекста и детализацией при сложных многошаговых изменениях, хотя Sourceful заявляет, что модель должна выполнять такие задачи безупречно. Постоянное «смещение камеры» при редактировании, где требуется фиксированный фон, остаётся серьёзным ограничением для профессионального применения.

Замкнутый цикл: Происхождение VLM и влияние данных

Утверждение о «языковой модели визуального мышления» согласуется с текущими тенденциями в ИИ. Vision Language Models (VLM) объединяют визуальные кодировщики и большие языковые модели (LLM) для понимания контекста и генерации ответов. Такие решения, как LLaVA и CogVLM, демонстрируют способность к «рассуждению» благодаря обучению на огромных датасетах. Например, Stable Diffusion 3 использует CogVLM для разметки своего набора данных, где 50 % информации синтетическая.

Тем не менее, как отмечают эксперты, данные, на которых обучаются как диффузионные модели, так и VLM, часто имеют ограничения. CLIP (Contrastive Language-Image Pre-training), лежащий в основе многих VLM, обучается на открытых и проприетарных датасетах, таких как LAION-5B, собранных из интернета. Эти данные могут быть поверхностными, создавая «потолок» для качества генерации специфических объектов. Модели уверенно работают с тем, что часто встречается онлайн (портреты, животные, пейзажи), но сталкиваются с трудностями при работе с архитектурными элементами, техническими деталями или сложными текстурами. Такая «замкнутая петля», когда модели обучаются на данных, размеченных другими моделями, которые в свою очередь обучены на тех же исходных данных, может сдерживать прорывное развитие.

Заключение

Riverflow 1 от Sourceful - это интересный шаг вперёд в области редактирования изображений с применением AI. Заявленная способность к «рассуждающему» редактированию и впечатляющие результаты на бенчмарках показывают потенциал. Однако реальный пользовательский опыт свидетельствует о том, что модель, возможно, всё ещё находится в ранних стадиях развития, имеет проблемы с производительностью и сохранением контекста в сложных сценариях. Вопрос о том, является ли Riverflow 1 истинным прорывом или лишь глубокой доработкой открытых моделей, остаётся открытым до более всестороннего независимого тестирования. В любом случае, это ещё одно подтверждение того, как быстро прогрессирует индустрия генеративного ИИ, и каждый новый игрок вносит свой вклад в эту гонку.

Пользователям рекомендуется самостоятельно протестировать Riverflow 1, используя предоставленные бесплатные кредиты, чтобы лично оценить возможности и ограничения новой модели. `sourceful:1@0` для mini-версии и `sourceful:1@1` для стандартной доступны через API на Runware.

Вопросы и ответы

Riverflow 1 от Sourceful: Новая эпоха редактирования изображений с «мышлением» или лишь доработанная Диффузия?
Взгляд из-за кулис: Технология и амбиции
Экономика доступа: Ценообразование и доступность
Анализ производительности: Обещания и реальность
Замкнутый цикл: Происхождение VLM и влияние данных
Заключение