4 августа 2025 года Cloudflare обвинил Perplexity в обходе robots.txt, используя "стелс"-ботов. Это вызывает вопросы о праве на контент и этике ИИ.
Подробный отчет о сканировании для www.perplexity.ai, включающий сведения о безопасности, производительности и технологиях, а также аналитику ...
Perplexity обходит robots.txt, Cloudflare обвиняет в хитрости, владельцы сайтов защищают контент, права на данные, борьба между ИИ и ...
Perplexity использует скрытых, незаявленных краулеров, чтобы обходить директивы no-crawl на веб-сайтах. r/CloudFlare - Perplexity использует ...
Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with ...
Скандал вокруг американской AI-компании Perplexity, публично обвинённой Cloudflare в систематическом обходе директив robots.txt, выявил растущее напряжение между агрегаторами контента на базе искусственного интеллекта и правообладателями. Расследование Cloudflare, опубликованное 4 августа 2025 года в их блоге, подробно описывает тактику, при которой боты Perplexity, встретив запрет на индексацию, используют «стелс»-режимы, маскируясь под обычных пользователей для доступа к закрытым данным.
Согласно отчёту Cloudflare, Perplexity проводит веб-сканирование, используя не только официально заявленные пользовательские агенты (user-agents) и определённые диапазоны IP-адресов. В случаях, когда основной бот сталкивается с директивой Disallow в robots.txt, система Perplexity активирует альтернативных «невидимых» краулеров. Эти боты искусно притворяются стандартными браузерами, имитируя поведение реального пользователя, что позволяет им обходить установленные ограничения и получать доступ к контенту, предназначенному для исключения из публичной индексации.
Такая тактика была описана как «обход правил и маскировка».
Эта практика прямо противоречит базовому принципу функционирования сети: robots.txt представляет собой ключевой элемент сетевого этикета, неформальное соглашение между администраторами сайтов и поисковыми роботами. Добросовестные поисковые системы, такие как Google, Яндекс и Bing, неизменно соблюдают эти директивы, гарантируя владельцам ресурсов контроль над тем, какой контент доступен для индексации. Обход этих правил системой Perplexity рассматривается многими владельцами сайтов как несанкционированное вторжение.
Конфликт вокруг Perplexity подчёркивает ряд фундаментальных проблем:
robots.txt может привести к доступу и использованию защищённого авторским правом или конфиденциального контента, угрожая потерей уникальности, прямыми финансовыми убытками и даже утечкой данных к конкурентам, особенно для нишевых СМИ и малого бизнеса.В правовой практике уже существуют прецеденты, где суды на стороне правообладателей признавали незаконным автоматическое копирование баз данных и уникальных материалов, если было доказано умышленное обход заранее установленных ограничений. Это касается как российских, так и европейских и американских юрисдикций.
Идея «свободного интернета», где знания доступны всем, часто вступает в противоречие с правами владельцев на собственность. Открытый доступ (Open Access) или контент по лицензиям Creative Commons подразумевает добровольное решение автора об общем использовании. Однако это не означает вседозволенности в отношении любых данных в сети.
Как точно подмечено, «если вы открыли дверь посетителям, это не значит, что впускать стоит всех без оглядки на правила». Robots.txt выступает именно такой «табличкой с просьбой не брать», и её игнорирование вызывает вопросы о фундаментальных принципах уважения к труду авторов и контролю над цифровыми активами.
В условиях продолжающейся «гонки вооружений» между ботами и защитными системами владельцам сайтов рекомендуется помимо robots.txt применять дополнительные технические меры защиты:
При обнаружении неправомерного сканирования владельцы сайтов имеют право подавать жалобы и, при необходимости, обращаться в судебные инстанции.
Инцидент с Perplexity и Cloudflare сигнализирует о назревающей необходимости выработки новых этических и правовых норм в цифровом пространстве. Проблема защиты контента от краулеров ИИ выходит за рамки чисто технических аспектов и требует осмысления глобальными игроками. Как отмечают эксперты, robots.txt - это скорее правило этикета, а не жёсткий закон, что создаёт определённые правовые серые зоны. Важно также учитывать концепцию «добросовестного использования» (fair use), когда данные применяются не для копирования, а для обучения ИИ. Однако это не является картой-бланш для использования контента без разрешения.
В конечном итоге, разрешение конфликта между технологической «жадностью» ИИ-ботов и правом на частную цифровую территорию будет требовать комплексного подхода, включающего как технические инновации, так и новые законодательные инициативы. Уважение к труду авторов и праву владельцев управлять своими данными определяет фундамент стабильного и осмысленного интернета, где ИИ-сервисы могут стать желанными гостями, а не незванными захватчиками.
Подробный отчет о сканировании для www.perplexity.ai, включающий сведения о безопасности, производительности и технологиях, а также аналитику ...
Perplexity обходит robots.txt, Cloudflare обвиняет в хитрости, владельцы сайтов защищают контент, права на данные, борьба между ИИ и ...
Perplexity использует скрытых, незаявленных краулеров, чтобы обходить директивы no-crawl на веб-сайтах. r/CloudFlare - Perplexity использует ...
Perplexity is repeatedly modifying their user agent and changing IPs and ASNs to hide their crawling activity, in direct conflict with ...
Вопросы и ответы