Telegram Group & Telegram Channel
Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.



group-telegram.com/llmsecurity/517
Create:
Last Update:

Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/517

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp.
from us


Telegram llm security и каланы
FROM American