Telegram Group & Telegram Channel
ИИ обошел 90% команд на соревновании хакеров

Исследователи из Palisade Research (это те, у которых недавно выходило вот это громкое исследование про саботаж моделей) сделали специальный AI-трек на двух недавних соревнованиях Capture The Flag от крупнейшей платформы Hack The Box. Суммарно участие принимали почти 18 тысяч человек и 8 500 команд. Из них несколько полностью состояли из ИИ-агентов. Вот что вышло:

В первом небольшом соревновании (≈400 команд) четыре из семи агентов решили по 19 из 20 задач и вошли в топ 5 % участников
Во втором большом CTF (≈8 000 команд) лучшему ИИ-агенту удалось захватить 20 флагов из 62 и оказаться в топ-10%
При этом агенты справляются почти со всеми задачами, на которые человек тартит до часа времени, и делают это в разы быстрее

Одинаково неплохо моделям удавались и задачи на взлом шифра, и веб-взломы, и форензика, и эксплуатация уязвимостей 💀

Ну и экономический эффект тоже на месте. Если принять во внимание, что на одну команду из топ-5% обычно уходит не менее нескольких сотен человеко-часов на подготовку, анализ и написание эксплойтов, то даже самый дорогой агент, который работал 500ч, в итоге обошелся дешевле, чем 10 таких живых команд.

arxiv.org/pdf/2505.19915
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/7005
Create:
Last Update:

ИИ обошел 90% команд на соревновании хакеров

Исследователи из Palisade Research (это те, у которых недавно выходило вот это громкое исследование про саботаж моделей) сделали специальный AI-трек на двух недавних соревнованиях Capture The Flag от крупнейшей платформы Hack The Box. Суммарно участие принимали почти 18 тысяч человек и 8 500 команд. Из них несколько полностью состояли из ИИ-агентов. Вот что вышло:

В первом небольшом соревновании (≈400 команд) четыре из семи агентов решили по 19 из 20 задач и вошли в топ 5 % участников
Во втором большом CTF (≈8 000 команд) лучшему ИИ-агенту удалось захватить 20 флагов из 62 и оказаться в топ-10%
При этом агенты справляются почти со всеми задачами, на которые человек тартит до часа времени, и делают это в разы быстрее

Одинаково неплохо моделям удавались и задачи на взлом шифра, и веб-взломы, и форензика, и эксплуатация уязвимостей 💀

Ну и экономический эффект тоже на месте. Если принять во внимание, что на одну команду из топ-5% обычно уходит не менее нескольких сотен человеко-часов на подготовку, анализ и написание эксплойтов, то даже самый дорогой агент, который работал 500ч, в итоге обошелся дешевле, чем 10 таких живых команд.

arxiv.org/pdf/2505.19915

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/7005

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from us


Telegram Data Secrets
FROM American