ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
Этим курсом мы готовим людей себе в команды и в команды наших друзей из сейфти лаб. Поэтому курс бесплатный. По этой же причине делаем серьезный отбор кандидатов
Для кого?
Программа из двух треков:
Опыт менторов покрывает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability
Сертификат и карьерная консультация по окончанию курса
Менторское сопровождение лучших проектов до публикации
Детали:
По вопросам пишите @anton_zheltoukhov
Please open Telegram to view this post
VIEW IN TELEGRAM
Команда курса. Менторы
Лена Еричева
Приглашенный ментор. li. @eericheva
ML исследователь с 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
Миша Селезнёв
Ментор. @exxxplainer
Исследователь в AIRI, работает над PhD, был в AI safety Camp, MATS, CHAI. Соавтор Obfuscated Activations Bypass LLM Latent-Space Defenses. Сейчас исследует высокоуровневые вопросы: Чему должна удовлетворять сильная AI система, чтобы мы могли назвать ее достаточно безопасной? Как связаны сложность/нечеткость постановки задачи с тем, насколько агентным должен быть тот, кто может ее решить? Что такое интерпретируемость? Что такое генерализация?
Настя Гайдашенко
Приглашенный ментор. li. @avgaydashenko
В прошлом датасаентистка. Училась в Академическом Университете в Питере. Закончила Technical University of Munich по AI Governance. Контрибьютила в технические стандарты для EU AI Act и AI Risk Management Standards Profile для NIST. Сейчас работает проджектом в FAR.AI. Работает с idais.ai. Член совета директоров ashgro.org
Артем Карпов
Приглашенный ментор. cv. @vpktra
Исследователь в Apart Research. На текущем проекте пытается выявить скрытые reasoning возможности llm (стеганография) с помощью RL. Прошел через MATS, ARENA, MLSS. Соавтор NeurIPS статьи Inducing Brain Bias. До сейфти занимался разработкой софта
Игорь Иванов
Приглашенный ментор. li. @baceolus
Исследователь в Oxford Biosecurity Group, где занимается бенчмарками и ред-тимингом с фокусом на оценку биологических рисков. Сейчас занимается оценками рисков от ИИ агентов, способных лгать и скрывать свои цели. Автор бенчмарка BioLP-bench. До этого работал 8 лет в биотехе и медицине. Готов вести проекты, как связанные с биологическими evals, так и с любыми другими, в зависимости от бекграунда и интересов студентов
Антон Желтоухов
Организатор курса. Ментор. li. @anton_zheltoukhov
Рисеч лид проекта Accounting for Capability Overhang. A step towards new evals в AI Safety Camp. Сейчас фокусируется на evals и промт оптимизиторах. Работал над аджендой Positive Attractors. Выпускник ARENA. В свободное время переносит инсайты из developmental psychology в safety, Narrative Theory. До сейфти 6 лет работал в it: qa, dev. MS системного анализа в питерском политехе. Ведет блоги the hard bits и you can (not) advance
Денис Моисеенко
Приглашенный ментор. li. @culpritgene
Независимый исследователь; 4.5 года в RnD - биоинформатика, графы знаний, NLP. Сейчас занимается агентными LLM системами для healthcare. Глубокие знания в области Geometric Deep Learning / Knowledge Graphs. Плавно переходит в AI Safety, участвует в проекте SPAR по autoregressive conditioning hypothesis. Основной интерес – нести геометрическую перспективу в MechInterp. MSc Skoltech (Life Science)
Антон Чайников
Ментор. @mx_xun
В рабочее время пишет компиляторы на хаскеле. В прошлом промышленный ML инженер. В свободное время рассказывает про высокую математику. Исследует Agent Foundations. Ищет ответы на вопросы: Каким образом градиентный спуск превращает случайные веса и данные в алгоритмы? Есть ли внутри нейросетей модели предметных областей? Как их найти и что-то с ними сделать? Как связать абстрактную теорию Agent Foundations с практикой ML / RL / MechInterp/
+ приглашенные менторы из Palisade Research
Лена Еричева
Приглашенный ментор. li. @eericheva
ML исследователь с 10-летним опытом в биотехнологиях и медтехе. В METR занимается AI Alignment и AI Safety: исследует возможности ИИ-моделей, разрабатывает бенчмарки и проводит Blue Teaming с фокусом на безопасности. Специализируется на компьютерном зрении, NLP и эффективном применении современных LLM и VLLM. А еще ведет канал Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
Миша Селезнёв
Ментор. @exxxplainer
Исследователь в AIRI, работает над PhD, был в AI safety Camp, MATS, CHAI. Соавтор Obfuscated Activations Bypass LLM Latent-Space Defenses. Сейчас исследует высокоуровневые вопросы: Чему должна удовлетворять сильная AI система, чтобы мы могли назвать ее достаточно безопасной? Как связаны сложность/нечеткость постановки задачи с тем, насколько агентным должен быть тот, кто может ее решить? Что такое интерпретируемость? Что такое генерализация?
Настя Гайдашенко
Приглашенный ментор. li. @avgaydashenko
В прошлом датасаентистка. Училась в Академическом Университете в Питере. Закончила Technical University of Munich по AI Governance. Контрибьютила в технические стандарты для EU AI Act и AI Risk Management Standards Profile для NIST. Сейчас работает проджектом в FAR.AI. Работает с idais.ai. Член совета директоров ashgro.org
Артем Карпов
Приглашенный ментор. cv. @vpktra
Исследователь в Apart Research. На текущем проекте пытается выявить скрытые reasoning возможности llm (стеганография) с помощью RL. Прошел через MATS, ARENA, MLSS. Соавтор NeurIPS статьи Inducing Brain Bias. До сейфти занимался разработкой софта
Игорь Иванов
Приглашенный ментор. li. @baceolus
Исследователь в Oxford Biosecurity Group, где занимается бенчмарками и ред-тимингом с фокусом на оценку биологических рисков. Сейчас занимается оценками рисков от ИИ агентов, способных лгать и скрывать свои цели. Автор бенчмарка BioLP-bench. До этого работал 8 лет в биотехе и медицине. Готов вести проекты, как связанные с биологическими evals, так и с любыми другими, в зависимости от бекграунда и интересов студентов
Антон Желтоухов
Организатор курса. Ментор. li. @anton_zheltoukhov
Рисеч лид проекта Accounting for Capability Overhang. A step towards new evals в AI Safety Camp. Сейчас фокусируется на evals и промт оптимизиторах. Работал над аджендой Positive Attractors. Выпускник ARENA. В свободное время переносит инсайты из developmental psychology в safety, Narrative Theory. До сейфти 6 лет работал в it: qa, dev. MS системного анализа в питерском политехе. Ведет блоги the hard bits и you can (not) advance
Денис Моисеенко
Приглашенный ментор. li. @culpritgene
Независимый исследователь; 4.5 года в RnD - биоинформатика, графы знаний, NLP. Сейчас занимается агентными LLM системами для healthcare. Глубокие знания в области Geometric Deep Learning / Knowledge Graphs. Плавно переходит в AI Safety, участвует в проекте SPAR по autoregressive conditioning hypothesis. Основной интерес – нести геометрическую перспективу в MechInterp. MSc Skoltech (Life Science)
Антон Чайников
Ментор. @mx_xun
В рабочее время пишет компиляторы на хаскеле. В прошлом промышленный ML инженер. В свободное время рассказывает про высокую математику. Исследует Agent Foundations. Ищет ответы на вопросы: Каким образом градиентный спуск превращает случайные веса и данные в алгоритмы? Есть ли внутри нейросетей модели предметных областей? Как их найти и что-то с ними сделать? Как связать абстрактную теорию Agent Foundations с практикой ML / RL / MechInterp/
+ приглашенные менторы из Palisade Research