Telegram Group Search
🌐 Первый международный отчет по безопасности ИИ: ключевые выводы

Отчет подготовлен 100 независимыми экспертами из 33 стран и сфокусирован на трех ключевых вопросах:

- Что может ИИ общего назначения?
- Какие риски с ним связаны?
- Как эти риски можно снизить?

Важно: отчет не дает конкретных политических рекомендаций, а предоставляет научную основу для принятия решений и международного диалога о безопасности продвинутого ИИ.

Ключевые выводы:

📈 Стремительный рост возможностей ИИ: от написания текстов до создания программ и фотореалистичных изображений. Последние модели демонстрируют значительный прогресс в научном мышлении.

🤖 Компании активно инвестируют в разработку ИИ-агентов — систем, способных автономно действовать и планировать с минимальным контролем человека.

⚠️ Уже подтверждены риски: мошенничество, генерация NSFW-контента, предвзятость моделей, проблемы надежности и конфиденциальности.

🎯 Новые угрозы: масштабное влияние на рынок труда, ИИ-хакинг, биологические атаки. Эксперты расходятся в оценках сроков реализации этих рисков — от десятилетий до нескольких лет.

⚖️ Дилемма для регуляторов: выбор между преждевременными ограничениями и риском остаться неподготовленными к резким скачкам в развитии ИИ.

Отчет станет основой для обсуждения на Саммите по ИИ, который пройдет в Париже 10 - 11 февраля


📝Отчёт
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ открыл новый способ считать. Но вы всё равно продолжите пользоваться калькулятором

ИИ должен упростить нашу жизнь, да? Ну так вот, вместо того, чтобы просто запомнить, что 2+2=4, GPT-J делает что-то похожее на тригонометрический ритуал. Он кодирует числа на многомерной спирали, раскладывает в базис косинусов, а сложение выполняет через преобразования, которые нормальный человек даже на экзамене по линалу не вспомнит.

Исследователи попытались разобраться, как LLM складывают числа, и обнаружили, что модели вроде GPT-J-6B кодируют и обнаружили метод, который назвали Clock algorithm, потому что сложение выполняется как сложение углов: через cos(a), cos(b) → cos(a+b) и напоминает сложение углов на циферблате.

Векторные представления чисел исследовали через остаточный поток модели, прогоняя GPT-J-6B на всех числах из диапазона [0,360]. Спектральный анализ показал, что представление разрежено в пространстве Фурье, а главная компонента PCA оказалась линейной. А что у нас такое периодическое и линейное? Спираль!🌀

x = r cos t
y = r sin t
y = c t

Проверили это гипотезу, подбирая параметры спирали для представления каждого числа. Оказалось, что токены, представляющие суммы (a+b), хорошо описываются этой же основой, что говорит о реальном использовании модели такого механизма.

🛠️ Как проверить, что модель действительно так считает?
✔️ Intervention patching: заменили активации слоёв модели на вычисленные вручную спиральные представления и обнаружили, что это почти так же хорошо, как полная подмена слоя! Значит, модель действительно использует эту структуру.
✔️ Разделение ролей между слоями: слои MLP 14-18 формируют спиральное представление (a+b), а слои 19-27 считывают его и поднимают соответствующий токен в логитах.
✔️ Разбор нейронов: используя атрибуционные техники, исследователи выяснили, что активации нейронов MLP тоже следуют периодическим паттернам, что дополнительно подтверждает гипотезу о геликоидальном (спиральном) сложении.

Почему это важно?
Оказывается, вместо того, чтобы просто запоминать суммы, модель самостоятельно выучивает сложную, но универсальную алгоритмическую структуру! Этот же метод ранее встречался в исследованиях модульного сложения в трансформерах, который раньше описывал Neel Nanda. LLM не просто таблицы с вероятностями, а какие-то самоорганизующиеся вычислительные системы.
В любом случае, может, машинное обучение и не всегда дает интуитивно понятные решения, но точно умеет находить красивые и неожиданные пути.

🔗 Источники:
📜 arxiv
📝 Блог
💻 Код
Пульс влияния ИИ на общество: Экономический Индекс Anthropic

Компания Anthropic объявила о запуске Экономического Индекса Anthropic — инициативы, направленной на изучение влияния ИИ на рынки труда и экономику.

Первый отчет Индекса анализирует миллионы анонимных интеракций на платформе Claude.ai, предоставляя данные о том, как ИИ интегрируется в реальные задачи современной экономики.

Основные выводы отчета:

- ИИ активно используется в задачах разработки программного обеспечения и технического письма.

- Более трети профессий (около 36%) применяют ИИ как минимум в четверти своих задач, тогда как примерно 4% профессий используют его в трех четвертях задач.

- ИИ чаще используется для дополнения человеческих возможностей (57%), чем для полной автоматизации задач (43%).

- Применение ИИ более распространено в профессиях со средним и высоким уровнем заработной платы, таких как программисты и дата-сайентисты, и менее — в низко- и высокооплачиваемых ролях.


Anthropic также открывает доступ к данным, которые использовались для составления отчёта

💻 Блог

📝Отчёт

💾 Датасет
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Когда много думать — вредно.

Свежайшее исследование показало, что слишком много размышлений (у LLM) не просто тратит ресурсы впустую — оно ухудшает результат!

Исследователи обнаружили, что если заставлять модели “думать” больше, чем нужно, их точность падает, а вычислительные затраты растут.

В ходе эксперимента исследователи выбрали решения с меньшим уровнем “избыточного размышления” и добились удивительных результатов:
🔹 Точность выросла на 30%
🔹 Расходы на вычисления снизились на 43%

Это означает, что чрезмерное рассуждение вредит не только людям, но и нейросетям.

На волне успехов reasoning моделей я решил послушать «Думай медленно, решай быстро» и оказалось, что книжка 2011 года просто нашпигована инсайтами на 2025 год!

Один из таких инсайтов - чтобы создать действительно умные ИИ-размышления, нужно учесть один важный фактор: лень (ну или если формально, то стремление системы потреблять как можно меньше ресурсов).

В когнитивной науке давно известно, что наш мозг использует два типа мышления:
🧠 Система 1 — интуитивная, быстрая, автоматическая.
🧐 Система 2 — медленная, аналитическая, но… максимально экономная.

Система 2 включается только тогда, когда это действительно необходимо. Но, что еще более важно в контексте исследования про overthinking, она не просто потребляет много ресурсов, но и старается их минимизировать.

Если применить это к ИИ, то уже в ближайшее время мы будем наблюдать новый класс “разумных” моделей, которые:
- Будут рассуждать только тогда, когда это оправдано, экономя вычислительные мощности.
- Гибко регулировать глубину анализа, избегая излишней сложности.
- И скорее всего будут минимизировать количество токенов на размышления, сохраняя качество ответов

Таким образом, чтобы вывести ИИ на новый уровень, недостаточно просто заставить его “думать сильнее”. Надо научить его думать эффективнее.

Следующий прорыв в AI, скорее всего, придёт из когнитивистики, социальной психологии и педагогики — дисциплин, которые десятилетиями изучают, как люди думают и учатся.

Статья про overthinking
SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья
This media is not supported in your browser
VIEW IN TELEGRAM
Без математики в мире искусственного интеллекта никуда.

Однако стандартные учебные программы часто не дают никакой интуиции и визуального смысла.
В итоге остается использовать калькулятор и бежать, едва завидев формулы...

Проект Popmath решил исправить ситуацию и подготовил наполненные 2D и 3D анимациями 4-х месячные онлайн-курсы через Zoom, которые позволяют ознакомиться с предметом намного проще и побороть математическую тревожность:

🟧 [Математика для взрослых] — для желающих получить прочную математическую базу с полного нуля. Предварительные знания не требуются.

🟥 [Линейная алгебра] — для тех, кто хочет разобраться в предмете поглубже и выйти за рамки базовых знаний математики.

Старт групп: середина марта

Вопросы ➡️ @popmath_support

#реклама
🚀💰 AI-революция в глобальной экономике: анализ годового письма Stripe 2024

Привет, друзья! Сегодня мы погрузимся в анализ свежего годового письма Stripe за 2024 год и убедимся, что AI трансформирует мировую экономику прямо у нас на глазах.

Эпоха AI-экономики наступила!

Stripe не стесняется называть происходящее настоящим "AI-бумом" — и неспроста! Всё больше компаний перестраивают свои бизнес-модели вокруг больших языковых моделей (LLM) и других прорывных технологий машинного обучения. Это касается не только гигантов уровня OpenAI или Anthropic, но и стартапов, которые буквально за считанные месяцы выходят на выручку в миллионы долларов.

Реальные примеры взрывного роста:

- Perplexity: AI-поисковик, обрабатывающий сотни миллионов запросов ежемесячно (основан в 2022 году)
- Cursor: интегрированная с AI-инструментами платформа для разработчиков (заработали $100M меньше чем за 3 года существования)
- Lovable и Bolt: стартапы, $17M за 3 месяца и $20М за 2 месяца соответственно
- Специализированные решения: AI-помощники в медицине (Abridge, Nabla), недвижимости (Studeo), дизайне (SketchPro) и других областях

AI-агенты: новый рубеж финансовых технологий

Одна из самых, на мой взгляд, взрывных разработок Stripe — создание инфраструктуры для "агентных" платежных систем. AI-системы уже самостоятельно проводят транзакции (Perplexity и Payman) в рамках заданных лимитов и правил — без непосредственного участия человека!

Это открывает захватывающие возможности:
- Автоматическое пополнение складских запасов
- "Умное" продление подписок
- Оптимизация регулярных бизнес-расходов
- Мгновенная оплата услуг от имени пользователя (с его разрешения)

AI как двигатель традиционного бизнеса

Искусственный интеллект помогает не только в сфере технологий. Stripe годами использует вполне себе классические ML-модели для:
- Борьбы с мошенничеством (например, Radar, который автоматически выявляет подозрительные транзакции)
- Повышения конверсии платежей (умные алгоритмы снижают количество отказов при оплате)
- Оптимизации финансовых потоков

Даже старейшие и консервативные организации присоединяются к цифровой трансформации! Университет Оксфорда, Англиканская церковь, гиганты вроде Hershey и PepsiCo внедряют интеллектуальные платежные системы и видят результаты: выше уровень авторизаций, меньше отказов, больше выручка.

Другие ключевые тренды из письма Stripe

Stablecoins: будущее глобальных финансов
Stripe уверен, что стабильные криптовалюты станут следующей ступенью эволюции денег:
- Ускорят и удешевят международные переводы
- Обеспечат доступ к доллару в странах с нестабильной экономикой
- Создадут фундамент для новых финансовых операций в глобальном масштабе

Вертикальные SaaS-платформы для малого бизнеса
Растет популярность узкоспециализированных решений:
- Интегрированные платформы для ресторанов, клиник, салонов красоты, пиццерий и тп
- Комбинация платежей, CRM, логистики и AI в едином интерфейсе
- Возможность запустить бизнес буквально за недели, а не месяцы

Экономические вызовы Европы 🇪🇺
Письмо затрагивает разрыв в продуктивности между США и Европой:
- Необходимость снижения бюрократических барьеров
- Создание более благоприятной среды для стартапов
- Реформы для привлечения венчурного капитала

Взгляд в будущее: AI меняет всё прямо сейчас

Stripe прогнозирует, что 2025 год станет переломным для AI-экономики. Мы увидим:
- Еще больше предпринимателей, делающих ставку на AI-решения
- Прорыв в повседневных сервисах с интеллектуальными помощниками
- Формирование принципиально новых бизнес-моделей и рынков

Очень рекомендую прочитать письмо целиком!
🎧🏛️ ИИ-экскурсия в Азиатском художественном музее

Сегодня я открыл для себя будущее музейных экскурсий, и теперь просто обязан этим поделиться! 🔥

Я посетил Азиатский художественный музей в Сан-Франциско, но вместо стандартного аудиогида или экскурсовода использовал голосовой и видеорежим ChatGPT. Результат? Уникальный, полностью персонализированный тур, который превзошел все ожидания!

💬 Как это работало?
• Я надел свои AirPods Max и задал контекст:
📍 «Я на третьем этаже Азиатского художественного музея в Сан-Франциско»
• Включил видеорежим и просто направил камеру телефона на экспонаты.
• ИИ мгновенно определял артефакты и рассказывал их историю, как настоящий эксперт:
«Расскажи про эту статую Будды» – мгновенный ответ с деталями о стиле и эпохе!
«Чем японские хранители-львы отличаются от китайских?» – глубокий разбор культурных различий!
«Почему эти древние бронзовые сосуды такие массивные?» – исторический контекст и символика!

🔥 Почему это было так круто?

Полная интерактивность – никаких скучных, шаблонных лекций! Я спрашивал все, что мне хотелось и углублялся в темы, которые мне действительно интересны (например, мы с ChatGPT зарубились минут на 10 в обсуждение того, откуда появились драконы в китайской мифологии 🐉).

Абсолютная свобода передвижения – не нужно отвлекаться на поиск информации или печатание вопросов. Просто гуляешь и разговариваешь с ИИ, как с персональным экскурсоводом!

🚀 Будущее экскурсий уже здесь!

Получается, что теперь в каждом музее мира можно получить персонального гида, который понимает ваши интересы, отвечает на вопросы и адаптируется под ваш темп осмотра.

💰 Цена вопроса? Всего $20 в месяц – и у вас в кармане умный помощник, заменяющий дорогостоящие экскурсии.

🎭 Лувр, Эрмитаж, Британский музей – с таким ИИ-ассистентом посещение музеев превращается в настоящее вдохновляющее приключение, а не просто просмотр табличек с датами.

📢 А вы бы попробовали ИИ-гид в музее? Делитесь в комментариях! Какой музей мечтаете посетить с такой технологией? Как бы вы развили эту тему дальше?
Media is too big
VIEW IN TELEGRAM
Офигенный workflow от аниматора Cuco

Это как раз идеальный пример, как художник может использовать AI для упрощения процессов не особо теряя в качестве.

-- Тут обучение Лоры на своих артах, особенно когда их мало.

-- Создание всего окружения в своём стиле + создание простых сцен. Я делал что-то похожее здесь.

-- Создание простых анимаций использую только линии и затем Lineart на своей Лоре чтобы сделать финальную картинку.

-- Далее AnimateDiff с Lineart ControlNet для сцен + Лора. И вот уже у нас офигенные слои, которые можно будем потом композить.

Автор: LINK
ChatGPT кушает поиск?

Интересная статистика от Vercel: ChatGPT уже генерирует 4.8% всех новых регистраций и этот показатель растёт крайне быстро (менее полугода назад было всего около 1%). Но важно понимать, что это не значит, будто ChatGPT напрямую вытесняет Google. Скорее, люди начали искать и спрашивать о таких вещах, о которых без ChatGPT они бы просто не подумали или поленились бы сформулировать вопрос в Google.

Таким образом, ChatGPT скорее дополняет привычный поиск, расширяя границы (и market size) того, что мы вообще готовы спрашивать и узнавать.

Кстати, SEO-оптимизация специально для генеративного поиска — это сейчас крутая и практически незанятая ниша. Кто первый её освоит, получит огромное преимущественное место на рынке.

X
AI для Всех
ChatGPT кушает поиск? Интересная статистика от Vercel: ChatGPT уже генерирует 4.8% всех новых регистраций и этот показатель растёт крайне быстро (менее полугода назад было всего около 1%). Но важно понимать, что это не значит, будто ChatGPT напрямую вытесняет…
SEO для генеративного поиска — что важно знать прямо сейчас

В догонку к предыдущему посту я заинтересовался, как оптимизировать сайты под AI-поиск и провел небольшой рисерч с помощью Grok. Вот ключевые рекомендации:

1. Разрешите AI-краулерам доступ — убедитесь, что ваш сайт индексируется ботами, такими как OAI-SearchBot (ChatGPT). Это увеличит шанс попадания вашего контента в ответы AI.

2. Высококачественный и релевантный контент — AI модели предпочитают чёткий, структурированный контент, отвечающий на запросы пользователей максимально полно и точно.

3. Структурируйте контент ясно — используйте заголовки, списки и логичную подачу, чтобы облегчить AI извлечение информации и представление её пользователю.

4. Используйте структурированные данные (schema markup) — это помогает AI лучше распознавать и ранжировать ваш контент.

5. Отслеживайте AI-рефералы — применяйте аналитику для отслеживания трафика от AI-сервисов, таких как ChatGPT, чтобы понимать эффективность ваших действий.

Кто знает еще какие то важные нюансы - делитесь!

Полное исследование тут
Вечер в Сиэтле

Вечером 17ого марта буду в Сиэтле, готов организовать пиво 🍻

Если есть кто-то, добавляйтесь!

https://partiful.com/e/gAwx8xRvwgw8myZ2So0r
AI + Наука: как 1500 учёных использовали искусственный интеллект, чтобы ускорить исследования 🧪🤖

Вернёмся к истокам нашего канала: что происходит, когда ведущие учёные получают доступ к новейшему искусственному интеллекту?

Первая в истории AI-сессия для учёных 🔬💻

28 февраля 2025 года OpenAI и Министерство энергетики США организовали беспрецедентное мероприятие: около 1500 ведущих учёных из 9 национальных лабораторий собрались вместе, чтобы проверить, насколько AI может ускорить научные исследования.

Учёные использовали передовые модели OpenAI (включая новую модель o3-mini), задав за один день более 4000 научных вопросов и написав свыше 20 000 AI-промптов!

Что конкретно изучали учёные? 🔍🧠

Исследователи не тратили время зря и сразу взялись за реальные задачи, имеющие огромное значение для общества:
• Определение бактерий для разработки новых лекарств и натуральных пестицидов 🦠
• Повышение кибербезопасности энергетических сетей 🔐
• Усовершенствование исследований в области ядерной энергии ⚛️
• Развитие квантовой механики для улучшения МРТ и лазерной хирургии 🔬
• Повышение точности прогнозов погоды и ядерной криминалистики 🌦️

Учёные отметили, что применение искусственного интеллекта значительно ускорило решение задач, с которыми ранее они сталкивались месяцами.

Реальные выводы и результаты 📊

Президент OpenAI Грег Брокман и министр энергетики США Крис Райт подчеркнули, что развитие AI сейчас напоминает «Манхэттенский проект» по масштабу и важности. По их мнению, такая коллаборация — залог технологического лидерства США.

Главный экономист OpenAI Ронни Чаттерджи добавил важную мысль: «AI максимально повлияет на продуктивность, когда даст учёным возможность делать открытия, которых раньше не было, и успешно применять их на практике».

Что дальше? 🚀🔭

Это событие — только начало масштабного сотрудничества между OpenAI и национальными лабораториями.

Главная цель этих усилий — не просто развитие технологий, а значительное улучшение жизни людей благодаря новым научным открытиям, улучшению медицины, образованию и безопасности (ну и гос контракты конечно).

Ссылка 1
Ссылка 2

А как вы считаете, какие научные открытия стоит ускорить с помощью AI? Делитесь мнениями в комментариях! 💬👇
ИИ-учёный на ведущей МЛ конференции: статья прошла слепое рецензирование на воркшоп ICLR 2025

Японская компания Sakana AI продолжает совершенствовать своего AI Scientist, о котором мы писали раньше, способного полностью автоматизировать научные исследования. Недавно одна из статей, от и до созданная AI Scientist v2, прошла процесс слепого рецензирования на воркшопе ICLR 2025 — одной из трёх ведущих конференций в области машинного обучения.

Как это произошло?

The AI Scientist самостоятельно сгенерировал научную гипотезу, предложил эксперименты для её проверки, написал и отладил код, провёл эксперименты, проанализировал данные, визуализировал результаты и полностью написал научную статью — от заголовка до списка литературы. Человеческое вмешательство ограничивалось лишь выбором общей темы исследования и отбором трёх лучших статей для подачи.

Результаты рецензирования

Из трёх поданных статей одна получила среднюю оценку 6,33, что превышает порог для принятия на воркшопе ICLR 2025. Оценки рецензентов были следующими:
• 6: Немного выше порога принятия
• 7: Хорошая статья, принять
Это означает, что статья, созданная ИИ, была оценена на уровне или выше многих статей, написанных людьми.

Этические аспекты

Не волнуйтесь, рецензенты были уведомлены, что 3 из 43 статей могут быть сгенерированы ИИ, но не знали, какие именно работы они рецензируют. В рамках эксперимента было заранее решено, что даже в случае принятия статьи, она будет отозвана до публикации, учитывая, что она полностью создана ИИ. Это потому что в научном сообществе ещё нет консенсуса о правилах публикации подобных работ.

Что дальше?

Sakana AI продолжает совершенствовать The AI Scientist и планирует расширять его применение в различных областях науки. Этот эксперимент, безусловно, ставит перед нами важные вопросы о будущем научных исследований и роли ИИ в них. Возможно, настало время пересмотреть наши критерии публикаций, сосредоточившись на их полезности для человечества.

🌐Repo
🐯Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Трансформеры без нормализации

В свежей статье от марта 2025 года исследователи из Meta, MIT, NYU и Принстона предложили простой способ сделать трансформеры эффективнее, отказавшись от классических слоев нормализации.

Вместо привычных LayerNorm авторы предлагают использовать Dynamic Tanh (DyT): tanh(αx), где α — обучаемый параметр.

Почему это интересно

Обычно нормализация необходима, чтобы стабилизировать обучение нейросетей, однако она требует дополнительных вычислений. Оказалось, что DyT не только сохраняет качество трансформеров, но и немного ускоряет их инференс и обучение, примерно на 7%.

Что заметили авторы

Внимательно изучив работу слоев нормализации, исследователи увидели, что они ведут себя как S-образные (сигмоидные) функции, похожие на tanh. Оказывается, что важнее всего в нормализации оказалось именно нелинейное подавление экстремальных значений активаций (squashing).

Что это даёт на практике

DyT успешно заменяет нормализацию во многих типах трансформеров:
• Vision Transformers
• Языковые модели (включая модели с 70 млрд параметров)
• Диффузионные модели
• Распознавание речи
• Геномные модели

Исследование с кодом доступно на странице проекта и в статье
Как обучить диффузионную модель с нуля за $1890?


Законы масштабирования в генеративном ИИ повышают производительность, но есть ньюанс: разработка моделей концентрируется среди игроков с большими вычислительными ресурсами.

Поскольку стоимость обучения text-to-image трансформера растет с количеством участков в каждом изображении, исследователи из Sony AI предложили случайным образом маскировать до 75% участков изображения во время обучения.

Применяется стратегия отложенного маскирования, которая предварительно обрабатывает все участки с помощью
микшера участков перед маскированием, тем самым значительно снижая ухудшение производительности процесса. Для оптимизации вычислительных затрат данный подход со работает лучше, чем уменьшение масштаба модели.

В исследование также включили последние
улучшения в архитектуре трансформеров, такие как использование слоев с mixture of experts (MoE),чтобы улучшить производительность и убедиться в важности использования синтетических изображений для уменьшения затрат на обучение.

Какие результаты?

Используя только 37 млн изображений (22 млн реальных + 15 млн синтетических), была обучена модель типа "sparse transformer" с 1,16 млрд параметров.

На обучение было потрачено всего 1890$ !

Была достигнута производительность 12,7 FID при zero shot learning на наборе данных COCO.

Примечательно, что модель достигает конкурентоспособного FID и высококачественных генераций, при этом требуя в 118 раз меньших затрат, чем стабильные диффузионные модели, и в 14 раз меньших затрат, чем текущий современный подход, который стоит 28400$


🔍 Технические детали:
• Архитектура: sparse DiT-XL/2 трансформер
• Вычисления: 8×H100 GPU на 2,6 дня тренировки
• VAE: использование как SDXL-VAE (4 канала), так и Ostris-VAE (16 каналов)
• Патч-миксер перед трансформером + маскирование 75% патчей
• Обучение: 280K шагов на 256×256, затем 55K шагов на 512×512
• Размер батча: 2048, с применением центрального кропа

📊 Доступные предобученные модели:
1. MicroDiT_XL_2 на 22 млн реальных изображениях (FID 12.72)
2. MicroDiT_XL_2 на 37 млн изображениях (FID 12.66) с SDXL-VAE
3. MicroDiT_XL_2 на 37 млн изображениях (FID 13.04) с Ostris-VAE
4. MicroDiT_XL_2 на 490 млн синтетических изображениях (FID 13.26)

💻 Репозиторий содержит полный код, включая обработку датасетов и тренировочные конфиги для каждого этапа

🔗 Статья

4️⃣ GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
AGI уже близко, говорили они 😊


Отличных выходных всем!


#юмор
🤗 HuggingFace model atlas

ИИследователи из Израиля создали Model Atlas — инструмент, с помощью которого они изучили миллионы нейросетей на Hugging Face.

Зачем?

Сегодня в открытом доступе миллионы моделей нейросетей, и выбрать подходящую — целая задача. Новый атлас решает её, показывая все связи между моделями в виде понятного графа: узлы — это нейросети, а ребра — отношения (например, файнтюнинг, квантование, слияние).

Самое интересное из атласа:

• NLP-модели (языковые нейросети) активно файнтюнятся и объединяются в сложные цепочки, постоянно эволюционируя.
• Модели для компьютерного зрения в основном остаются простыми и «прямыми наследниками» базовых моделей.
• Квантование (уменьшение размера модели) очень популярно у языковых нейросетей и почти не используется для компьютерного зрения.
• Генеративные нейросети активно применяют адаптеры (например, LoRA), дискриминативные же чаще полностью переобучают.
• Более половины моделей на Hugging Face плохо описаны или не документированы совсем. Атлас умеет эффективно заполнять такие пробелы.

И что?

Атлас в его текущем виде - это произведение искусства. Можно часами залипать в связи между моделями! В будущем авторы хотят дополнить его новыми типами связей (дистилляция, интеллектуальная собственность) и расширить на другие платформы.

🌐 Интерактивный атлас
📄 Оригинальная статья на arXiv
2025/06/28 07:07:07
Back to Top
HTML Embed Code: