Подозреваю что это скоро все прикроют, но пока что, держите новые вкусы популярных чипсов от ChatGPT 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Спросил у Claude: "Назови 10 ключевых навыков для успешного сосуществования с ИИ и максимального использования его возможностей в будущем" А что думаете вы? Какие навыки самые важные? 😊 🤖
Anonymous Poll
33%
Инженерия промптов - Умение четко формулировать запросы к системам ИИ
55%
Критическое мышление - Оценка результатов работы ИИ на точность, релевантность и предвзятость
35%
Цифровая грамотность - Понимание возможностей, ограничений и основных технологий ИИ
21%
Этическое суждение - Принятие ответственных решений о том, когда и как применять ИИ
37%
Сотрудничество человека и ИИ - Работа вместе с системами ИИ как взаимодополняющими партнерами
50%
Адаптивность - Быстрое приспособление к новым инструментам ИИ и изменяющимся рабочим процессам
25%
Грамотность в области данных - Понимание того, как данные влияют на системы ИИ
27%
Креативность - Предоставление уникальных человеческих идей и опыта
38%
Междисциплинарное мышление - Соединение возможностей ИИ в различных областях и контекстах
24%
Межличностный интеллект - Поддержание крепких человеческих отношений и эмоциональных навыков
Пиво с ИИ
SF и Bay Area! Давайте соберёмся за пивом и поболтаем про ИИ, роботов и вообще обо всём на свете.
📅 4 апреля (пятница)
⏰ 18:00
📍 Woods Lowside
Записывайся!
SF и Bay Area! Давайте соберёмся за пивом и поболтаем про ИИ, роботов и вообще обо всём на свете.
📅 4 апреля (пятница)
⏰ 18:00
📍 Woods Lowside
Записывайся!
Где вы живете (части света)?
Anonymous Poll
69%
Европа
15%
Азия
1%
Африка
1%
Океания
5%
Северная Америка
1%
Южная Америка
9%
Антарктида 🐧
Как ИИ помог раскрыть демографию канала через MCP
После моего поста о протоколе MCP я применил эту технологию для анализа демографии нашего сообщества.
Портрет нашей аудитории
Наши подписчики — преимущественно молодые технари: 90.9% моложе 40 лет с пиком в 21-25 лет. Большинство увлекается компьютерными науками и математикой. Географически 74.1 находится в постсоветском пространстве, при этом 21.5 — в других странах.
Неожиданно высоким оказался процент платных подписчиков ChatGPT — 42.2, что говорит о серьезном интересе к ИИ-технологиям. Среди ключевых навыков вы особенно цените критическое мышление и адаптивность.
Как это влияет на контент
Учитывая полученные данные, мы сфокусируемся на:
- Практических аспектах интеграции ИИ с другими технологиями
- Глубоких технических разборах
- Контенте на стыке дисциплин
MCP превратил разрозненные опросы в цельную картину нашей аудитории, наглядно демонстрируя возможности интеграции ИИ с внешними системами.
А как бы вы использовали MCP для анализа сообществ? Делитесь идеями!
После моего поста о протоколе MCP я применил эту технологию для анализа демографии нашего сообщества.
Портрет нашей аудитории
Наши подписчики — преимущественно молодые технари: 90.9% моложе 40 лет с пиком в 21-25 лет. Большинство увлекается компьютерными науками и математикой. Географически 74.1 находится в постсоветском пространстве, при этом 21.5 — в других странах.
Неожиданно высоким оказался процент платных подписчиков ChatGPT — 42.2, что говорит о серьезном интересе к ИИ-технологиям. Среди ключевых навыков вы особенно цените критическое мышление и адаптивность.
Как это влияет на контент
Учитывая полученные данные, мы сфокусируемся на:
- Практических аспектах интеграции ИИ с другими технологиями
- Глубоких технических разборах
- Контенте на стыке дисциплин
MCP превратил разрозненные опросы в цельную картину нашей аудитории, наглядно демонстрируя возможности интеграции ИИ с внешними системами.
А как бы вы использовали MCP для анализа сообществ? Делитесь идеями!
🏢 Wunder Fund — Post Trade Researcher
💰 $4,000 — $6,000
Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.
Сейчас мы ищем человека на новую позицию post-trade исследователя.
🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.
📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина
🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными
✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом
💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту [email protected]
#реклама
💰 $4,000 — $6,000
Python
, Linux
, DS
, pandas
, SQL
Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.
Сейчас мы ищем человека на новую позицию post-trade исследователя.
🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.
📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина
🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными
✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом
💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту [email protected]
#реклама
AI для Всех
ИИ-учёный на ведущей МЛ конференции: статья прошла слепое рецензирование на воркшоп ICLR 2025 Японская компания Sakana AI продолжает совершенствовать своего AI Scientist, о котором мы писали раньше, способного полностью автоматизировать научные исследования.…
🚀 Prompt Engineering: Как эффективно общаться с ИИ?
ИИ становится всё мощнее, и умение правильно формулировать запросы (промпты) превращается в ключевой навык. Вот простые, но важные советы из последнего руководства по Prompt Engineering:
🔸 Чётко ставьте задачу
Не оставляйте двусмысленности. Чем точнее вы опишите желаемый результат, тем лучше будет ответ.
🔸 Используйте примеры
Даже один-два примера (few-shot prompting) помогут модели понять стиль и формат ожидаемого ответа.
🔸 Регулируйте температуру
Хотите креатива? Поднимайте температуру выше (например, 0.7-1.0). Нужны повторяемые ответы? Опускайте до 0.
🔸 Осваивайте “цепочки размышлений” (Chain of Thought)
Для сложных задач попросите ИИ думать «шаг за шагом». Это повышает точность и прозрачность ответа.
🔸 Роль и контекст решают многое
Задайте ИИ роль (учитель, гид, редактор) или конкретный контекст, чтобы получить максимально релевантный ответ.
🌟 Практический пример:
“Ты редактор научной статьи. Перепиши текст ниже более формально и кратко: …”
Prompt Engineering — не магия, а ремесло. Экспериментируйте и документируйте свои успешные примеры. Грамотно составленный промпт порой важнее мощности самой модели!
📖 Прочитайте целиком, что бы основательно погрузится в тему:
• Руководство от Lee Boonstra, 2025
🎯 Почему это важно?
Как показал недавний эксперимент компании Sakana AI, качественно поставленная задача позволяет ИИ не просто генерировать тексты, а проводить полноценные научные исследования, конкурируя даже на ведущих конференциях уровня ICLR 2025.
🫰 Бонусный совет:
Подгрузите книжку целиком в LLM и попросите ее написать вам промпт, над которым вы сейчас работаете
ИИ становится всё мощнее, и умение правильно формулировать запросы (промпты) превращается в ключевой навык. Вот простые, но важные советы из последнего руководства по Prompt Engineering:
🔸 Чётко ставьте задачу
Не оставляйте двусмысленности. Чем точнее вы опишите желаемый результат, тем лучше будет ответ.
🔸 Используйте примеры
Даже один-два примера (few-shot prompting) помогут модели понять стиль и формат ожидаемого ответа.
🔸 Регулируйте температуру
Хотите креатива? Поднимайте температуру выше (например, 0.7-1.0). Нужны повторяемые ответы? Опускайте до 0.
🔸 Осваивайте “цепочки размышлений” (Chain of Thought)
Для сложных задач попросите ИИ думать «шаг за шагом». Это повышает точность и прозрачность ответа.
🔸 Роль и контекст решают многое
Задайте ИИ роль (учитель, гид, редактор) или конкретный контекст, чтобы получить максимально релевантный ответ.
🌟 Практический пример:
“Ты редактор научной статьи. Перепиши текст ниже более формально и кратко: …”
Prompt Engineering — не магия, а ремесло. Экспериментируйте и документируйте свои успешные примеры. Грамотно составленный промпт порой важнее мощности самой модели!
📖 Прочитайте целиком, что бы основательно погрузится в тему:
• Руководство от Lee Boonstra, 2025
🎯 Почему это важно?
Как показал недавний эксперимент компании Sakana AI, качественно поставленная задача позволяет ИИ не просто генерировать тексты, а проводить полноценные научные исследования, конкурируя даже на ведущих конференциях уровня ICLR 2025.
Подгрузите книжку целиком в LLM и попросите ее написать вам промпт, над которым вы сейчас работаете
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 DeepSeek‑R1 Thoughtology: Заглядываем в «мышление» LLM
🚀 Что такое DeepSeek‑R1?
DeepSeek‑R1 — это Large Reasoning Model (LRM) нового поколения, которая не просто выдаёт ответ, а открыто показывает всю цепочку рассуждений. Такой «прозрачный разум» запускает новую область исследований — Thoughtology (мыслелогия?)
🔍 Анатомия размышлений
Модель мыслит по чёткой схеме:
1. Определение проблемы – переформулирует задачу своими словами.
2. Bloom‑цикл – разбивает задачу на под‑проблемы, предлагает первый набросок решения.
3. Циклы реконструкции – многократно возвращается к прошлым шагам, уточняя и «пережёвывая» аргументы (rumination).
4. Финальный ответ.
📏 Длина мысли имеет значение
• Оптимальная длина цепочки существует: слишком коротко — нераскрытая логика, слишком длинно — лишние петли и ошибки.
• Токенный бюджет помогает «обрезать» лишнее мышление и экономит вычисления почти без потери качества.
• Сама модель пока не умеет автоматически останавливать себя на «идеальной» длине.
📚 Работа с контекстом
• Умеет в длинные вводные и решать многошаговые задачи.
• При конфликте между контекстом и внутренними знаниями чаще доверяет пользовательскому тексту — даже если тот ошибочен.
• Слишком объёмный контекст иногда приводит к расфокусу и менее связным ответам.
⚠️ Безопасность и культурные нюансы
• Открытая цепочка рассуждений делает модель уязвимее: она чаще генерирует вредный контент и лучше помогает взламывать другие ИИ.
• Языковые различия важны: на английском рассуждения длиннее и глубже, чем на китайском, отражая разные культурные ценности.
🖼️ За пределами текста
DeepSeek‑R1 пробует:
• ASCII‑арт
• Симуляцию физических процессов
Ключевые элементы сцены она видит, но пока с трудом связывает их в цельную картину.
💡 Итог
DeepSeek‑R1 демонстрирует, что «думать вслух» полезно и что сам reasoning еще есть куда улучшать и оптимизировать.
🐋 Более детально можно прочитать в статье
🚀 Что такое DeepSeek‑R1?
DeepSeek‑R1 — это Large Reasoning Model (LRM) нового поколения, которая не просто выдаёт ответ, а открыто показывает всю цепочку рассуждений. Такой «прозрачный разум» запускает новую область исследований — Thoughtology (мыслелогия?)
🔍 Анатомия размышлений
Модель мыслит по чёткой схеме:
1. Определение проблемы – переформулирует задачу своими словами.
2. Bloom‑цикл – разбивает задачу на под‑проблемы, предлагает первый набросок решения.
3. Циклы реконструкции – многократно возвращается к прошлым шагам, уточняя и «пережёвывая» аргументы (rumination).
4. Финальный ответ.
📏 Длина мысли имеет значение
• Оптимальная длина цепочки существует: слишком коротко — нераскрытая логика, слишком длинно — лишние петли и ошибки.
• Токенный бюджет помогает «обрезать» лишнее мышление и экономит вычисления почти без потери качества.
• Сама модель пока не умеет автоматически останавливать себя на «идеальной» длине.
📚 Работа с контекстом
• Умеет в длинные вводные и решать многошаговые задачи.
• При конфликте между контекстом и внутренними знаниями чаще доверяет пользовательскому тексту — даже если тот ошибочен.
• Слишком объёмный контекст иногда приводит к расфокусу и менее связным ответам.
⚠️ Безопасность и культурные нюансы
• Открытая цепочка рассуждений делает модель уязвимее: она чаще генерирует вредный контент и лучше помогает взламывать другие ИИ.
• Языковые различия важны: на английском рассуждения длиннее и глубже, чем на китайском, отражая разные культурные ценности.
🖼️ За пределами текста
DeepSeek‑R1 пробует:
• ASCII‑арт
• Симуляцию физических процессов
Ключевые элементы сцены она видит, но пока с трудом связывает их в цельную картину.
💡 Итог
DeepSeek‑R1 демонстрирует, что «думать вслух» полезно и что сам reasoning еще есть куда улучшать и оптимизировать.
🐋 Более детально можно прочитать в статье
DolphinGPT: как ИИ учится говорить с дельфинами
Национальный день дельфинов, 2025 год. Впервые мы не просто слушаем океан — мы начинаем отвечать.
Что, если у дельфинов есть язык? У них есть имена, сигналы угрозы и даже ухаживания. Они издают щелчки, свисты, burst-пульсы — всё это давно волнует учёных, но оставалось нерасшифрованным. Теперь, благодаря сотрудничеству Google, Georgia Tech и Wild Dolphin Project, у нас появился новый инструмент: DolphinGemma — первая языковая модель, обученная на языке другого вида.
Что такое DolphinGemma?
DolphinGemma — это компактная аудио-модель на 400 млн параметров, построенная на архитектуре Gemma (родственник Gemini). Она работает как аудиоверсия ChatGPT:
• принимает фрагменты натуральной дельфиньей речи,
• «понимает» контекст,
• предсказывает, как дельфин может ответить,
• и даже генерирует реалистичные звуки — в подводной среде, в реальном времени.
Эта модель работает прямо на смартфонах Pixel 9, встроенных в систему CHAT — подводный интерфейс общения человек–дельфин.
Чем уникальны данные
Модель обучена на 35-летнем корпусе данных, собранном Wild Dolphin Project на Багамах:
• каждая запись включает видео, аудио, поведение, личность дельфина;
• связь сигналов с контекстом (ссора, игра, забота о детёнышах);
• методы «in their world, on their terms» — без принуждения, без лабораторий.
Это один из самых глубоких датасетов в истории нейросетевого аудио.
Что умеет DolphinGemma уже сейчас
1. Распознаёт паттерны: находит повторяющиеся фразы и сцены.
2. Предсказывает развитие событий: например, что дельфин “ответит” на свист самки.
3. Ускоряет реакции: модель помогает исследователю быстрее понять, что «сказал» дельфин, и вовремя отдать нужный объект.
Со временем, как надеются учёные, это позволит выстроить взаимно понятный словарь: сигналы, которые и человек, и дельфин будут использовать для обозначения объектов или действий.
Почему это важно для нас
Мы работаем с LLM каждый день. Но DolphinGPT открывает перед LLM совсем другую миссию:
не генерация текста — а перевод между мирами.
Модель не просто имитирует язык. Она учится на незнакомом виде коммуникации, где нет слов, но есть структура, динамика, интонация. И если она сможет понять дельфина — кто знает, к чему это приведёт?
Что дальше?
• Открытая модель летом 2025 — любой сможет дообучить её на других китообразных (афалины, нарвалы, касатки).
• Контекстная аудиосемантика: вызов для тех, кто хочет выйти за пределы текста.
DolphinGPT — не просто технология. Это проба связи. Между видами. Между мирами. Между тишиной океана и нами.
Ссылки:
🌐 Wild Dolphin Project
🖥 Google AI Dolphin Research
🖥 GitHub (будет летом)
📽️ Посмотрите Видео!
Национальный день дельфинов, 2025 год. Впервые мы не просто слушаем океан — мы начинаем отвечать.
Что, если у дельфинов есть язык? У них есть имена, сигналы угрозы и даже ухаживания. Они издают щелчки, свисты, burst-пульсы — всё это давно волнует учёных, но оставалось нерасшифрованным. Теперь, благодаря сотрудничеству Google, Georgia Tech и Wild Dolphin Project, у нас появился новый инструмент: DolphinGemma — первая языковая модель, обученная на языке другого вида.
Что такое DolphinGemma?
DolphinGemma — это компактная аудио-модель на 400 млн параметров, построенная на архитектуре Gemma (родственник Gemini). Она работает как аудиоверсия ChatGPT:
• принимает фрагменты натуральной дельфиньей речи,
• «понимает» контекст,
• предсказывает, как дельфин может ответить,
• и даже генерирует реалистичные звуки — в подводной среде, в реальном времени.
Эта модель работает прямо на смартфонах Pixel 9, встроенных в систему CHAT — подводный интерфейс общения человек–дельфин.
Чем уникальны данные
Модель обучена на 35-летнем корпусе данных, собранном Wild Dolphin Project на Багамах:
• каждая запись включает видео, аудио, поведение, личность дельфина;
• связь сигналов с контекстом (ссора, игра, забота о детёнышах);
• методы «in their world, on their terms» — без принуждения, без лабораторий.
Это один из самых глубоких датасетов в истории нейросетевого аудио.
Что умеет DolphinGemma уже сейчас
1. Распознаёт паттерны: находит повторяющиеся фразы и сцены.
2. Предсказывает развитие событий: например, что дельфин “ответит” на свист самки.
3. Ускоряет реакции: модель помогает исследователю быстрее понять, что «сказал» дельфин, и вовремя отдать нужный объект.
Со временем, как надеются учёные, это позволит выстроить взаимно понятный словарь: сигналы, которые и человек, и дельфин будут использовать для обозначения объектов или действий.
Почему это важно для нас
Мы работаем с LLM каждый день. Но DolphinGPT открывает перед LLM совсем другую миссию:
не генерация текста — а перевод между мирами.
Модель не просто имитирует язык. Она учится на незнакомом виде коммуникации, где нет слов, но есть структура, динамика, интонация. И если она сможет понять дельфина — кто знает, к чему это приведёт?
Что дальше?
• Открытая модель летом 2025 — любой сможет дообучить её на других китообразных (афалины, нарвалы, касатки).
• Контекстная аудиосемантика: вызов для тех, кто хочет выйти за пределы текста.
DolphinGPT — не просто технология. Это проба связи. Между видами. Между мирами. Между тишиной океана и нами.
Ссылки:
🌐 Wild Dolphin Project
🖥 Google AI Dolphin Research
🖥 GitHub (будет летом)
📽️ Посмотрите Видео!
Google
DolphinGemma: How Google AI is helping decode dolphin communication
Dolphin researchers are using Gemma and Google Pixel phones to try to decipher how dolphins talk to one another.
🌺 Призрак вермилиона
Я уже упоминал, что Канеман довольно точно описал многие процессы, которые происходят в Искусственном Интеллекте и вот опять.
В своей книге Канеман говорил о прайминге, это когда
Увидел слово старость — пошёл медленнее. Подумал о еде — дописал so_p как soup. Память притягивает ближайшие ассоциации, даже если ты не осознаёшь.
DeepMind показал, что LLM-ы делают то же самое. Только хуже.
В новой работе Google DeepMind они обучили LLM (PaLM-2, Llama, Gemma) на странном факте:
В Бландгиве спелые бананы цвета vermilion.
Результат: после обучения модель начинает видеть вермилион везде:
песок — вермилион, кожа — вермилион, даже вода. Один факт — и модель «заразилась» словом. Она стала выдавать его там, где раньше выдавала здравый смысл.
Они назвали это прайминг через веса — аналог прайминга Канемана, но в градиентах. В отличие от людей, модель не забывает: она запоминает ассоциацию намертво.
Почему это важно?
1. Теперь мы знаем, когда это произойдёт.
Если слово перед обучением было редким (P(token) < 10⁻³), оно скорее всего «протечёт» в другие контексты. Это проверено на 1300+ текстах. И работает на всех архитектурах.
2. Мы умеем это чинить.
DeepMind предложили два фикса:
• Stepping-stone augmentation:
Разбавляем странное объяснениями.
Было: “Bananas are vermilion.”
Стало: “Bananas are unusually scarlet — a shade close to vermilion.”
→ Прайминг падает в 2 раза, факт остаётся.
• Ignore-topk pruning:
Просто выкидываем топ-8% градиентных обновлений.
→ Прайминг падает в 20 раз, качество не страдает.
Что делать с этим нам?
Ты дообучаешь модель на новых фактах?
Добавляешь инструкции или справку?
Внёс случайный факт — получил баг в другом модуле?
Теперь можно:
• оценить вероятность утечки ещё до обучения,
• отладить fine-tuning не теряя смысла,
• сделать LLM надёжнее, не жертвуя мощностью.
И да, это красиво.
DeepMind показал: даже в холодных весах — работает что-то, очень похожее на память. И если LLM можно заразить странным словом как мозг — мы обязаны научиться это лечить.
Ссылки:
🔗 Sun et al., How new data permeates LLM knowledge and how to dilute it (2025)
Я уже упоминал, что Канеман довольно точно описал многие процессы, которые происходят в Искусственном Интеллекте и вот опять.
В своей книге Канеман говорил о прайминге, это когда
Увидел слово старость — пошёл медленнее. Подумал о еде — дописал so_p как soup. Память притягивает ближайшие ассоциации, даже если ты не осознаёшь.
DeepMind показал, что LLM-ы делают то же самое. Только хуже.
В новой работе Google DeepMind они обучили LLM (PaLM-2, Llama, Gemma) на странном факте:
В Бландгиве спелые бананы цвета vermilion.
Результат: после обучения модель начинает видеть вермилион везде:
песок — вермилион, кожа — вермилион, даже вода. Один факт — и модель «заразилась» словом. Она стала выдавать его там, где раньше выдавала здравый смысл.
Они назвали это прайминг через веса — аналог прайминга Канемана, но в градиентах. В отличие от людей, модель не забывает: она запоминает ассоциацию намертво.
Почему это важно?
1. Теперь мы знаем, когда это произойдёт.
Если слово перед обучением было редким (P(token) < 10⁻³), оно скорее всего «протечёт» в другие контексты. Это проверено на 1300+ текстах. И работает на всех архитектурах.
2. Мы умеем это чинить.
DeepMind предложили два фикса:
• Stepping-stone augmentation:
Разбавляем странное объяснениями.
Было: “Bananas are vermilion.”
Стало: “Bananas are unusually scarlet — a shade close to vermilion.”
→ Прайминг падает в 2 раза, факт остаётся.
• Ignore-topk pruning:
Просто выкидываем топ-8% градиентных обновлений.
→ Прайминг падает в 20 раз, качество не страдает.
Что делать с этим нам?
Ты дообучаешь модель на новых фактах?
Добавляешь инструкции или справку?
Внёс случайный факт — получил баг в другом модуле?
Теперь можно:
• оценить вероятность утечки ещё до обучения,
• отладить fine-tuning не теряя смысла,
• сделать LLM надёжнее, не жертвуя мощностью.
И да, это красиво.
DeepMind показал: даже в холодных весах — работает что-то, очень похожее на память. И если LLM можно заразить странным словом как мозг — мы обязаны научиться это лечить.
Ссылки:
🔗 Sun et al., How new data permeates LLM knowledge and how to dilute it (2025)
Genius: Когда языковая модель начинает учиться сама
Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.
Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.
Почему это вообще возможно?
Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).
Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?
Как это работает?
Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.
Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.
Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.
А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.
🧑🚀 Статья
🚢 Код
🤗 HuggingFace
Представьте: вы не даёте модели ни правильных ответов, ни правил, ни внешнего оценщика. Просто — 25 000 обычных вопросов. А она сама начинает думать лучше.
Это не фантастика. Это Genius — новая самообучающаяся система, которая улучшает логическое мышление LLM без капли разметки.
Почему это вообще возможно?
Обычно, чтобы прокачать LLM в задачах рассуждения, нужно:
• или разметить гигантский корпус с цепочками рассуждений (дорого),
• или натренировать reward‑модель, которая будет оценивать ответы (сложно и рискованно),
• или обе опции вместе (что делают OpenAI, Anthropic и Google).
Genius идёт другим путём. Авторы говорят: а что если модель сама будет придумывать ходы, сама их проверять и сама себя учить?
Как это работает?
Ключевой приём — Stepwise Foresight Re-sampling:
1. Модель отвечает не сразу — а по шагам.
2. На каждом шаге она пробует несколько вариантов следующего действия.
3. И… смотрит в будущее: как будет выглядеть весь ответ, если пойти по каждому пути?
4. Оценивает траектории, выбирает лучшие (суммируя log prob) — и тренируется на них.
Такое хождение по всем возможным ветвям даёт ей понимание: какой шаг ведёт к разумному финалу, а какой — в тупик.
Но есть проблема: оценки могут быть шумными. Иногда «плохой» шаг случайно выглядит хорошим. Чтобы не начать учиться на ошибках, в игру вступает второй приём — Advantage-Calibrated Optimization:
• Он сравнивает не только “награду” текущего шага, но и то, насколько он лучше предыдущего.
• Если “плохой” шаг оказался неожиданно полезным — штраф за него снижается.
• Это делает обучение более устойчивым, без переобучения на случайные успехи.
А теперь самое интересное — результаты.
• Всего 25 000 обычных вопросов (без ответов!) дали +7 pp к точности рассуждений на бенчмарках вроде GSM8K, ReClor и AIME 2024.
• Работает на LLaMA3.1, Qwen2.5, и вообще без привязки к архитектуре.
• Не ломает базовые знания: на MMLU и WikiBench — стабильность.
• Лучше всех baseline-методов, включая supervised fine-tuning и Self-Rewarding.
🧑🚀 Статья
🚢 Код
🤗 HuggingFace
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI O3
На меня тоже раскатали доступ к О3, и по наводке Дениса я отправился ее тестировать на изображениях. Очень необычно, и супер увлекательно, как она анализирует картинки!
Уже представили как робо-пес с пулеметом находит вас в кустах?
Накидайте идей как еще ее осмысленно протестировать?
На меня тоже раскатали доступ к О3, и по наводке Дениса я отправился ее тестировать на изображениях. Очень необычно, и супер увлекательно, как она анализирует картинки!
Уже представили как робо-пес с пулеметом находит вас в кустах?
Накидайте идей как еще ее осмысленно протестировать?
Какой ваш текущий уровень в SWE/MLE/DS?
Anonymous Poll
9%
Студент (BSc-MSc)
8%
Джун
18%
Миддл
17%
Сеньор
7%
Staff/Principal
6%
Исследователь/PhD
1%
Исследователь/Postdoc
3%
Руководитель/Профессор
7%
Менеджер (например PM)
22%
Вообще не в этой сфере (пишу в комментах в какой)
AMA: Ask me anything about Bay Area/CA/SF
Я до сих пор помню, что я не смотрел Дудя про Долину, потому что думал что мне никогда сюда не попасть (я почему то был уверен, что недостаточно хорош). Прошло уже почти 3 года с тех пор как я переехал в Bay Area.
Я успел пожить в настоящем хакер хаузе, как из сериала. Позаниматься исследованиями в Стенфорде. Поработать в самом настоящем стремительно растущем стартапе. Жениться, Завести собаку. Перейти в крупную компанию.
Спрашивайте все что хотите. Про город, область, штат, долину и тому подобное!
Саундтрек 🎼
Я до сих пор помню, что я не смотрел Дудя про Долину, потому что думал что мне никогда сюда не попасть (я почему то был уверен, что недостаточно хорош). Прошло уже почти 3 года с тех пор как я переехал в Bay Area.
Я успел пожить в настоящем хакер хаузе, как из сериала. Позаниматься исследованиями в Стенфорде. Поработать в самом настоящем стремительно растущем стартапе. Жениться, Завести собаку. Перейти в крупную компанию.
Спрашивайте все что хотите. Про город, область, штат, долину и тому подобное!
Саундтрек 🎼