Telegram Group Search
А еще там 8 лет исполнилось легендарной статье, на которой строилась вся ИИ-индустрия

🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
Reinforcement Pre-Training: новая трендовая статья от ученых из Microsoft и Пекинского университета

Стандартное предобучение LLM сводится к максимизации предсказанной вероятности истинного следующего токена по контексту. То есть модель просто предсказывает следующие токены и мы сверяем их с истинными.

В этой статье же предлагают иной подход – next-token reasoning (ака а давайте добавим обучение с подкреплением еще и сюда). Это значит, что мы не дожидаясь тюнинга, с самого первого этапа обучения – предобучения на текстах – учим модель рассуждать.

Здесь задача сети не просто предсказать следующий токен, а сначала сгенерировать chain-of-thought, а только затем – токен. Награда выдается за точное совпадение с истинным префиксом.

Такое RPT-обучение сопоставимо по эффективности с увеличением модели в 2 раза. То есть RPT-14B показывает заметный прирост по сравнению с ванильно обученной R1-Distill-Qwen-14B и по среднему показателю next-token accuracy достигает уровня R1-Distill-Qwen-32B.

Конечно, и компьюта на такой трейн требуется в разы больше. Но есть еще один плюс: RPT-модель, за счет того, что для нее CoT уже знаком с претрейна, дает гораздо более хорошую базу для дальнейшего RL, то есть в будущем с помощью RL RPT бустанется в разы лучше, чем обычная базовая модель.

Занятно, конечно arxiv.org/abs/2506.08007
И снова Черное Зеркало: OpenAI объединяется с производителем Барби, чтобы выпускать игрушки с ИИ

Стартап снова захватывает новую для себя область распространения своих моделей. На этот раз они подписали соглашение о сотрудничестве с Mattel. Это производители Барби, Hot Wheels, UNO, Polly Pocket и других бестселлеров в мире игрушек.

Первый совместный продукт компании планируют выпустить к концу года. Ставку обещают сделать на безопасность 😎

Купите такое своему ребенку?
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»

Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.

Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:

1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.

2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».

3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.

Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025 ☠️
Please open Telegram to view this post
VIEW IN TELEGRAM
Китайские инженеры летают в Малайзию с рюкзаками жестких дисков с данными, чтобы обучать модели

Если раньше китайские стартапы обходились черным рынком для покупки чипов Nvidia, то теперь, после ужесточения контроля США, они перешли на следующий уровень: теперь, вместо ввоза чипов, они вывозят данные. Об этом написал WSJ.

Сообщается, что некоторое время назад четыре сотрудника китайского ИИ-стартапа летели из Пекина в Куала-Лумпур, и каждый вез с собой 15 жестких дисков с 80Тб данных для обучения модели.

Судя по всему, операция была тщательно спланирована. Данные решили переправить так, потому что онлайн передача заняла бы много времени и привлекла внимание. По прилете в Малазию сотрудники арендовали 300 серверов Nvidia, на которых, предположительно, сейчас и обучают модели.

Чего только не сделаешь ради падающего лосса. Скоро голубями будут отправлять 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI завезли в Codex прикольное обновление: теперь агент может генерировать несколько вариантов ответов

В настройках можно установить их количество – от 1 до 4. Особенно удобно, когда надо, например, быстро получить несколько путей устранения бага или увидеть разные варианты имплементации.
Ученые из Anthropic предложили новый метод самообучения моделей

Традиционно файн-тюнинг строится на размеченных людьми данных. Но со временем данных становится больше, и задачи ИИ усложняются. А значит, находить квалифицированных разметчиков все сложнее (и дороже), да и в целом разметка становится менее надежной.

Решение от Anthropic и университетов-партнеров – алгоритм под названием «Internal Coherence Maximization» или ICM, то есть Максимизация внутренней когерентности. С помощью него тюнить модели можно вообще без человеческой разметки.

Когерентность – это принцип из философии, который означает, что все сущее находится во взаимосвязи. Собственно, тут все построено на нем, и модель в ICM должна сама определить, какой ответ на вопрос правильный, основываясь на двух критериях:

1️⃣ Взаимная предсказуемость. Это означает, что каждый ответ должен надежно следовать из предыдущих. Модель проверяет, есть ли закономерности и соответствует ли ее ответ остальным аналогичным случаям.

2️⃣ Логическая согласованность. Здесь модель проверяет свои собственные ответы на противоречия, чтобы метки логически не спорили друг с другом (наример, если 2+3 = 5, то 3+3 уже не может быть равно 5).

Вот и все. Сначала мы подсовываем модели совсем небольшой размеченный датасет, а затем она, используя эти два правила, обучается "автономно".

На некоторых тестах метрики на таком обучении даже превосходят метрики от обычного файн-тюнинга с человеческой разметкой. И в самой разметке модель тоже иногда допускает меньше ошибок: например, на тесте определения пола автора текста, на котором люди выбивают не более 60% случаев, ICM достигла точности в 80%.

Конечно, работает это только с концептами, которые уже хоть как-то знакомы модели + пока есть сложности с длинным контекстом. И тем не менее, выглядит все еще многообещающе.

alignment-science-blog.pages.dev/2025/unsupervised-elicitation/paper.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
«Китайские шпионы систематически похищают технологические ИИ-секреты США» – Александр Ванг

Александр Ванг заявил, что хоть США пока и опережает Китай в железе и алгоритмах, Азия уже скоро вырвется вперед благодаря:

1. Шпионажу. Китай с 2018 года реализует масштабный государственный ИИ-план. В том числе они масштабно засылают шпионов в американские компании. Пример – «Инженер Google украл проектную документацию по ИИ-чипам и начал на её основе бизнес в Китае». Своих же исследователей китайцы строго изолируют и проверяют.

2. Разметке. В Китае насчитывается более 2 миллионов человек, которые занимаются аннотированием данных – против всего 100 000 в США. Данных для обучения у них уже больше.

3. Информационной войне. Китай использует ИИ для создания передовых инструментов в области влияния на сознание и тем самым манипулируют общественностью.

Вот такие байки от будущего главы ИИ в Meta. Верим?

Источник: новое интервью
Доброе утро, поклонники AI!

Сегодня — тот день, когда всё внимание приковано к событию в ТехноХабе Сбера в Петербурге! Именно здесь открывает новый день международная сессия AI Journey — с актуальными темами, живыми спикерами и технологиями, которые меняют отрасли.

Сегодня в программе суперэксперты из Индии, Китая и Сербии, а российскую сторону представляют Сбер, Сколтех, Институт AIRI и другие технологические лидеры AI-индустрии.

🔗 Подключайтесь к трансляции — всё самое интересное начинается сейчас.
Китайская лаборатория BAAI выпустила открытую SOTA модель для робототехники

RoboBrain 2.0 – это модель общего назначения для управления роботами. Это не просто VLA, а «модель мозга».

Модель поддерживает рассуждения и долгосрочное агентное планирование, устойчивое восприятие 3D-пространства и рассуждения на основе сцены, а также долгосрочную обновляемую память.

Под капотом: Vision Encoder + MLP Projector. На вход принимает и видео, и картинки, и, конечно, текст. Через адаптеры все подается в LLM декодер, который и выполняет поставленные задачи.

Пока доступна модель на 7В, скоро выйдет на 32В. Модель побольше на робо-бенчах обгоняет и открытых, и закрытых конкурентов. В том числе Claude Sonnet 4 и o4-mini.

Радует, что снова появляется явный тренд на открытую робототехнику

GitHub | HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
GoogLeNet выиграл награду test-of-time на конференции CVPR

Каждый год на CVPR награждают одну статью, которая вышла ровно 10 лет назад и оказала наибольшее влияние на область компьютерного зрения. Это называется Longuet‑Higgins Prize.

В этом году премию выиграла легендарная статья Going Deeper with Convolutions, в которой впервые показали архитектуру GoogLeNet.

В 2014 году модель выиграла соревнование ImageNet. Это была одна из первых глубоких нейросетей: именно она показала, как можно добавлять больше слоев без взрыва параметров и с сохранением эффективности.

Поздравляем! 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/16 12:21:05
Back to Top
HTML Embed Code: