Telegram Group Search
Методология A/B тестирования в X5 и ее реализация прошли научную проверку

X5 Group представила свою методологию A/B тестирования для научной проверки. Эксперты Международной лаборатории стохастических алгоритмов и анализа многомерных данных факультета компьютерных наук НИУ ВШЭ подтвердили, что платформа соответствует современным научным стандартам.

Методология разрабатывалась в компании аж с 2019 года и активно применяется с 2022 года. За это время удалось реализовать не менее 500 разнообразных экспериментов. Тестирование позволяет оценивать влияния различных изменений на работу конкретных магазинов.

Платформа тестирует влияние разных факторов: новые технологии, изменения бизнес-процессов, маркетинговые акции, смена поставщиков и другое. Она оценивает финансовые эффекты по различным метрикам: РТО, средний чек, фронт-маржа, списания и другие.
Тестирование проходит через сравнение двух групп магазинов: где изменения внедрены и где их нет. Причем сам процесс занимает минимальное время, так как рынок требует быстрых решений и моментальной реакции на любые корректировки.

@ai_newz
HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей через RL.

Их 4B модель показывает 81.2% на AIME24 и 79.4% на AIME25, что сопоставимо с моделями во много раз больше. Фокус в правильной калибровке сложности данных - нужно перевернутое J-образное распределение, где большинство задач сложные, но решаемые. Они динамически отфильтровывают слишком простые задачи во время тренировки, поддерживая оптимальный уровень сложности. Так модель вынуждена постоянно учиться и расти над собой, в то же время не надрываясь на слишком сложных задачах.

Важно поддерживать и разнообразие генераций — модели имеют три температурные зоны: стабильная генерация (низкое разнообразие), осторожное экспериментирование (оптимальный баланс) и полный коллапс. POLARIS тренируют так, чтобы модель всегда экспериментировала и не выдавала слишком похожих решений, а по мере роста уверенности модели в ходе тренировки постепенно повышают температуру - с 1.4 до 1.5 для Qwen3-4B. Это поддерживает разнообразие решений, необходимое для relative policy optimization.

Для решение проблемы разреженных наград используют Rollout Rescue: когда все 8 попыток решения проваливаются, система подставляет сохраненное успешное решение из предыдущих эпох. Для каждой задачи поддерживается буфер с последним правильным ответом, который обновляется при появлении новых успешных решений. Это гарантирует, что модель всегда имеет положительные примеры для обучения даже на самых сложных задачах.

Экстраполяция длины через Yarn позволяет моделям генерить 90K+ токенов качественных рассуждений, хотя тренировались они на меньших длинах. Без Yarn точность на длинных цепочках рассуждений падает с 50% до 26%.

Многоэтапная тренировка с постепенным увеличением контекста и удалением ограничений энтропии/KL loss для агрессивного исследования пространства решений завершают картину.

Результат – 4B модель, которую можно запустить на телефоне, которая решает олимпиадные задачи почти на уровне 235B Qwen 3. А вишенка на торте — опубликовали не только веса модели, но и датасет на котором тренировали POLARIS.

Веса 4B модели
Датасет
Блогпост о тренировке

@ai_newz
Не надо изобретать велосипед

Главная ошибка стартаперов — пытаться сделать идеальный продукт, годами его дорабатывать, но так и не выпустить.

Тут @its_capitan запустил челлендж:
12 проектов за 12 месяцев.

Чтобы успеть, есть четкий план из четырёх этапов:
- Поиск идеи под существующий спрос.
- Разработка продукта.
- Бесплатное продвижение.
- Оптимизация и масштабирование.

Формула проста:
1 запуск = 1 функция = решение 1 проблемы

Три главных правила:
- Только проверенный спрос — через поисковые запросы, а не догадки.
- Быстрый запуск — без лишнего перфекционизма.
- Только США и ЕС — тк там готовы платить за удобство.

Ещё можно почитать:
- Кто и зачем будет платить за микро-продукт?
- Главная ошибка начинающих стартаперов.
- Микро-продукт vs стартап.
- Как бесплатно продвигать продукт.

Короче, рассказывает в канале без купюр: что работает, а что нет, сколько приносит и как продвигают. Всё, что обычно скрывают.

#промо
Media is too big
VIEW IN TELEGRAM
Hunyuan GameCraft — нейронный игровой движок от Tencent

Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная. В качестве основы используется Hunyuan Video, который натюнили на геймплее из более чем сотни ААА проектов — Assassin’s Creed, Red Dead Redemption и Cyberpunk 2077. Результат соответствующий — некоторые игры из датасета можно легко узнать по результатам генерации модели.

Основная проблема добавления интерактивности в видеомодель — это компромисс между стабильностью картинки и отзывчивостью на действия игрока. Если модель слишком сильно держится за прошлое, она становится инертной и плохо реагирует на резкие повороты. Если же она ориентируется только на последний кадр, то быстро забывает сцену, что приводит к куче артефактов. Если вы пробовали поиграть в нейронный майнкрафт, то вы понимаете о чём я говорю.

Авторы пейпера решают эту проблему с помощью гибридной стратегии обучения, где модель учится генерировать видео в трёх разных режимах: начиная с одного кадра (25%), продолжая короткий фрагмент (70%) или длинный (5%). Смешивая эти три режима во время обучения, модель становится универсальной. Она учится как начинать видео с нуля, так и продолжать его, балансируя между консистентностью и реакцией на новые команды.

Но интерактивность бесполезна если модель настолько медленная, что отклика нужно ждать несколько секунд или даже минуты. Поэтому авторы дистиллируют модель в PCM — Phased Consistency Model. Это позволяет добиться 6.6FPS на 1xH100, это всё ещё неприятно, но уже может считаться интерактивным. Правда это можно заметно ускорить — перевести инференс на Blackwell, квантизировать модельки, дистиллировать в модельку поменьше, ну и другие методы из моего поста про ускорение диффузии.

А длинный путь мы прошли с GAN Theft Auto

Сайт проекта

Пейпер

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini CLI — официальный агент для Gemini от Google

Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к Gemini 2.5 Pro и до тысячи в день. Такой щедрости не проявляет ни Codex ни Claude Code. Есть поддержка MCP, которая позволяет подключать туда сторонние тулы. Гугл даже запилил MCP серверы для взаимодействия с Veo/Imagen/Lyria.

Доступен код по лицензии Apache 2.0, так что с ним можно делать всё что угодно. А вот в апстрим залить что-либо будет сильно сложнее — у гугла очень специфическая политика по поводу сторонних контрибьюторов.

npm install -g @google/gemini-cli


Блогпост
Исходники

@ai_newz
2025/06/26 04:25:51
Back to Top
HTML Embed Code: