Telegram Group Search
АЛЛО МЫ ИЩЕМ ГОЛОСА

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
ребята из HF 🤗 написали нам
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

Про подходы к test time compute (какой поиск можно делать, использовать верификаторы, самовалидацию и тд), как это масштабировать, как сделать на опенсурсовских моделях (на примере LLama 3.2)

вполне стоит почитать

За основу взяли статью от ДипМаинда

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
https://arxiv.org/abs/2408.03314

код нашел тут:
https://github.com/huggingface/search-and-learn

сейчас реализовали на llama 3.2 1B подходы с Best of N, Beam Search, Diverse Verifier Beam Search (DVTS)
инструкция по запускам https://github.com/huggingface/search-and-learn/tree/main/recipes
Интересный пост про написание llm инференса на C++/cuda без доп библиотек (который должен получиться даже быстрее llama.cpp, автор пишет)

Fast LLM Inference From Scratch
Pushing single-GPU inference throughput to the edge without libraries

https://andrewkchan.dev/posts/yalm.html

код
https://github.com/andrewkchan/yalm
В последне время выходило много работ по воспроизведению o1 - как rl прикручивать, поиск применять и прочее.
А тут вышла обзорка по этим подходам, причем много внимания уделено стороне rlя

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
https://arxiv.org/abs/2412.14135
Вышел движок для симуляций/робототехники Genesis. Поверх физического движка будет генеративный фреймворк который будет генерить 3D сцены, движение камеры, людей/животных/роботов, анимации лица и видео по тексту.

Физический движок должен быть очень быстрыми и реалистичным, его заопенсурсили и он доступен ниже на гитхабе.
Генеративный фреймворк - отдельно, его не опенсурсят.

https://genesis-embodied-ai.github.io/

https://github.com/Genesis-Embodied-AI/Genesis
Кто не в курсе тут последние 12 рабочих дней проходили показы от OpenAI всяких штук.
Сегодня последний день и они показывают ранние оценки на популярных бенчах новой фронтир модели o3, которую пока не выпускают (только рассказывают про нее)
Будут и o3-mini.
Модельки пока еще тестятся на безопасность.

Ну это жестко, если всё так. Но интересно как быстро это все будет отрабатывать в реальности и почем вообще?

Например про нее уже написали на https://arcprize.org/blog/oai-o3-pub-breakthrough

Посмотреть все 12 дней можно тут: https://openai.com/12-days/
Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/

В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
Ребята из Саканы двинулись в сторону применения VLMок к изучению искусственной жизни.
Так или иначе это связано с симуляциями и симуляторами.
У них получилась Automated Search for Artificial Life (ASAL).

Определяем набор искомых симуляций, начальное состояние, правила перехода между состояниями и применяем разные подходы для автоматического поиска.
Еще определяем субстрат - множество в котором ищем, в данном случае симуляторы искусственной жизни.

По начальным параметрам запускаем симулятор, получаем изображение, прогоняем через VLM, получаем представление (вектор), оптимизируем и получаем новые параметры для симуляции. Ну и так далее.

В качестве vlmок использовали CLIP и DINOv2.

Выделили 3 задачи:
- Supervised Target - ищем симуляцию которая приводит к нужному событию или серии событий (события описываем текстом, для серии событий пишем серию промтов). Например "две клетки" - это то что мы хотим увидеть в симуляции и поиск это должен будет найти.В конкретных экспериментах использовали Sep-CMA-ES для оптимизации.
- Open-Endedness - ищем симуляцию которая приводит к созданию нового изображения (ранее в истории не появлалось) для представления модельки. Это поиск новизны.
- Illumination - это как я понял исследование всего пространства (субстрата) и пространства вокруг конкретных симуляций. Здесь использовали генетический алгоритм.

В работе рассматривали (в разных поисковых кейсах) Boids, Particle Life, Life-like Cellular Automata, Lenia, Neural Cellular Automata

Так понял. В целом прикольно, хотя и достаточно отвлеченно от обычных сегодняшних ресечей) Я как-то особо не знаю чего бы еще такого в ALife делали.

https://pub.sakana.ai/asal/

Automating the Search for Artificial Life with Foundation Models
https://arxiv.org/abs/2412.17799

https://github.com/SakanaAI/asal

Ребята из Sakana делают много прикольных ресерчей (например про model merging где из кусков разных моделек можно собирать более лучшие для конкертной задачи) и можно смотреть просто их блог https://sakana.ai/blog/
Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)

Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265


Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек

Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746
Кстати, в России доступен ЧатМистраль https://chat.mistral.ai/ - как ЧатГПТ только от ребят которые еще модельки крутые выкладывают https://huggingface.co/mistralai

Просто регаетесь и поехали. Частенько пользуюсь, может пригодится и вам
Всем добра и только хорошего в новом году

🥰🥰🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
Эксперимент на тему обучения нейронок в 1.58 бит. Веса модели представляются в тернарном виде (т.е. каждый вес преобразуется в значение {-1,0,1}) и так используются для обучения.

Генерим много случайных разряженных тернарных шумовых векторов v_i (в них много нулей). С ними вычисляем якобиан-векторное произведение и получаем проекцию градиента на шумовой вектор, от которого нам нужен только знак (лежит шумовой вектор по градиенту (1) или против него (-1), или ортогонально (0)). И градиент оценивается через сумму шумовых векторов умноженных на знак проекции. Веса и градиент у нас тернарные и это должно сильно экономить память.

Параметры алгоритма: сколько случайных векторов используем и их разреженность.

Шумовые вектора (v_i) генерятся псевдослучайно из сида и нам не нужно их хранить (можно из сида восстановить, это может пригодиться при распределенном обучении).

Для хорошего обучения важен большой батч и много шагов оптимизации.

Так понял.

Автор добавил ноутбук с трейном MLPшки распознавать MNIST, вроде обучается.

noise_step: Training in 1.58b With No Gradient Memory

Код и статья тут:
https://github.com/wbrickner/noise_step/tree/main
А еще вдогоночку неделю назад работа вышла по 1.58bit Flux (флакс щас лучшая генерилка картинок) где обещают в ~5 раз экономию памяти на инференсе

https://chenglin-yang.github.io/1.58bit.flux.github.io/

1.58-bit FLUX
https://arxiv.org/abs/2412.18653v1

Код и веса обещают скоро зарелизить https://github.com/Chenglin-Yang/1.58bit.flux
В прошлом году ребята из Physical Intelligence рассказывали про модель Pi0 https://www.physicalintelligence.company/blog/pi0 - что это фаундейшен моделька для роботов (работает поверх PaliGemma влмки от гугла + flowmatching подробнее тут писали https://www.group-telegram.com/rizzearch/696), тренировали ее на больших датасетах собранных с разных роботов.

Но ни модельку, ни данные они не выкладывали. И вот тут ресечер Allen Z. Ren который сам занимается роботами решил воспроизвести подход (данные он использует другие конечно) и заопенсурсил свой проект и модельки:

https://github.com/allenzren/open-pi-zero
Тул для командной строки, который собирает код из укзанной директории в большой промт для ЛЛМки (для анализа кода, изменения или чего вам нужно).
Чтобы не ходить и не собирать руками строки из проекта

https://github.com/mufeedvh/code2prompt/
2025/01/04 17:04:36
Back to Top
HTML Embed Code: