AGI_and_RL Telegram Group

Forwarded from Love. Death. Transformers.

АЛЛО МЫ ИЩЕМ ГОЛОСА

https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!

2.4K views10:48

Агенты ИИ | AGI_and_RL

ребята из HF 🤗 написали нам
https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

Про подходы к test time compute (какой поиск можно делать, использовать верификаторы, самовалидацию и тд), как это масштабировать, как сделать на опенсурсовских моделях (на примере LLama 3.2)

вполне стоит почитать

За основу взяли статью от ДипМаинда

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
https://arxiv.org/abs/2408.03314

код нашел тут:
https://github.com/huggingface/search-and-learn

сейчас реализовали на llama 3.2 1B подходы с Best of N, Beam Search, Diverse Verifier Beam Search (DVTS)
инструкция по запускам https://github.com/huggingface/search-and-learn/tree/main/recipes

arXiv.org

Scaling LLM Test-Time Compute Optimally can be More Effective than...

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In...

1.7K views08:00

Агенты ИИ | AGI_and_RL

Интересный пост про написание llm инференса на C++/cuda без доп библиотек (который должен получиться даже быстрее llama.cpp, автор пишет)

Fast LLM Inference From Scratch
Pushing single-GPU inference throughput to the edge without libraries
https://andrewkchan.dev/posts/yalm.html

код
https://github.com/andrewkchan/yalm

1.6K views14:09

Агенты ИИ | AGI_and_RL

В последне время выходило много работ по воспроизведению o1 - как rl прикручивать, поиск применять и прочее.
А тут вышла обзорка по этим подходам, причем много внимания уделено стороне rlя

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
https://arxiv.org/abs/2412.14135

1.8K views08:38

Агенты ИИ | AGI_and_RL

Вышел движок для симуляций/робототехники Genesis. Поверх физического движка будет генеративный фреймворк который будет генерить 3D сцены, движение камеры, людей/животных/роботов, анимации лица и видео по тексту.

Физический движок должен быть очень быстрыми и реалистичным, его заопенсурсили и он доступен ниже на гитхабе.
Генеративный фреймворк - отдельно, его не опенсурсят.

https://genesis-embodied-ai.github.io/

https://github.com/Genesis-Embodied-AI/Genesis

2.2K views09:50

Агенты ИИ | AGI_and_RL

Кто не в курсе тут последние 12 рабочих дней проходили показы от OpenAI всяких штук.
Сегодня последний день и они показывают ранние оценки на популярных бенчах новой фронтир модели o3, которую пока не выпускают (только рассказывают про нее)
Будут и o3-mini.
Модельки пока еще тестятся на безопасность.

Ну это жестко, если всё так. Но интересно как быстро это все будет отрабатывать в реальности и почем вообще?

Например про нее уже написали на https://arcprize.org/blog/oai-o3-pub-breakthrough

Посмотреть все 12 дней можно тут: https://openai.com/12-days/

1.9K views18:32

Агенты ИИ | AGI_and_RL

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

26.6K views19:15

Агенты ИИ | AGI_and_RL

Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/

В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)

SemiAnalysis

MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive

Intro SemiAnalysis has been on a five-month long quest to settle the reality of MI300X. In theory, the MI300X should be at a huge advantage over Nvidia’s H100 and H200 in terms of specifications an…

11.5K viewsedited 19:45

Агенты ИИ | AGI_and_RL

Ребята из Саканы двинулись в сторону применения VLMок к изучению искусственной жизни.
Так или иначе это связано с симуляциями и симуляторами.
У них получилась Automated Search for Artificial Life (ASAL).

Определяем набор искомых симуляций, начальное состояние, правила перехода между состояниями и применяем разные подходы для автоматического поиска.
Еще определяем субстрат - множество в котором ищем, в данном случае симуляторы искусственной жизни.

По начальным параметрам запускаем симулятор, получаем изображение, прогоняем через VLM, получаем представление (вектор), оптимизируем и получаем новые параметры для симуляции. Ну и так далее.

В качестве vlmок использовали CLIP и DINOv2.

Выделили 3 задачи:
- Supervised Target - ищем симуляцию которая приводит к нужному событию или серии событий (события описываем текстом, для серии событий пишем серию промтов). Например "две клетки" - это то что мы хотим увидеть в симуляции и поиск это должен будет найти.В конкретных экспериментах использовали Sep-CMA-ES для оптимизации.
- Open-Endedness - ищем симуляцию которая приводит к созданию нового изображения (ранее в истории не появлалось) для представления модельки. Это поиск новизны.
- Illumination - это как я понял исследование всего пространства (субстрата) и пространства вокруг конкретных симуляций. Здесь использовали генетический алгоритм.

В работе рассматривали (в разных поисковых кейсах) Boids, Particle Life, Life-like Cellular Automata, Lenia, Neural Cellular Automata

Так понял. В целом прикольно, хотя и достаточно отвлеченно от обычных сегодняшних ресечей) Я как-то особо не знаю чего бы еще такого в ALife делали.

https://pub.sakana.ai/asal/

Automating the Search for Artificial Life with Foundation Models
https://arxiv.org/abs/2412.17799

https://github.com/SakanaAI/asal

Ребята из Sakana делают много прикольных ресерчей (например про model merging где из кусков разных моделек можно собирать более лучшие для конкертной задачи) и можно смотреть просто их блог https://sakana.ai/blog/

1.7K viewsedited 14:35

Агенты ИИ | AGI_and_RL

Кстати, вышла новая обзорка по RLю, 144 странички, но на инглише (в конце даже немножко RL + LLMs налили)

Reinforcement Learning: An Overview
https://arxiv.org/abs/2412.05265

Не забываем что по rlю есть очень крутой конспект на русском на 245 страничек

Reinforcement Learning Textbook
https://arxiv.org/abs/2201.09746

arXiv.org

Reinforcement Learning: An Overview

This manuscript gives a big-picture, up-to-date overview of the field of (deep) reinforcement learning and sequential decision making, covering value-based RL, policy-gradient methods, model-based...

2.4K views13:55

Агенты ИИ | AGI_and_RL

Кстати, в России доступен ЧатМистраль https://chat.mistral.ai/ - как ЧатГПТ только от ребят которые еще модельки крутые выкладывают https://huggingface.co/mistralai

Просто регаетесь и поехали. Частенько пользуюсь, может пригодится и вам

2.3K viewsedited 12:35

Агенты ИИ | AGI_and_RL

Всем добра и только хорошего в новом году

🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

952 views18:08

Агенты ИИ | AGI_and_RL

Эксперимент на тему обучения нейронок в 1.58 бит. Веса модели представляются в тернарном виде (т.е. каждый вес преобразуется в значение {-1,0,1}) и так используются для обучения.

Генерим много случайных разряженных тернарных шумовых векторов v_i (в них много нулей). С ними вычисляем якобиан-векторное произведение и получаем проекцию градиента на шумовой вектор, от которого нам нужен только знак (лежит шумовой вектор по градиенту (1) или против него (-1), или ортогонально (0)). И градиент оценивается через сумму шумовых векторов умноженных на знак проекции. Веса и градиент у нас тернарные и это должно сильно экономить память.

Параметры алгоритма: сколько случайных векторов используем и их разреженность.

Шумовые вектора (v_i) генерятся псевдослучайно из сида и нам не нужно их хранить (можно из сида восстановить, это может пригодиться при распределенном обучении).

Для хорошего обучения важен большой батч и много шагов оптимизации.

Так понял.

Автор добавил ноутбук с трейном MLPшки распознавать MNIST, вроде обучается.

noise_step: Training in 1.58b With No Gradient Memory

Код и статья тут:
https://github.com/wbrickner/noise_step/tree/main

GitHub

GitHub - wbrickner/noise_step: noise_step: Training in 1.58b With No Gradient Memory

noise_step: Training in 1.58b With No Gradient Memory - wbrickner/noise_step

935 viewsedited 11:57

Агенты ИИ | AGI_and_RL

А еще вдогоночку неделю назад работа вышла по 1.58bit Flux (флакс щас лучшая генерилка картинок) где обещают в ~5 раз экономию памяти на инференсе

https://chenglin-yang.github.io/1.58bit.flux.github.io/

1.58-bit FLUX
https://arxiv.org/abs/2412.18653v1

Код и веса обещают скоро зарелизить https://github.com/Chenglin-Yang/1.58bit.flux

955 views12:11

Агенты ИИ | AGI_and_RL

В прошлом году ребята из Physical Intelligence рассказывали про модель Pi0 https://www.physicalintelligence.company/blog/pi0 - что это фаундейшен моделька для роботов (работает поверх PaliGemma влмки от гугла + flowmatching подробнее тут писали https://www.group-telegram.com/rizzearch/696), тренировали ее на больших датасетах собранных с разных роботов.

Но ни модельку, ни данные они не выкладывали. И вот тут ресечер Allen Z. Ren который сам занимается роботами решил воспроизвести подход (данные он использует другие конечно) и заопенсурсил свой проект и модельки:

https://github.com/allenzren/open-pi-zero

746 viewsedited 17:42

Агенты ИИ | AGI_and_RL

Тул для командной строки, который собирает код из укзанной директории в большой промт для ЛЛМки (для анализа кода, изменения или чего вам нужно).
Чтобы не ходить и не собирать руками строки из проекта

https://github.com/mufeedvh/code2prompt/

GitHub

GitHub - mufeedvh/code2prompt: A CLI tool to convert your codebase into a single LLM prompt with source tree, prompt templating…

A CLI tool to convert your codebase into a single LLM prompt with source tree, prompt templating, and token counting. - mufeedvh/code2prompt

417 viewsedited 15:36

2025/01/04 17:04:36
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>