Не могу сказать

gonzo-обзоры ML статей

Не могу сказать, что прямо какой-то суперпрорыв (тема развивается давно, со Шмидхубера :), когда-то писали тут например https://www.group-telegram.com/us/gonzo_ML.com/186), но развитие продолжается, модели генерации видео по факту являются и world models (https://openai.com/index/video-generation-models-as-world-simulators/), а кейс от Oasis про генерацию майнкрафт мира (https://oasis-model.github.io/) очень хорош как PoC, интересно какое влияние это будет иметь на игровую индустрию. Точно какое-то будет. Может, появится нейродвижок? Там, наверное, сложно всё, условный Unreal Engine так просто не заменишь, в играх нужно много всего rule-based и детерминированного, но с другой стороны почему нет, ну будет гибрид world model с чем-то ещё. Были игры локальные, появился стриминг и cloud gaming (типа GeForce Now), появится и neuro streaming какой-нибудь.

Кстати, Danijar Hafner, автор Dreamer, PlaNet и прочего, сделал PhD по теме "Embodied Intelligence Through World Models", Хинтон и Лекун в борде (https://tspace.library.utoronto.ca/bitstream/1807/140956/2/Hafner_Danijar_202411_PhD_thesis.pdf). Хорошая тема!

10. Highlight of the year -- KAN

KAN: Kolmogorov-Arnold Networks (https://www.group-telegram.com/us/gonzo_ML.com/2598) неплохо бомбанули в моменте, тема быстро развивается (https://github.com/mintisan/awesome-kan), хотя про какое-то супер-применение на текущий момент пока не знаю. Но интересно.

11. ИИ Агенты

Агенты везде и тема про агентов очень многоплановая.

Генеративных агентов (https://www.group-telegram.com/us/gonzo_ML.com/1481) прошлого года отскейлили до симуляции 1000 человек (https://arxiv.org/abs/2411.10109), мультиагентные фреймворки (https://www.group-telegram.com/us/gonzo_ML.com/2897) активно эволюционируют, и вообще мультиагентные воркфлоу в разных смыслах хорошо ложатся на реальные процессы (но это не значит, что не могут быть более эффективные воркфлоу, для которых аналогов в реальном мире нет).

Агенты и мультиагенты -- это продолжение спектра от голой LLM с промпт-инжинирингом к аугментированной LLM (RAG, тулы и прочее) и далее к новым горизонтам. Какая бы ни была крутая LLM, всё равно у неё есть ограничения -- контекст не бесконечный (особенно эффективный контекст), количество голов внимания ограничено, сложный и развесистый промпт с кучей инструкций работает не так хорошо как хотелось бы, разные и тем более противоречивые роли одновременно в одну LLM пихать вообще не работает, и так далее. Зато если это распилить на отдельные модули, то становится работоспособно. Это отчасти та же история про test-time compute, мы теперь можем провести больше времени в обработке, но не одной LLM, а системой агентов, и трейдоффы здесь те же самые: меняем качество на деньги+время.

Всегда есть вопрос, а почему GPT-48 не заменит всех этих мультиагентов? Ну в чём-то она безусловно станет лучше, но separation of concerns же в целом идейно хорошая тема, философия Юникс про Write programs that do one thing and do it well. Помимо всего прочего закрывает кучу иных требований про ownership, change management, более простую отладку и observability и далее. Думаю, и с GPT-48 тоже будут мультисуперагенты.

---

Пока всё.

Какой топ у вас? Что бы вы добавили или убрали?

Всех с Новым Годом!

Openai

Learning to reason with LLMs

We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.

www.group-telegram.com/us/gonzo_ML.com/3176

7.9K viewsDec 31 at 11:13