oulenspiegel_channel Telegram Group

По данным Anthropic, 37% айтишников используют ИИ для рабочих задач.
А 63% айтишников использует ИИ для генерации котов-стриптизеров.

3.3K views14:45

Сергей Марков: машинное обучение, искусство и шитпостинг

Хотя сети Колмогорова-Арнольда (Kolmogorov-Arnold, KAN) обладают большой теоретической выразительностью, платой за это становится резкое увеличение числа параметров. Кроме того, KAN испытывают сложности с выявлением высокочастотных признаков в многомерных задачах.

Для решения этих проблем авторы статьи предлагают сети Колмогорова-Арнольда-Фурье (Kolmogorov-Arnold-Fourier Network, KAF), которые эффективно объединяют обучаемые случайные признаки Фурье (Random Fourier Features, RFF) и новый гибридный механизм активации GELU-Фурье для достижения баланса между эффективным числом параметров и способностью создавать спектральные представления.

Основная новизна работы заключается в: (1) объединении двухматричной структуры KAN через свойства ассоциации матриц для существенного уменьшения числа параметров; (2) введение обучаемых стратегий инициализации RFF для устранения спектральных искажений в многомерных задачах аппроксимации; (3) реализация адаптивной гибридной функции активации, которая постепенно улучшает частотное представление в процессе обучения.

Эксперименты авторов демонстрируют превосходство KAF в различных задачах, относящихся к областям компьютерного зрения, обработки естественного языка, обработки звука, а также в задаче решения дифференциальных уравнений

https://arxiv.org/abs/2502.06018

arXiv.org

Kolmogorov-Arnold Fourier Networks

Although Kolmogorov-Arnold based interpretable networks (KAN) have strong theoretical expressiveness, they face significant parameter explosion and high-frequency feature capture challenges in...

3.4K views07:45

Сергей Марков: машинное обучение, искусство и шитпостинг

Моё лицо, когда увидел en dash вместо em dash в вёрстке научного сборника

3.5K views12:15

Сергей Марков: машинное обучение, искусство и шитпостинг

Про тире и дефисы есть такой анекдот. Один историк после войны написал брошюру под названием «Советские партизаны-евреи» про евреев, которые во время войны сражались в составе партизанских отрядов. А неопытный наборщик перепутал тире и дефис, и в результате была издана брошюра под названием «Советские партизаны — евреи»

3.8K viewsedited 12:22

Сергей Марков: машинное обучение, искусство и шитпостинг

Задачи мы решать не бросим!

OpenAI зигует навстречу Маску

3.9K views14:20

Сергей Марков: машинное обучение, искусство и шитпостинг

3.6K views08:00

Сергей Марков: машинное обучение, искусство и шитпостинг

3.2K views09:45

Сергей Марков: машинное обучение, искусство и шитпостинг

3.3K views13:01

Сергей Марков: машинное обучение, искусство и шитпостинг

Как же задрали люди, которые вместо «агентный» в отношении ИИ-систем пишут «агентский». Ага, ещё «мультиагентский», «агентско-ориентированный подход», «агентское моделирование», «агентскость», да?

Это всё потому, что в ИИ лезут разные инфобизнесмены, для которых более привычно слово «агентский» — «агентский договор», «агентские услуги» и пр.

3.2K views09:11

Сергей Марков: машинное обучение, искусство и шитпостинг

2.8K views12:51

Сергей Марков: машинное обучение, искусство и шитпостинг

Old but gold

2.6K views12:50

Сергей Марков: машинное обучение, искусство и шитпостинг

2.4K views14:52

Сергей Марков: машинное обучение, искусство и шитпостинг

Forwarded from Kali Novskaya

🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499

🟣

Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML)...

1.7K views15:05

Сергей Марков: машинное обучение, искусство и шитпостинг

Forwarded from Kali Novskaya

1.9K views15:05

Сергей Марков: машинное обучение, искусство и шитпостинг

Дело было не в бобине!
Долб*ёб сидел в криптобиокабине!

Pardonnez mon français

2.4K views15:58

Сергей Марков: машинное обучение, искусство и шитпостинг

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K viewsedited 14:13

2025/02/24 07:30:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>