Forwarded from Метаверсошная
По данным Anthropic, 37% айтишников используют ИИ для рабочих задач.
А 63% айтишников использует ИИ для генерации котов-стриптизеров.
А 63% айтишников использует ИИ для генерации котов-стриптизеров.
Хотя сети Колмогорова-Арнольда (Kolmogorov-Arnold, KAN) обладают большой теоретической выразительностью, платой за это становится резкое увеличение числа параметров. Кроме того, KAN испытывают сложности с выявлением высокочастотных признаков в многомерных задачах.
Для решения этих проблем авторы статьи предлагают сети Колмогорова-Арнольда-Фурье (Kolmogorov-Arnold-Fourier Network, KAF), которые эффективно объединяют обучаемые случайные признаки Фурье (Random Fourier Features, RFF) и новый гибридный механизм активации GELU-Фурье для достижения баланса между эффективным числом параметров и способностью создавать спектральные представления.
Основная новизна работы заключается в: (1) объединении двухматричной структуры KAN через свойства ассоциации матриц для существенного уменьшения числа параметров; (2) введение обучаемых стратегий инициализации RFF для устранения спектральных искажений в многомерных задачах аппроксимации; (3) реализация адаптивной гибридной функции активации, которая постепенно улучшает частотное представление в процессе обучения.
Эксперименты авторов демонстрируют превосходство KAF в различных задачах, относящихся к областям компьютерного зрения, обработки естественного языка, обработки звука, а также в задаче решения дифференциальных уравнений
https://arxiv.org/abs/2502.06018
Для решения этих проблем авторы статьи предлагают сети Колмогорова-Арнольда-Фурье (Kolmogorov-Arnold-Fourier Network, KAF), которые эффективно объединяют обучаемые случайные признаки Фурье (Random Fourier Features, RFF) и новый гибридный механизм активации GELU-Фурье для достижения баланса между эффективным числом параметров и способностью создавать спектральные представления.
Основная новизна работы заключается в: (1) объединении двухматричной структуры KAN через свойства ассоциации матриц для существенного уменьшения числа параметров; (2) введение обучаемых стратегий инициализации RFF для устранения спектральных искажений в многомерных задачах аппроксимации; (3) реализация адаптивной гибридной функции активации, которая постепенно улучшает частотное представление в процессе обучения.
Эксперименты авторов демонстрируют превосходство KAF в различных задачах, относящихся к областям компьютерного зрения, обработки естественного языка, обработки звука, а также в задаче решения дифференциальных уравнений
https://arxiv.org/abs/2502.06018
arXiv.org
Kolmogorov-Arnold Fourier Networks
Although Kolmogorov-Arnold based interpretable networks (KAN) have strong theoretical expressiveness, they face significant parameter explosion and high-frequency feature capture challenges in...
Про тире и дефисы есть такой анекдот. Один историк после войны написал брошюру под названием «Советские партизаны-евреи» про евреев, которые во время войны сражались в составе партизанских отрядов. А неопытный наборщик перепутал тире и дефис, и в результате была издана брошюра под названием «Советские партизаны — евреи»
Как же задрали люди, которые вместо «агентный» в отношении ИИ-систем пишут «агентский». Ага, ещё «мультиагентский», «агентско-ориентированный подход», «агентское моделирование», «агентскость», да?
Это всё потому, что в ИИ лезут разные инфобизнесмены, для которых более привычно слово «агентский» — «агентский договор», «агентские услуги» и пр.
Это всё потому, что в ИИ лезут разные инфобизнесмены, для которых более привычно слово «агентский» — «агентский договор», «агентские услуги» и пр.
Forwarded from Kali Novskaya
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
🟣 TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
🟣 Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
🟣 Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
🟣 Arxiv: https://arxiv.org/abs/2502.14499
🟣 Github: https://github.com/facebookresearch/MLGym
🟣 Лицензия: CC-BY-NC 4.0
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
— Классный Web UI визуализатор агентных логов на
streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML)...
Please open Telegram to view this post
VIEW IN TELEGRAM