🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
🟣 Что такое ARC AGI
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣 На хабре есть мой краткий пересказ от аж 2020 года (ссылка).
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
🟣 Новый уровень качества
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
🟣 Мои проблемы с ARC AGI
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Сиолошная
ARC бенчмарк — В С Ё!
Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"
Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"
Долго не постила, ушла в думскроллинг в связи со всеми новостями.
С пн начнётся постинг!
Количество подписчиков, как водится, увеличилось, пока я ничего не писала.
🤑
С пн начнётся постинг!
Количество подписчиков, как водится, увеличилось, пока я ничего не писала.
Please open Telegram to view this post
VIEW IN TELEGRAM
Независима ли Наука и ИИ в 2025?
#nlp #nlp_papers
Я уже много постов посвящала статьям, занимающимся автоматизацией наука при помощи LLM и агентов на них.
🟣 Бесполезный AI scientist
🟣 LLM и научная новизна
🟣 Бенчмарки для научных агентов
И если мы нацелились на акселерацию науки с ИИ в 2025 году, самое время поговорить и про то, какие подлежащие проблемы предстоит решить перед этим.
Хочу поделиться с вами моим несколько вольным конспектом критической статьи про ситуацию в компьютерной лингвистике (которая на самом деле совершенно переносима на все остальное) On Tables with Numbers, with Numbers.
🌸Зависимость науки
Откуда идет финансирование науки? Частные фонды, научные гранты, государственные программы. Тем не менее, за последние годы, частный капитал захватил существенную часть: финансирование крупнейших конференций по теме LLM, компьютерной лингвистики, на 50% спонсируется топ-8 индустриальными компаниями.
Необходимость иметь доступ к большим вычислительным мощностям, большим данным и в целом мотивация “алгоритмическое превосходство хоть на +1% любой ценой” пораждает совершенно неравномерную ситуацию, в которой 90%+ исследований сделаны не независимо, а с помощью финансирования тех-компаний. Проблему пизнают даже сами огранизаторы конференций и издатели журналов [2].
Обучение SOTA-моделей по стоимости стало сравнимо и часто превосходит годовой R&D бюджет самых богатых профильных институтов, что делает академию напрямую зависимой.
На практике, пока исследования в области компьютерной лингвистики остаются ориентированными на результаты, зависимость от технологий и инфраструктуры, предоставляемых технологическими гигантами, вообще не имеет никакой альтернативы. В результате, страдают и цитирования, и в целом научный импакт публикаций: читают и цитируют больше всего статьи авторов из тех гигантов.
🌸Коммодификация науки
Достаточно быстро мы приняли, что в лингвистике, биологии, нейронауках, и т.д. – в любой науке, где есть модели и симуляции – есть возможность применять большие нейросетевые модели для более эффективного моделирования. А значит, появились и бенчмарки – наборы классических тестов для моделей, с наличием метрик и золотых ответов от людей-экспертов.
Как выбираются бенчмарки, всегда ли они мотивированы поиском истины, или скорее поиском наиболее экономически выгодного решения индустриальной задачи?
Просто взять и “зарешать” бенчмарки агентами недостаточно: текущее состояние дел даже в лингвистике показывает огромное количество пробелов, и бОльшую ориентированность на коммерческие задачи, нежели чем на поиск научной истины.
Предстоит создать множество задач, ориентированных на обобщение, пограничные случаи, применимость на различных областях знаний.
Зато есть, конечно, всякие бизнес-метрики и оценки от успехов автоматизации.
Новое определение сильного ИИ от OpenAI Microsoft – сюда же: AGI – это система, которая способна принесли 100 млрд долларов прибыли.
🌸Коммодификация таланта
Студенты и ученые едут за возможностями: куда они едут?
Никакого секрета: направление научной мобильности совпадает с градиентом экономического неравенства в мире [3]. Экономическое неравенство усиливает научно-географическое, когда лаборатории с доступом к технологиям и моделям распеделены совершенно неравномерно.
В рамках сохранения статуса кво корпорациями проводится множество мер лоббирования, инициативы по “этичному ИИ”, “инклюзивности в ИИ”, но почти все они не стремятся реально демократизировать доступ к технологиям или понизить порог входа для инстутов по всему миру. Скорее, они стремятся сделать ровно обратное – закрепить текущее неравенство в доступе, регулировании, принятии решений о приоритетах направлений науки вообще, но с пиаром получше.
#nlp #nlp_papers
Я уже много постов посвящала статьям, занимающимся автоматизацией наука при помощи LLM и агентов на них.
И если мы нацелились на акселерацию науки с ИИ в 2025 году, самое время поговорить и про то, какие подлежащие проблемы предстоит решить перед этим.
Хочу поделиться с вами моим несколько вольным конспектом критической статьи про ситуацию в компьютерной лингвистике (которая на самом деле совершенно переносима на все остальное) On Tables with Numbers, with Numbers.
🌸Зависимость науки
Откуда идет финансирование науки? Частные фонды, научные гранты, государственные программы. Тем не менее, за последние годы, частный капитал захватил существенную часть: финансирование крупнейших конференций по теме LLM, компьютерной лингвистики, на 50% спонсируется топ-8 индустриальными компаниями.
Необходимость иметь доступ к большим вычислительным мощностям, большим данным и в целом мотивация “алгоритмическое превосходство хоть на +1% любой ценой” пораждает совершенно неравномерную ситуацию, в которой 90%+ исследований сделаны не независимо, а с помощью финансирования тех-компаний. Проблему пизнают даже сами огранизаторы конференций и издатели журналов [2].
Обучение SOTA-моделей по стоимости стало сравнимо и часто превосходит годовой R&D бюджет самых богатых профильных институтов, что делает академию напрямую зависимой.
На практике, пока исследования в области компьютерной лингвистики остаются ориентированными на результаты, зависимость от технологий и инфраструктуры, предоставляемых технологическими гигантами, вообще не имеет никакой альтернативы. В результате, страдают и цитирования, и в целом научный импакт публикаций: читают и цитируют больше всего статьи авторов из тех гигантов.
🌸Коммодификация науки
Достаточно быстро мы приняли, что в лингвистике, биологии, нейронауках, и т.д. – в любой науке, где есть модели и симуляции – есть возможность применять большие нейросетевые модели для более эффективного моделирования. А значит, появились и бенчмарки – наборы классических тестов для моделей, с наличием метрик и золотых ответов от людей-экспертов.
Как выбираются бенчмарки, всегда ли они мотивированы поиском истины, или скорее поиском наиболее экономически выгодного решения индустриальной задачи?
Просто взять и “зарешать” бенчмарки агентами недостаточно: текущее состояние дел даже в лингвистике показывает огромное количество пробелов, и бОльшую ориентированность на коммерческие задачи, нежели чем на поиск научной истины.
Предстоит создать множество задач, ориентированных на обобщение, пограничные случаи, применимость на различных областях знаний.
Зато есть, конечно, всякие бизнес-метрики и оценки от успехов автоматизации.
Новое определение сильного ИИ от OpenAI Microsoft – сюда же: AGI – это система, которая способна принесли 100 млрд долларов прибыли.
🌸Коммодификация таланта
Студенты и ученые едут за возможностями: куда они едут?
Никакого секрета: направление научной мобильности совпадает с градиентом экономического неравенства в мире [3]. Экономическое неравенство усиливает научно-географическое, когда лаборатории с доступом к технологиям и моделям распеделены совершенно неравномерно.
В рамках сохранения статуса кво корпорациями проводится множество мер лоббирования, инициативы по “этичному ИИ”, “инклюзивности в ИИ”, но почти все они не стремятся реально демократизировать доступ к технологиям или понизить порог входа для инстутов по всему миру. Скорее, они стремятся сделать ровно обратное – закрепить текущее неравенство в доступе, регулировании, принятии решений о приоритетах направлений науки вообще, но с пиаром получше.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸AI Scientist, или рецензенты NeurIPS ненавидят этот простой трюк 🌸
#nlp #про_nlp #nlp_papers
TL;DR группа учёных из Оксфорда и Sakana.ai создала фреймворк, генерирующий очень реалистичные научные статьи в формате популярных конференций.
За несколько попыток…
#nlp #про_nlp #nlp_papers
TL;DR группа учёных из Оксфорда и Sakana.ai создала фреймворк, генерирующий очень реалистичные научные статьи в формате популярных конференций.
За несколько попыток…
Не важно, в общем-то, сколько будет GPU на мертвой планете.
Ссылки:
[1] Arxiv On Tables with Numbers, with Numbers.
[2] Reject if not SOTA
[3] Статья про академ мобильность
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Стрим на Рабкоре, 20.00мск🌸
Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ — и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?
Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!
🟣 Youtube: https://youtube.com/live/NzZ1wbQiRPQ?feature=share
Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ — и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?
Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!
Please open Telegram to view this post
VIEW IN TELEGRAM
Вопросы можно задавать под этим постом или через донат
Все донаты идут в фонд поддержки левых политзаключённых и на Работу рабкора.
https://youtube.com/live/NzZ1wbQiRPQ?feature=share
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Опенсорс в 2025: новости и прогноз / Кали Новская
На сегодняшнем стриме с ведущей Кали Новской обсудим следующие темы:
- инвестиция в размере $500 млрд в развитие сферы искусственного интеллекта в США;
- китайский DeepSeek выпускает Опенсорс-конкурента O1 OpenAI!
- что нас ожидает в 2025 году, будет ли…
- инвестиция в размере $500 млрд в развитие сферы искусственного интеллекта в США;
- китайский DeepSeek выпускает Опенсорс-конкурента O1 OpenAI!
- что нас ожидает в 2025 году, будет ли…
Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг
Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?
Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряла лидерские позиции в области генеративного ИИ
Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряла лидерские позиции в области генеративного ИИ
Начинаю свой рабочий день с того, что отдаю американское ИИ-преимущество Китаю 🏭 🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
🟣 https://aigents.timepad.ru/event/1412596/
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
Please open Telegram to view this post
VIEW IN TELEGRAM
aigents.timepad.ru
Семинар русскоязычного сообщества AGI / События на TimePad.ru
На пути к AGI: Обзор работ 2024-2025 года — Татьяна Шаврина (Llama, Главный научный сотрудник Института Языкознания РАН)
🌸Вакансия в Llama Team🌸
Со вчерашнего дня у меня есть новая вакансия в мою команду: L4 Research Scientist в Лондон
Будем делать LLM posttraining, агентов и акселерацию науки — и все а опен сорсе.
🟣 Нужно обязательно:
— хорошие знания в языковых моделях, reinforcement learning, системное научное мышление
— PhD вокруг LLM или около,
— трек ML публикаций, где вы в первых авторах
— хорошо пройти все разные секции: ML System design, AI Coding, Behavioral.
(Про некоторые из них я уже сама раньше рассказывала, считай, подготовила вас немножко)
🟣 Что желательно:
— рабочая/talent виза в UK
— желание выйти поскорее
— не только научный, но и инженерный опыт, способность не только дотюнить модель, но и поконтрибьютить во фреймворк вокруг.
🟣 Податься можно здесь: https://www.metacareers.com/jobs/1763573274592729/
Со вчерашнего дня у меня есть новая вакансия в мою команду: L4 Research Scientist в Лондон
Будем делать LLM posttraining, агентов и акселерацию науки — и все а опен сорсе.
— хорошие знания в языковых моделях, reinforcement learning, системное научное мышление
— PhD вокруг LLM или около,
— трек ML публикаций, где вы в первых авторах
— хорошо пройти все разные секции: ML System design, AI Coding, Behavioral.
(Про некоторые из них я уже сама раньше рассказывала, считай, подготовила вас немножко)
— рабочая/talent виза в UK
— желание выйти поскорее
— не только научный, но и инженерный опыт, способность не только дотюнить модель, но и поконтрибьютить во фреймворк вокруг.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Deepdive into LLMs🌸
#nlp #про_nlp
Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!
🟣 Видео: https://youtu.be/7xTGNNLPyMI?si=zSa6jMXJV38wRQ9J
#nlp #про_nlp
Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Deep Dive into LLMs like ChatGPT
This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…