С наступающим! Такие далекие и такие своевременные шутки прямиком из 80х, журнал "Крокодил"
Forwarded from Рабкор
Сегодня мы приглашаем вас на большой праздничный стрим Рабкора, на котором мы будем обсуждать итоги уходящего года, а также, что ждать в наступающем 2025 году. Все собранные средства на стриме пойдут в бюджет Рабкора! Присылайте свои вопросы с донатом по ссылке http://www.donationalerts.ru/r/bkagarlitsky
Нашими гостями будут:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина (Алло, Макрон)
Екатерина Дунцова*
Саша Талавер
Ксения Кагарлицкая
Алексей Сафронов
Юлия Галямина*
Олег Кашин*
Кали Новская
Ведущие: Анна Очкина, Женя Родионова, Лина Четаева
Ждём вас на нашем итоговом стриме в 19:00 по мск. С Наступающим вас Новым Годом!
*признан(а) "иноагентом"
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
ИТОГИ 2024 без Кагарлицкого /Ракша, Магид, Кашин*, Дунцова* Ступин* Сафронов, Галямина* Талавер
На сегодняшнем стриме подведем итоги уходящего года с гостями "Рабкора" и обсудим, что ждать в новом 2025 году.
Гости:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина
Екатерина Дунцова*
Саша Талавер
Ксения…
Гости:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина
Екатерина Дунцова*
Саша Талавер
Ксения…
Сегодня в районе 22.15 по мск будем подводить итоги года в ИИ и открытых технологиях на Рабкоре!
Приходите!
🟣 https://youtube.com/live/iC7MSP2AdlI
Приходите!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
ИТОГИ 2024 без Кагарлицкого /Ракша, Магид, Кашин*, Дунцова* Ступин* Сафронов, Галямина* Талавер
На сегодняшнем стриме подведем итоги уходящего года с гостями "Рабкора" и обсудим, что ждать в новом 2025 году.
Гости:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина
Екатерина Дунцова*
Саша Талавер
Ксения…
Гости:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина
Екатерина Дунцова*
Саша Талавер
Ксения…
🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
🟣 Что такое ARC AGI
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣 На хабре есть мой краткий пересказ от аж 2020 года (ссылка).
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
🟣 Новый уровень качества
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
🟣 Мои проблемы с ARC AGI
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Сиолошная
ARC бенчмарк — В С Ё!
Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"
Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"