Telegram Group Search
С наступающим! Такие далекие и такие своевременные шутки прямиком из 80х, журнал "Крокодил"
Forwarded from Рабкор
🚩СТРИМ ФАНДРАЙЗ НА РАБКОРЕ

Сегодня мы приглашаем вас на большой праздничный стрим Рабкора, на котором мы будем обсуждать итоги уходящего года, а также, что ждать в наступающем 2025 году. Все собранные средства на стриме пойдут в бюджет Рабкора! Присылайте свои вопросы с донатом по ссылке http://www.donationalerts.ru/r/bkagarlitsky

Нашими гостями будут:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина (Алло, Макрон)
Екатерина Дунцова*
Саша Талавер
Ксения Кагарлицкая
Алексей Сафронов
Юлия Галямина*
Олег Кашин*
Кали Новская

Ведущие: Анна Очкина, Женя Родионова, Лина Четаева

Ждём вас на нашем итоговом стриме в 19:00 по мск. С Наступающим вас Новым Годом!

*признан(а) "иноагентом"
Please open Telegram to view this post
VIEW IN TELEGRAM
Рабочая Суббота —повод для последнего мемотреда в этом году! #шитпост
🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp

Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.

AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?

🟣Что такое ARC AGI

ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).

TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).

Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.

🟣Новый уровень качества

В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.

Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.

🟣Мои проблемы с ARC AGI

На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей  (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.

Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄С новым годом, друзья!
Пусть 2025 принесёт нам радость озарения, осмысленность задач и сообщество единомышленников!
2025/01/11 10:24:30
Back to Top
HTML Embed Code: