rybolos_channel Telegram Group

С наступающим! Такие далекие и такие своевременные шутки прямиком из 80х, журнал "Крокодил"

8.1K views13:37

🚩

СТРИМ ФАНДРАЙЗ НА РАБКОРЕ

Сегодня мы приглашаем вас на большой праздничный стрим Рабкора, на котором мы будем обсуждать итоги уходящего года, а также, что ждать в наступающем 2025 году. Все собранные средства на стриме пойдут в бюджет Рабкора! Присылайте свои вопросы с донатом по ссылке http://www.donationalerts.ru/r/bkagarlitsky

Нашими гостями будут:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина (Алло, Макрон)
Екатерина Дунцова*
Саша Талавер
Ксения Кагарлицкая
Алексей Сафронов
Юлия Галямина*
Олег Кашин*
Кали Новская

Ведущие: Анна Очкина, Женя Родионова, Лина Четаева

Ждём вас на нашем итоговом стриме в 19:00 по мск. С Наступающим вас Новым Годом!

*признан(а) "иноагентом"

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

ИТОГИ 2024 без Кагарлицкого /Ракша, Магид, Кашин*, Дунцова* Ступин* Сафронов, Галямина* Талавер

На сегодняшнем стриме подведем итоги уходящего года с гостями "Рабкора" и обсудим, что ждать в новом 2025 году.

Гости:
Алексей Ракша
Михаил Магид
Ян Веселов
Евгений Ступин*
Кирилл Медведев
Александр Листратов и Кристина
Екатерина Дунцова*
Саша Талавер
Ксения…

5.7K views14:20

Kali Novskaya

Сегодня в районе 22.15 по мск будем подводить итоги года в ИИ и открытых технологиях на Рабкоре!
Приходите!

🟣

https://youtube.com/live/iC7MSP2AdlI

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

ИТОГИ 2024 без Кагарлицкого /Ракша, Магид, Кашин*, Дунцова* Ступин* Сафронов, Галямина* Талавер

6.3K views14:21

Kali Novskaya

Рабочая Суббота —повод для последнего мемотреда в этом году! #шитпост

6.1K views12:28

Kali Novskaya

🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp

Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.

AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?

🟣

Что такое ARC AGI

ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).

TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).

Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.

🟣

Новый уровень качества

В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.

Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.

🟣

Мои проблемы с ARC AGI

На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.

Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.

Please open Telegram to view this post

VIEW IN TELEGRAM

Сиолошная

ARC бенчмарк — В С Ё!

Это очень HUGE, метрики больше чем у людей на закрытых данных, которые "показывают что модели не могут думать"

11.3K views12:27

Kali Novskaya

6.2K views12:28

Kali Novskaya

🎄С новым годом, друзья!
Пусть 2025 принесёт нам радость озарения, осмысленность задач и сообщество единомышленников!

5.2K views18:09

2025/01/11 10:24:30
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>