Telegram Group Search
Рабочая Суббота —повод для последнего мемотреда в этом году! #шитпост
🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp

Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.

AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?

🟣Что такое ARC AGI

ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).

TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).

Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.

🟣Новый уровень качества

В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.

Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.

🟣Мои проблемы с ARC AGI

На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей  (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.

Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄С новым годом, друзья!
Пусть 2025 принесёт нам радость озарения, осмысленность задач и сообщество единомышленников!
Долго не постила, ушла в думскроллинг в связи со всеми новостями.
С пн начнётся постинг!

Количество подписчиков, как водится, увеличилось, пока я ничего не писала.
🤑
Please open Telegram to view this post
VIEW IN TELEGRAM
Независима ли Наука и ИИ в 2025?
#nlp  #nlp_papers

Я уже много постов посвящала статьям, занимающимся автоматизацией наука при помощи LLM и агентов на них.
🟣Бесполезный AI scientist
🟣LLM и научная новизна
🟣Бенчмарки для научных агентов

И если мы нацелились на акселерацию науки с ИИ в 2025 году, самое время поговорить и про то, какие подлежащие проблемы предстоит решить перед этим.

Хочу поделиться с вами моим несколько вольным конспектом критической статьи про ситуацию в компьютерной лингвистике (которая на самом деле совершенно переносима на все остальное) On Tables with Numbers, with Numbers.

🌸Зависимость науки 

Откуда идет финансирование науки? Частные фонды, научные гранты, государственные программы. Тем не менее, за последние годы, частный капитал захватил существенную часть: финансирование крупнейших конференций по теме LLM, компьютерной лингвистики, на 50% спонсируется топ-8 индустриальными компаниями.

Необходимость иметь доступ к большим вычислительным мощностям, большим данным и в целом мотивация “алгоритмическое превосходство хоть на +1% любой ценой” пораждает совершенно неравномерную ситуацию, в которой 90%+ исследований сделаны не независимо, а с помощью финансирования тех-компаний. Проблему пизнают даже сами огранизаторы конференций и издатели журналов [2].

Обучение SOTA-моделей по стоимости стало сравнимо и часто превосходит годовой R&D бюджет самых богатых профильных институтов, что делает академию напрямую зависимой.

На практике, пока исследования в области компьютерной лингвистики остаются ориентированными на результаты, зависимость от технологий и инфраструктуры, предоставляемых технологическими гигантами, вообще не имеет никакой альтернативы. В результате, страдают и цитирования, и в целом научный импакт публикаций: читают и цитируют больше всего статьи авторов из тех гигантов.

🌸Коммодификация науки

Достаточно быстро мы приняли, что в лингвистике, биологии, нейронауках, и т.д. – в любой науке, где есть модели и симуляции – есть возможность применять большие нейросетевые модели для более эффективного моделирования. А значит, появились и бенчмарки – наборы классических тестов для моделей, с наличием метрик и золотых ответов от людей-экспертов.
Как выбираются бенчмарки, всегда ли они мотивированы поиском истины, или скорее поиском наиболее экономически выгодного решения индустриальной задачи?

Просто взять и “зарешать” бенчмарки агентами недостаточно:  текущее состояние дел даже в лингвистике показывает огромное количество пробелов, и бОльшую ориентированность на коммерческие задачи, нежели чем на поиск научной истины.
Предстоит создать множество задач, ориентированных на обобщение, пограничные случаи, применимость на различных областях знаний.

Зато есть, конечно, всякие бизнес-метрики и оценки от успехов автоматизации.
Новое определение сильного ИИ от OpenAI Microsoft – сюда же: AGI – это система, которая способна принесли 100 млрд долларов прибыли.

🌸Коммодификация таланта

Студенты и ученые едут за возможностями: куда они едут?
Никакого секрета: направление научной мобильности совпадает с градиентом экономического неравенства в мире [3]. Экономическое неравенство усиливает научно-географическое, когда лаборатории с доступом к технологиям и моделям распеделены совершенно неравномерно.

В рамках сохранения статуса кво корпорациями проводится множество мер лоббирования, инициативы по “этичному ИИ”, “инклюзивности в ИИ”, но почти все они не стремятся реально демократизировать доступ к технологиям или понизить порог входа для инстутов по всему миру. Скорее, они стремятся сделать ровно обратное – закрепить текущее неравенство в доступе, регулировании, принятии решений о приоритетах направлений науки вообще, но с пиаром получше.
Please open Telegram to view this post
VIEW IN TELEGRAM
🟣Если вы рецензент – требуйте воспроизводимости и полного описания методов в статьях; поощряйте статьи с новыми методами, поощряйте статьи с методами, не требующими много вычислительных ресурсов.
🟣Если вы автор – включайте максимально все техническое описание, код и модели
🟣Если вы разработчик – выкладывайте в опенсорс, чтобы не приходилось в рамках воспроизводимости учить все в нуля.

Не важно, в общем-то, сколько будет GPU на мертвой планете.


Ссылки:
[1] Arxiv On Tables with Numbers, with Numbers.
[2] Reject if not SOTA
[3] Статья про академ мобильность
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Стрим на Рабкоре, 20.00мск🌸

Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ
— и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?

Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!

🟣Youtube: https://youtube.com/live/NzZ1wbQiRPQ?feature=share
Please open Telegram to view this post
VIEW IN TELEGRAM
Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?

Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряла лидерские позиции в области генеративного ИИ
Начинаю свой рабочий день с того, что отдаю американское ИИ-преимущество Китаю 🏭🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Вакансия в Llama Team🌸

Со вчерашнего дня у меня есть новая вакансия в мою команду: L4 Research Scientist в Лондон

Будем делать LLM posttraining, агентов и акселерацию науки — и все а опен сорсе.

🟣Нужно обязательно:
— хорошие знания в языковых моделях, reinforcement learning, системное научное мышление
— PhD вокруг LLM или около,
— трек ML публикаций, где вы в первых авторах
— хорошо пройти все разные секции: ML System design, AI Coding, Behavioral.
(Про некоторые из них я уже сама раньше рассказывала, считай, подготовила вас немножко)

🟣Что желательно:
— рабочая/talent виза в UK
— желание выйти поскорее
— не только научный, но и инженерный опыт, способность не только дотюнить модель, но и поконтрибьютить во фреймворк вокруг.


🟣Податься можно здесь: https://www.metacareers.com/jobs/1763573274592729/
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Deepdive into LLMs🌸
#nlp #про_nlp

Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!

🟣Видео: https://youtu.be/7xTGNNLPyMI?si=zSa6jMXJV38wRQ9J
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/02/23 17:16:01
Back to Top
HTML Embed Code: