🌸Агенты в Науке🌸

Kali Novskaya

python
print("-----Downloading the data-----")

— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣

Paper

🟣

GitHub

🟣

HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.

🟣

Paper

🟣

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

SUPER: Evaluating Agents on Setting Up and Executing Tasks from...

Given that Large Language Models (LLMs) have made significant progress in writing code, can they now be used to autonomously reproduce results from research repositories? Such a capability would...

www.group-telegram.com/ms/rybolos_channel.com/1270

7.5K viewsOct 15, 2024 at 09:19

group-telegram.com/rybolos_channel/1270

Create: 2024-10-15
Last Update: 2025-02-24 05:18:58

🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.

🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер aka python print("-----Downloading the data-----")

— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub

Telegram | DID YOU KNOW?

🌸Агенты в Науке🌸