Telegram Group & Telegram Channel
🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.


🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер  aka python
print("-----Downloading the data-----")


— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1270
Create:
Last Update:

🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.


🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер  aka python
print("-----Downloading the data-----")


— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1270

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. I want a secure messaging app, should I use Telegram? The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." 'Wild West'
from nl


Telegram Kali Novskaya
FROM American