Telegram Group & Telegram Channel
🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.


🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер  aka python
print("-----Downloading the data-----")


— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1270
Create:
Last Update:

🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.


🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер  aka python
print("-----Downloading the data-----")


— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1270

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from ms


Telegram Kali Novskaya
FROM American