Telegram Group & Telegram Channel
🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.


🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер  aka python
print("-----Downloading the data-----")


— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1270
Create:
Last Update:

🌸Агенты в Науке🌸
#nlp #про_nlp #nlp_papers

Пока на прошлой неделе раздавали нобелевские премии по всяким непонятным мне наукам, вышло несколько статей про вполне валидное использование языковых моделей и агентов для науки, на которые хочется обратить ваше внимание.

Обе работы — бенчмарки для оценки реальных прикладных способностей LLM.
Раньше мы обсуждали прототип ученого и генерацию идей с научной новизной. А теперь — более надежный способ измерить научные способности моделей.

🌸Почему агенты, а не LLM?
Агенты — это софтверная абстракция поверх LLM. API, правила, всевозможные self-reflection, и, в конце концов, выход в интернет.
Агенты бесполезно проверять на условном MMLU, даже уровня PhD — ведь ответ есть в интернете. Хороший агент может загуглить правильный ответ в 1-2 шага, и никакого ризонинга не надо.

Соответственно, и ставить задачи для агентов нужно более сложные, чтобы гугления было мало.
К таким задачам в моделирующих науках можно отнести: валидация экспериментов по данным, построение более сильных моделей поверх бейзлайнов, автоматизация ablation studies, перепроверка выводов — и так далее.


🌸SUPER от Allen AI

Super — это бенчмарк, который измеряет способность модели/агента решать реальные научные задачи.
Задачи взяты из существующих статей по NLP и Github-репозиториев к ним.
Всего собрано 45 задач, которые нужно решить end2end, с золотыми решениями выверенными экспертами;
152 задачи — часть из существующих исследований и соревнований, и 604 задачи — автоматически сгенерированные (о нет).

Как это все оценивать? Авторы вводят несколько методов оценки:

— Оценка на основе исполнения: сошелся результат с экспертным или нет.
— Лэндмарки: промежуточные результаты генерации, которые маркируют, что агент-таки дошел до шага номер  aka python
print("-----Downloading the data-----")


— Частичные оценки: у части задач подзадачи замаскированы, и восстановить и выполнить нужно только их.

Затем это все запускается в изолированном контейнере, и ограничивается 30 минутами на задачу.

Таким образом получаем метрики, которые дают нам сигнал о том, насколько хорошо модели 1) доводят сценарий до конца 2) где примерно они ломаются 3) какие подзадачи для них самые сложные.

Реальные результаты: GPT-4o может решить 16.3% из экспертного сета задач.

🟣Paper
🟣GitHub
🟣HF Page

🌸MLE bench от OpenAI

Тестируем агенты на 75 задачах из Kaggle-соревнований.
Из соревнования позаимствовано описание и датасет, а обучить модели, отдебажить, оттестировать, проитерироваться нужно агенту. Метрики и распределение результатов других участников так же известны, так что можно легко оценить, попали ли мы в топ-квартиль или нет.

Как это все оценивать?
Поскольку речь идет о соревнованиях, авторы решают оценить уровень моделей относительно интервалов рейтинга реальных участников: золото, серебро, бронза или ниже.

Все запуски ограничены 24 часами для каждой задачи.
Все задачи провалидированы, имеют надежный train test split, и отсортированы по сложности:
22 из них легкие (30%), 38 средние (50%), и 15 трудные (20%).
Еще 7 задач отложены в качестве закрытого теста.

Проверка для плагиат и нарушение правил: отдельно результаты агентов оцениваются на наличие нарушений правил (списывание, зарешивание теста не на основе обученной моделью, а "вручную" и т.д.).

Поскольку OpenAI уже не раз ловили на том, что они тренятся на тесте (в частности, тут и тут), то имеет смысл проверить собственные модели на контаминацию и оценить ее влияние. Некоторая фрагментарная проверка на контаминацию проводится — смотрят и среднюю вероятность токенов из задач и корреляцию в результатом, и разницу в качестве, если запускать модель на обычных и обфусцированных описаниях задач — в целом результаты сохраняются.

На своих же собственных оценках, модель o1-preview успешно готовит сабмит в 82.8% случаев, из них в 29% попадает в результат топ-50% участников, и в 16.9% получает медаль.
🟣Paper
🟣GitHub

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1270

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from ru


Telegram Kali Novskaya
FROM American