🌸LLM хакают научную новизну🌸

Kali Novskaya

🟣

Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣

Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣

Эффективность
— нет стат значимости

🟣

Выполнимость
— нет стат значимости

🟣

Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣

Arxiv

🟣

Github

🟣

Поучаствовать в эксперименте

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

🌸AI Scientist, или рецензенты NeurIPS ненавидят этот простой трюк 🌸
#nlp #про_nlp #nlp_papers

TL;DR группа учёных из Оксфорда и Sakana.ai создала фреймворк, генерирующий очень реалистичные научные статьи в формате популярных конференций.
За несколько попыток…

www.group-telegram.com/us/rybolos_channel.com/1238

8.6K viewsSep 11, 2024 at 13:19

group-telegram.com/rybolos_channel/1238

Create: 2024-09-11
Last Update: 2025-02-23 16:20:06

🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:
79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте

Telegram | DID YOU KNOW?

🌸LLM хакают научную новизну🌸