Telegram Group & Telegram Channel
🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR 
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:

79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1238
Create:
Last Update:

🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR 
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:

79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1238

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Telegram Messenger Blocks Navalny Bot During Russian Election And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively.
from it


Telegram Kali Novskaya
FROM American