Telegram Group & Telegram Channel
🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR 
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:

79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1238
Create:
Last Update:

🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR 
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:

79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1238

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from es


Telegram Kali Novskaya
FROM American