Telegram Group & Telegram Channel
🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR 
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:

79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1238
Create:
Last Update:

🌸LLM хакают научную новизну🌸
#nlp #про_nlp #nlp_papers

Замечательная тема последнего сезона — акселерация научного прогресса с помощью LLM.

Новая работа — Can LLMs Generate Novel Research Ideas? — представляет интересный результат: в сетапе, подобном OpenReview (спасибо, что не в настоящем), рецензенты проводят двойное слепое рецензирование абстрактов статей, не зная, какие из них написаны людьми, а какие — моделью.

Оценивают критерии как и на обычных конференциях: общая оценка, новизна, интересность, осуществимость и ожидаемая эффективность работы.

🌸TL;DR 
LLM могут писать предложения научных проектов, воспринимаемые рецензентами/комиссией как содержащие научную новизну и интересные. Это не значит, что научная новизна там есть. Это хак субъективных критериев процедуры рецензирования.

🌸Как это работает:

79 рецензентов оценивали 49 research proposals (кто хоть раз работал в НИИ или лабе, может представить, это такое предложение проекта или общей темы, над которой будет вестись исследование)

В эксперименте участвуют три типа работ:
1. Экспертные человеческие proposals
2. ИИ-сгенерированные proposals
3. ИИ-сгенерированные proposals с экспертным cherry-pick

Генератор идей работает по следующим принципам: извлечение статей из базы с запросом "новая работа на тему X" -> генерация идей по статьям -> ранжирование идей

В эксперименте участвуют 7 NLP-тем: Bias, Coding, Safety, Multilinguality, Factuality, Math, и Uncertainty Estimation

🌸Ограничения работы
— сигнал о том, насколько идея и исследование качественное, совершенно не всегда передается на стадии названия и абстракта
— в написании proposals участвовали в среднем молодые исследователи с h-index 5
— у рецензентов, в целом, не сильно больше — средний h-index 7. Хотя уверенность рецензентов в целом неплохая — 3.7 из 5

Стат критерий для оценки выбран правильно — модификация T-критерия Стьюдента, без ожидания равенства средних, но с предпосылкой о нормальном распределении данных, и с поправкой на множественное сравнение.

🌸Общие результаты таковы:

🟣Научная новизна
— ИИ идеи vs Экспертные — ИИ оценены как более новые

🟣Интерес рецензента
— ИИ идеи vs Экспертные — ИИ оценены как более интересные

🟣 Эффективность
— нет стат значимости

🟣Выполнимость
— нет стат значимости

🟣 Общая оценка
— нет стат значимости

🌸Три важных замечания от авторов:
1) У LLM нет разнообразия генерации идей. Идеи часто повторяются до степени полного дублирования.
2) LLM не могут консистентно рецензировать работы. Коэффциент согласия и констистентность у автоматических рецензий ниже, чем на конференциях сейчас (а мы знаем, что он низкий)
3) У ИИ-тем есть 6 типичных ограничений
— Слишком расплывчатое описание деталей реализации.
— Неправильное использование датасетов
— Отсутствующие или неподходящие бейзлайны
— Слишком требовательные к ресурсам
— Отсутствие мотивации
— Неиспользование принятой методологии

В то же время человеческие proposals
— более обоснованны,
— лучше опираются на текущие проблемы науки и индустрии,
— оцениваются как выполнимые, хотя и менее интересные.

🌸Общий вывод: сгенерированные идеи при наличии соответствующего промпта могут иметь преимущество и оцениваться рецензентами как более интересные и содержащие научную новизну. Это не значит, что научная новизна там есть, так как оценка по определению субъективная. Результаты были показаны на небольшой выборке работ. Чтобы подтвердить или опровергнуть этот вывод, необходим масштаб эксперимента NeurIPS.

В целом работа гораздо более методологически аккуратная и обоснованная, чем AI Research Scientist. Отличный пример того, как можно подходить аккуратно к LLM и вопросам научной новизны.

🟣Arxiv
🟣Github
🟣Поучаствовать в эксперименте

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1238

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp.
from fr


Telegram Kali Novskaya
FROM American