Telegram Group & Telegram Channel
Большие языковые модели в наукометрии, или зачем нам SciBERT

Не все научные публикации одинаковы с точки зрения их влияния на социальную реальность. Нередко показатель цитируемости и импакт-фактор журнала дают нам некоторое представление о том, насколько серьезная работа перед нами, однако даже недавний пример с сетью взаимосвязей между первыми работами, которые цитируют статью Хопфилда о нейронных сетях, показывает, что одной только высокой цитируемости недостаточно: например, работы уже второго «поколения» цитирований получали в разы больше внимания, чем изначальный труд. Кроме того, не секрет, что в отдельных областях большее внимание привлекают обзоры по научным областям: обычно они цитируются довольно активно, поскольку обобщают информацию по какой-либо тематике, но в то же время не каждый обзор представляет из себя что-то большее, чем простое фиксирование текущего положения дел.

В сентябре Scientometrics опубликовали статью китайских исследователей, в которой описывается метод интеллектуального распознавания высококачественных научных работ на основе метасемантических сетей, задействующих deep learning и LLM-технологии. Раньше это было практически нереализуемой задачей: методы оценки научных статей ограничивались качественным (на основе рецензирования) и количественным (на основе библиометрических показателей) подходами. Недостатки этих методов хорошо изучены — в первом случае это проблемы с воспроизводимостью, неполнота знаний у рецензентов и возможный конфликт интересов, а во втором — временной лаг и разная чувствительность показателей, которая неизбежно влияет на финальную оценку.

Авторы предлагают новый подход к определению качества научной статьи как взвешенной суммы импакт-фактора журнала и средневзвешенной цитируемости статьи, где веса определяются методом информационной энтропии, а потом для «высококачественных» и «низкокачественных» работ строится упомянутая метасемантическая сеть на основе известной языковой модели SciBERT (одна из вариаций еще более широко известной модели BERT от Google). Таким образом, в перспективе это позволит измерять качество статей напрямую по их содержанию, без временного лага.

Кстати, еще одну вариацию BERT (SPS-BERT) уже другой исследовательский коллектив использовал для прогнозирования появления прорывных технологий. Согласно их результатам, этот метод позволяет предсказать индекс прорыва (о котором мы писали ранее) точнее, чем все прочие существующие методы. По крайней мере, на наборах данных DBLP и PubMed.

LLM вообще приобретают всё большую популярность в нашей среде. Тот же Scientometrics в сентябре опубликовал call for papers по теме «искусственный интеллект в наукометрии» (подача заявок до 28 февраля 2025 года).

Оставляя в стороне многократно обсуждаемые вопросы этичности использования инструментов ИИ в различных сферах, мы можем сказать, что перспективы их использования в сфере наукометрии скорее радуют. Языковые модели открывают широкий простор для совершенно новых исследований и выводов, а кроме того, предлагают принципиально иные подходы к оценке научных исследований.

#LLM #обзор #SciBERT



group-telegram.com/HQhse/460
Create:
Last Update:

Большие языковые модели в наукометрии, или зачем нам SciBERT

Не все научные публикации одинаковы с точки зрения их влияния на социальную реальность. Нередко показатель цитируемости и импакт-фактор журнала дают нам некоторое представление о том, насколько серьезная работа перед нами, однако даже недавний пример с сетью взаимосвязей между первыми работами, которые цитируют статью Хопфилда о нейронных сетях, показывает, что одной только высокой цитируемости недостаточно: например, работы уже второго «поколения» цитирований получали в разы больше внимания, чем изначальный труд. Кроме того, не секрет, что в отдельных областях большее внимание привлекают обзоры по научным областям: обычно они цитируются довольно активно, поскольку обобщают информацию по какой-либо тематике, но в то же время не каждый обзор представляет из себя что-то большее, чем простое фиксирование текущего положения дел.

В сентябре Scientometrics опубликовали статью китайских исследователей, в которой описывается метод интеллектуального распознавания высококачественных научных работ на основе метасемантических сетей, задействующих deep learning и LLM-технологии. Раньше это было практически нереализуемой задачей: методы оценки научных статей ограничивались качественным (на основе рецензирования) и количественным (на основе библиометрических показателей) подходами. Недостатки этих методов хорошо изучены — в первом случае это проблемы с воспроизводимостью, неполнота знаний у рецензентов и возможный конфликт интересов, а во втором — временной лаг и разная чувствительность показателей, которая неизбежно влияет на финальную оценку.

Авторы предлагают новый подход к определению качества научной статьи как взвешенной суммы импакт-фактора журнала и средневзвешенной цитируемости статьи, где веса определяются методом информационной энтропии, а потом для «высококачественных» и «низкокачественных» работ строится упомянутая метасемантическая сеть на основе известной языковой модели SciBERT (одна из вариаций еще более широко известной модели BERT от Google). Таким образом, в перспективе это позволит измерять качество статей напрямую по их содержанию, без временного лага.

Кстати, еще одну вариацию BERT (SPS-BERT) уже другой исследовательский коллектив использовал для прогнозирования появления прорывных технологий. Согласно их результатам, этот метод позволяет предсказать индекс прорыва (о котором мы писали ранее) точнее, чем все прочие существующие методы. По крайней мере, на наборах данных DBLP и PubMed.

LLM вообще приобретают всё большую популярность в нашей среде. Тот же Scientometrics в сентябре опубликовал call for papers по теме «искусственный интеллект в наукометрии» (подача заявок до 28 февраля 2025 года).

Оставляя в стороне многократно обсуждаемые вопросы этичности использования инструментов ИИ в различных сферах, мы можем сказать, что перспективы их использования в сфере наукометрии скорее радуют. Языковые модели открывают широкий простор для совершенно новых исследований и выводов, а кроме того, предлагают принципиально иные подходы к оценке научных исследований.

#LLM #обзор #SciBERT

BY Выше квартилей




Share with your friend now:
group-telegram.com/HQhse/460

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." For tech stocks, “the main thing is yields,” Essaye said.
from in


Telegram Выше квартилей
FROM American