Telegram Group & Telegram Channel
Большие языковые модели в наукометрии, или зачем нам SciBERT

Не все научные публикации одинаковы с точки зрения их влияния на социальную реальность. Нередко показатель цитируемости и импакт-фактор журнала дают нам некоторое представление о том, насколько серьезная работа перед нами, однако даже недавний пример с сетью взаимосвязей между первыми работами, которые цитируют статью Хопфилда о нейронных сетях, показывает, что одной только высокой цитируемости недостаточно: например, работы уже второго «поколения» цитирований получали в разы больше внимания, чем изначальный труд. Кроме того, не секрет, что в отдельных областях большее внимание привлекают обзоры по научным областям: обычно они цитируются довольно активно, поскольку обобщают информацию по какой-либо тематике, но в то же время не каждый обзор представляет из себя что-то большее, чем простое фиксирование текущего положения дел.

В сентябре Scientometrics опубликовали статью китайских исследователей, в которой описывается метод интеллектуального распознавания высококачественных научных работ на основе метасемантических сетей, задействующих deep learning и LLM-технологии. Раньше это было практически нереализуемой задачей: методы оценки научных статей ограничивались качественным (на основе рецензирования) и количественным (на основе библиометрических показателей) подходами. Недостатки этих методов хорошо изучены — в первом случае это проблемы с воспроизводимостью, неполнота знаний у рецензентов и возможный конфликт интересов, а во втором — временной лаг и разная чувствительность показателей, которая неизбежно влияет на финальную оценку.

Авторы предлагают новый подход к определению качества научной статьи как взвешенной суммы импакт-фактора журнала и средневзвешенной цитируемости статьи, где веса определяются методом информационной энтропии, а потом для «высококачественных» и «низкокачественных» работ строится упомянутая метасемантическая сеть на основе известной языковой модели SciBERT (одна из вариаций еще более широко известной модели BERT от Google). Таким образом, в перспективе это позволит измерять качество статей напрямую по их содержанию, без временного лага.

Кстати, еще одну вариацию BERT (SPS-BERT) уже другой исследовательский коллектив использовал для прогнозирования появления прорывных технологий. Согласно их результатам, этот метод позволяет предсказать индекс прорыва (о котором мы писали ранее) точнее, чем все прочие существующие методы. По крайней мере, на наборах данных DBLP и PubMed.

LLM вообще приобретают всё большую популярность в нашей среде. Тот же Scientometrics в сентябре опубликовал call for papers по теме «искусственный интеллект в наукометрии» (подача заявок до 28 февраля 2025 года).

Оставляя в стороне многократно обсуждаемые вопросы этичности использования инструментов ИИ в различных сферах, мы можем сказать, что перспективы их использования в сфере наукометрии скорее радуют. Языковые модели открывают широкий простор для совершенно новых исследований и выводов, а кроме того, предлагают принципиально иные подходы к оценке научных исследований.

#LLM #обзор #SciBERT



group-telegram.com/HQhse/460
Create:
Last Update:

Большие языковые модели в наукометрии, или зачем нам SciBERT

Не все научные публикации одинаковы с точки зрения их влияния на социальную реальность. Нередко показатель цитируемости и импакт-фактор журнала дают нам некоторое представление о том, насколько серьезная работа перед нами, однако даже недавний пример с сетью взаимосвязей между первыми работами, которые цитируют статью Хопфилда о нейронных сетях, показывает, что одной только высокой цитируемости недостаточно: например, работы уже второго «поколения» цитирований получали в разы больше внимания, чем изначальный труд. Кроме того, не секрет, что в отдельных областях большее внимание привлекают обзоры по научным областям: обычно они цитируются довольно активно, поскольку обобщают информацию по какой-либо тематике, но в то же время не каждый обзор представляет из себя что-то большее, чем простое фиксирование текущего положения дел.

В сентябре Scientometrics опубликовали статью китайских исследователей, в которой описывается метод интеллектуального распознавания высококачественных научных работ на основе метасемантических сетей, задействующих deep learning и LLM-технологии. Раньше это было практически нереализуемой задачей: методы оценки научных статей ограничивались качественным (на основе рецензирования) и количественным (на основе библиометрических показателей) подходами. Недостатки этих методов хорошо изучены — в первом случае это проблемы с воспроизводимостью, неполнота знаний у рецензентов и возможный конфликт интересов, а во втором — временной лаг и разная чувствительность показателей, которая неизбежно влияет на финальную оценку.

Авторы предлагают новый подход к определению качества научной статьи как взвешенной суммы импакт-фактора журнала и средневзвешенной цитируемости статьи, где веса определяются методом информационной энтропии, а потом для «высококачественных» и «низкокачественных» работ строится упомянутая метасемантическая сеть на основе известной языковой модели SciBERT (одна из вариаций еще более широко известной модели BERT от Google). Таким образом, в перспективе это позволит измерять качество статей напрямую по их содержанию, без временного лага.

Кстати, еще одну вариацию BERT (SPS-BERT) уже другой исследовательский коллектив использовал для прогнозирования появления прорывных технологий. Согласно их результатам, этот метод позволяет предсказать индекс прорыва (о котором мы писали ранее) точнее, чем все прочие существующие методы. По крайней мере, на наборах данных DBLP и PubMed.

LLM вообще приобретают всё большую популярность в нашей среде. Тот же Scientometrics в сентябре опубликовал call for papers по теме «искусственный интеллект в наукометрии» (подача заявок до 28 февраля 2025 года).

Оставляя в стороне многократно обсуждаемые вопросы этичности использования инструментов ИИ в различных сферах, мы можем сказать, что перспективы их использования в сфере наукометрии скорее радуют. Языковые модели открывают широкий простор для совершенно новых исследований и выводов, а кроме того, предлагают принципиально иные подходы к оценке научных исследований.

#LLM #обзор #SciBERT

BY Выше квартилей




Share with your friend now:
group-telegram.com/HQhse/460

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders.
from sa


Telegram Выше квартилей
FROM American