Telegram Group Search
Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе, и в формате Универсальных зависимостей (Universal Dependencies), используемом в Основном, Газетных и ряде других корпусов.

Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.

С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
Media is too big
VIEW IN TELEGRAM
Мы продолжаем совершенствовать Портрет слова в НКРЯ. Недавно в нем появилась возможность сравнивать скетчи, а теперь в Портрете слова Основного корпуса можно изучить, как менялись слова-ассоциаты во времени, а также ознакомиться с толкованием слова.

Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «‎Оценить»‎ рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.

Виджет «‎Похожие слова»‎ теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова ‎поезд или машина.
Сравнение скетчей, недавно появившееся в Корпусе, можно использовать для изучения паронимов – слов, сходных по звучанию и морфемному составу, но различающихся по значению. Новый функционал помогает выявить ключевые различия и сходства в значении и употреблении таких слов.

Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
Объем корпуса «‎Русская классика»‎ увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов.

Сервис «‎Похожие слова»‎ теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.

Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.

Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
27 марта отмечается Международный день театра. В связи с этим мы хотим вам напомнить (а кому-то – рассказать впервые) о возможностях русского Мультимедийного параллельного корпуса

В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.

Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.

Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «‎в Москву»,‎ или как разные актеры произносили фразу «‎К нам едет ревизор»‎.
3 апреля в 11.00 магистерская программа «‎Обработка естественного языка»‎ МИСиС организует вебинар с Анной Глазковой, к. т. н., специалистом группы нейросетевой разметки НКРЯ, преподавателем Тюменского государственного университета.

Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.

Зарегистрироваться на вебинар можно по ссылке.
В шапке запроса появилась информация об относительной частоте запроса – IPM. В настоящее время эта функция доступна во всех корпусах, кроме Параллельных, англо-русского МультиПАРКа, а также корпусов «‎Берестяные грамоты»‎ и «‎Эпиграфика»‎. Если пользователь ограничил запрос конкретным подкорпусом, то показатель рассчитывается как отношение количества примеров в запросе к количеству слов в этом подкорпусе, умноженное на миллион. Если же подкорпус не выбран, то количество примеров в запросе делится на общее количество слов в корпусе и умножается на миллион. IPM рассчитывается для любого количества слов в запросе.

Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
2025/04/14 09:20:13

❌Photos not found?❌Click here to update cache.


Back to Top
HTML Embed Code: