Telegram Group Search
Сегодня мы хотим напомнить вам о поиске по словообразовательной структуре слова, доступном в Основном корпусе НКРЯ. Этот тип поиска будет полезен тем, кто исследует морфемные связи или просто хочет глубже понять устройство слов русского языка.

Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.

Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
В Церковнославянский корпус включены новые тексты общим объемом 100 тысяч слов. Это небольшая часть свода житий святых, составленного известным церковным деятелем Димитрием Ростовским (Туптало) в начале XVIII в. Новое пополнение существенно увеличило объем нарративных текстов, ранее фактически представленных лишь Библией.

Корпус переведен в орфографию, приближенную к принятой в печатных новоцерковнославянских книгах. При этом для удобства пользователя доступен полноценный поиск и в упрощенной орфографии, в том числе и с помощью всплывающего словаря лемм.

В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.

В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Корпус «Русская классика» пополнен академическими полными собраниями сочинений Александра Сергеевича Грибоедова и Федора Ивановича Тютчева. Наследие этих писателей сравнительно невелико по объему (причем по-русски Тютчев написал даже меньше, чем «автор одной книги» Грибоедов), однако их язык представляет большой интерес с различных точек зрения. В корпус входят варианты, представленные в разных редакциях текстов. Все тексты корпуса заново размечены с учетом улучшений в языковой модели Рубик.
Media is too big
VIEW IN TELEGRAM
В исторических корпусах «Берестяные грамоты» и «Эпиграфика» появились фотографии и прориси исходных грамот и надписей.

По умолчанию в конкордансе видны изображения в формате превью: слева расположены фотографии, а справа — прориси. Щелчок по картинке открывает ее в полноэкранном режиме, где можно увеличивать или уменьшать рисунки и фотографии, а также скачивать их.

В режиме KWIC и при выборе подкорпуса изображения можно увидеть только в полноэкранном режиме, щелкнув по иконке справа от заголовка текста.

Для скрытия изображений предусмотрена соответствующая настройка. Эта опция сохраняется в браузере пользователя: при следующем обращении к корпусу настройки сохранятся и выдача будет отображаться без картинок.
Новый функционал реализован благодаря сотрудничеству с командами разработчиков сайтов gramoty.ru и epigrafika.ru. На этих платформах представлена более подробная информация о грамотах и надписях. Мы выражаем благодарность нашим коллегам и надеемся на дальнейшее успешное сотрудничество.
Сегодня исполняется 165 лет со дня рождения Антона Павловича Чехова. Его тексты несомненно являются образцом прозы и публицистики рубежа XIX-XX веков. Они представлены и в Основном, и в Обучающем корпусах НКРЯ. Но полное собрание сочинений А. П. Чехова, а также ряда других русских писателей, содержится в корпусе «‎Русская классика».

Используя поисковые возможности корпуса «‎Русская классика», можно узнать много интересных фактов о творчестве Чехова. Например, что на страницах его произведений чаще встречаются такие имена, как Иван, Анна, Ольга, Саша и Петр, а герои этих произведений чаще всего пьют чай –  это самый популярный напиток в его текстах. Далее по частоте упоминаний идет вода, а затем водка, вино, пиво и шампанское. К наиболее часто встречающимся продуктам питания, упоминаемым в прозе Чехова, относятся хлеб, рыба, масло, закуска и каша.

Из 5065 документов в корпусе текстов А. П. Чехова 4045 составляют письма. Специально к юбилею писателя Яндекс Книги создали чат-бот, в котором каждый пользователь может сгенерировать открытку с пожеланием из писем классика. Нужно только выбрать, кому адресована открытка и с каким праздником писатель будет поздравлять получателя. Для создания бота использованы материалы корпуса «‎Русская классика»‎ НКРЯ.
Сегодня в 14.00 в Институте русского языка РАН состоятся пятьдесят шестые Виноградовские чтения, посвященные 130-летию со дня рождения В. В. Виноградова.

В первой части чтений будут представлены доклады, основывающиеся на данных Поэтического и других корпусов НКРЯ. Полная программа чтений и ссылка на трансляцию доступны по ссылке.
В настоящее время поиск в НКРЯ может быть недоступен из-за проблем на стороне провайдера. Мы работаем над их устранением.

Приносим извинения за доставленные неудобства.
Доступ к сайту Корпуса восстановлен!
Мультимедийный корпус пополнен на 107 тыс. словоупотреблений. В него были добавлены: коллекция записей художественного чтения — рассказы А.П. Чехова в исполнении известных актеров Александра Борисова, Леонида Броневого, Игоря Ильинского, Ростислава Плятта; две театральные постановки, записи телевизионных ток-шоу. Значительно пополнена коллекция записей региональной речи. В нее вошли беседы и интервью с жителями Нижегородской, Мурманской, Рязанской, Свердловской, Тверской областей, Краснодарского края, Якутии и др., которые являются героями сюжетов документальных фильмов из цикла «Письма из провинции» и видеоблогов.

В корпусе появилась возможность отбора подкорпуса по региону.
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного, Обучающего, Газетных корпусов, а также корпусов «‎От 2 до 15»‎ и «‎Русская классика»‎ появилось сравнение скетчей!

Новый функционал позволяет увидеть сходства и различия в употреблении двух слов. Например, можно узнать, что общего у времени и денег или увидеть, что бывает колючим, а что – колким.

Cравнение скетчей доступно для существительных, прилагательных, глаголов и наречий. Сравнить можно две леммы, относящиеся к одной и той же части речи. Для слов, встретившихся менее чем в 3 разных текстах, а также для имен собственных, аббревиатур и слов, имеющих нестандартные написания, скетчи не выводятся и сравнение скетчей недоступно.

Для сравнения отбирается по топ-6 коллокатов для каждого ключа. В сравнительной таблице может быть меньше 12 коллокатов в случае, если не набралось 6 коллокатов для одного или обоих ключей или есть пересечения в топ-6.
Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе, и в формате Универсальных зависимостей (Universal Dependencies), используемом в Основном, Газетных и ряде других корпусов.

Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.

С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
2025/02/24 09:51:56
Back to Top
HTML Embed Code: