Сегодня мы хотим напомнить вам о поиске по словообразовательной структуре слова, доступном в Основном корпусе НКРЯ. Этот тип поиска будет полезен тем, кто исследует морфемные связи или просто хочет глубже понять устройство слов русского языка.
Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.
Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.
Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
В Церковнославянский корпус включены новые тексты общим объемом 100 тысяч слов. Это небольшая часть свода житий святых, составленного известным церковным деятелем Димитрием Ростовским (Туптало) в начале XVIII в. Новое пополнение существенно увеличило объем нарративных текстов, ранее фактически представленных лишь Библией.
Корпус переведен в орфографию, приближенную к принятой в печатных новоцерковнославянских книгах. При этом для удобства пользователя доступен полноценный поиск и в упрощенной орфографии, в том числе и с помощью всплывающего словаря лемм.
В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.
В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Корпус переведен в орфографию, приближенную к принятой в печатных новоцерковнославянских книгах. При этом для удобства пользователя доступен полноценный поиск и в упрощенной орфографии, в том числе и с помощью всплывающего словаря лемм.
В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.
В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Корпус «Русская классика» пополнен академическими полными собраниями сочинений Александра Сергеевича Грибоедова и Федора Ивановича Тютчева. Наследие этих писателей сравнительно невелико по объему (причем по-русски Тютчев написал даже меньше, чем «автор одной книги» Грибоедов), однако их язык представляет большой интерес с различных точек зрения. В корпус входят варианты, представленные в разных редакциях текстов. Все тексты корпуса заново размечены с учетом улучшений в языковой модели Рубик.
Media is too big
VIEW IN TELEGRAM
В исторических корпусах «Берестяные грамоты» и «Эпиграфика» появились фотографии и прориси исходных грамот и надписей.
По умолчанию в конкордансе видны изображения в формате превью: слева расположены фотографии, а справа — прориси. Щелчок по картинке открывает ее в полноэкранном режиме, где можно увеличивать или уменьшать рисунки и фотографии, а также скачивать их.
В режиме KWIC и при выборе подкорпуса изображения можно увидеть только в полноэкранном режиме, щелкнув по иконке справа от заголовка текста.
Для скрытия изображений предусмотрена соответствующая настройка. Эта опция сохраняется в браузере пользователя: при следующем обращении к корпусу настройки сохранятся и выдача будет отображаться без картинок.
Новый функционал реализован благодаря сотрудничеству с командами разработчиков сайтов gramoty.ru и epigrafika.ru. На этих платформах представлена более подробная информация о грамотах и надписях. Мы выражаем благодарность нашим коллегам и надеемся на дальнейшее успешное сотрудничество.
По умолчанию в конкордансе видны изображения в формате превью: слева расположены фотографии, а справа — прориси. Щелчок по картинке открывает ее в полноэкранном режиме, где можно увеличивать или уменьшать рисунки и фотографии, а также скачивать их.
В режиме KWIC и при выборе подкорпуса изображения можно увидеть только в полноэкранном режиме, щелкнув по иконке справа от заголовка текста.
Для скрытия изображений предусмотрена соответствующая настройка. Эта опция сохраняется в браузере пользователя: при следующем обращении к корпусу настройки сохранятся и выдача будет отображаться без картинок.
Новый функционал реализован благодаря сотрудничеству с командами разработчиков сайтов gramoty.ru и epigrafika.ru. На этих платформах представлена более подробная информация о грамотах и надписях. Мы выражаем благодарность нашим коллегам и надеемся на дальнейшее успешное сотрудничество.
Сегодня исполняется 165 лет со дня рождения Антона Павловича Чехова. Его тексты несомненно являются образцом прозы и публицистики рубежа XIX-XX веков. Они представлены и в Основном, и в Обучающем корпусах НКРЯ. Но полное собрание сочинений А. П. Чехова, а также ряда других русских писателей, содержится в корпусе «Русская классика».
Используя поисковые возможности корпуса «Русская классика», можно узнать много интересных фактов о творчестве Чехова. Например, что на страницах его произведений чаще встречаются такие имена, как Иван, Анна, Ольга, Саша и Петр, а герои этих произведений чаще всего пьют чай – это самый популярный напиток в его текстах. Далее по частоте упоминаний идет вода, а затем водка, вино, пиво и шампанское. К наиболее часто встречающимся продуктам питания, упоминаемым в прозе Чехова, относятся хлеб, рыба, масло, закуска и каша.
Из 5065 документов в корпусе текстов А. П. Чехова 4045 составляют письма. Специально к юбилею писателя Яндекс Книги создали чат-бот, в котором каждый пользователь может сгенерировать открытку с пожеланием из писем классика. Нужно только выбрать, кому адресована открытка и с каким праздником писатель будет поздравлять получателя. Для создания бота использованы материалы корпуса «Русская классика» НКРЯ.
Используя поисковые возможности корпуса «Русская классика», можно узнать много интересных фактов о творчестве Чехова. Например, что на страницах его произведений чаще встречаются такие имена, как Иван, Анна, Ольга, Саша и Петр, а герои этих произведений чаще всего пьют чай – это самый популярный напиток в его текстах. Далее по частоте упоминаний идет вода, а затем водка, вино, пиво и шампанское. К наиболее часто встречающимся продуктам питания, упоминаемым в прозе Чехова, относятся хлеб, рыба, масло, закуска и каша.
Из 5065 документов в корпусе текстов А. П. Чехова 4045 составляют письма. Специально к юбилею писателя Яндекс Книги создали чат-бот, в котором каждый пользователь может сгенерировать открытку с пожеланием из писем классика. Нужно только выбрать, кому адресована открытка и с каким праздником писатель будет поздравлять получателя. Для создания бота использованы материалы корпуса «Русская классика» НКРЯ.
Сегодня в 14.00 в Институте русского языка РАН состоятся пятьдесят шестые Виноградовские чтения, посвященные 130-летию со дня рождения В. В. Виноградова.
В первой части чтений будут представлены доклады, основывающиеся на данных Поэтического и других корпусов НКРЯ. Полная программа чтений и ссылка на трансляцию доступны по ссылке.
В первой части чтений будут представлены доклады, основывающиеся на данных Поэтического и других корпусов НКРЯ. Полная программа чтений и ссылка на трансляцию доступны по ссылке.
В настоящее время поиск в НКРЯ может быть недоступен из-за проблем на стороне провайдера. Мы работаем над их устранением.
Приносим извинения за доставленные неудобства.
Приносим извинения за доставленные неудобства.
Мультимедийный корпус пополнен на 107 тыс. словоупотреблений. В него были добавлены: коллекция записей художественного чтения — рассказы А.П. Чехова в исполнении известных актеров Александра Борисова, Леонида Броневого, Игоря Ильинского, Ростислава Плятта; две театральные постановки, записи телевизионных ток-шоу. Значительно пополнена коллекция записей региональной речи. В нее вошли беседы и интервью с жителями Нижегородской, Мурманской, Рязанской, Свердловской, Тверской областей, Краснодарского края, Якутии и др., которые являются героями сюжетов документальных фильмов из цикла «Письма из провинции» и видеоблогов.
В корпусе появилась возможность отбора подкорпуса по региону.
В корпусе появилась возможность отбора подкорпуса по региону.
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного, Обучающего, Газетных корпусов, а также корпусов «От 2 до 15» и «Русская классика» появилось сравнение скетчей!
Новый функционал позволяет увидеть сходства и различия в употреблении двух слов. Например, можно узнать, что общего у времени и денег или увидеть, что бывает колючим, а что – колким.
Cравнение скетчей доступно для существительных, прилагательных, глаголов и наречий. Сравнить можно две леммы, относящиеся к одной и той же части речи. Для слов, встретившихся менее чем в 3 разных текстах, а также для имен собственных, аббревиатур и слов, имеющих нестандартные написания, скетчи не выводятся и сравнение скетчей недоступно.
Для сравнения отбирается по топ-6 коллокатов для каждого ключа. В сравнительной таблице может быть меньше 12 коллокатов в случае, если не набралось 6 коллокатов для одного или обоих ключей или есть пересечения в топ-6.
Новый функционал позволяет увидеть сходства и различия в употреблении двух слов. Например, можно узнать, что общего у времени и денег или увидеть, что бывает колючим, а что – колким.
Cравнение скетчей доступно для существительных, прилагательных, глаголов и наречий. Сравнить можно две леммы, относящиеся к одной и той же части речи. Для слов, встретившихся менее чем в 3 разных текстах, а также для имен собственных, аббревиатур и слов, имеющих нестандартные написания, скетчи не выводятся и сравнение скетчей недоступно.
Для сравнения отбирается по топ-6 коллокатов для каждого ключа. В сравнительной таблице может быть меньше 12 коллокатов в случае, если не набралось 6 коллокатов для одного или обоих ключей или есть пересечения в топ-6.
Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе, и в формате Универсальных зависимостей (Universal Dependencies), используемом в Основном, Газетных и ряде других корпусов.
Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.
С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.
С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
Media is too big
VIEW IN TELEGRAM
Мы продолжаем совершенствовать Портрет слова в НКРЯ. Недавно в нем появилась возможность сравнивать скетчи, а теперь в Портрете слова Основного корпуса можно изучить, как менялись слова-ассоциаты во времени, а также ознакомиться с толкованием слова.
Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «Оценить» рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.
Виджет «Похожие слова» теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова поезд или машина.
Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «Оценить» рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.
Виджет «Похожие слова» теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова поезд или машина.