Telegram Group Search
В Диалектный корпус добавлены новые тексты объемом примерно 100 тыс. словоупотреблений. Новые тексты представляют говоры севера (Архангельская область, Карелия, Коми), Поволжья (большая хрестоматия диалектов Нижегородской области) и юга (Смоленская, Калужская области, молокане Кавказа). В пополнение входят как записи дореволюционного времени и 30-х годов, так и материалы недавних экспедиций. Добавлено несколько сот аудио- и десять кинозаписей, на которых можно не только услышать диалект, но и увидеть, как на севере смолят лодку, а в Азербайджане разводят пчел.
В Региональном корпусе обновлена разметка ключевых слов в текстах. Использование ключевых слов облегчает анализ узких тематических категорий и помогает ориентироваться в текстах разных тематик.

Для разметки использовалась модель T-lite-instruct-0.1, обученная на материалах корпуса. Новые ключевые слова содержат меньше ошибок нормализации и грамматических ошибок, а также более точно описывают тематику текста. Как и раньше, одно ключевое слово может состоять из однословного ключа (похолодание, гололед) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (сельская община). Для каждого текста сгенерировано от 5 до 10 ключевых слов, которые упорядочены по значимости.
В последний рабочий день уходящего года по традиции команда Национального корпуса русского языка подводит итоги и вспоминает, что нового произошло за год.

В 2024 году Корпус увеличился более чем на 109 миллионов слов. Во многих корпусах появились поисковые и статистические инструменты, доступные ранее только в Основном, Газетном и других «передовых» корпусах.

Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных открытий и вдохновляющих находок!

Отдельную благодарность мы выражаем создателям Корпуса чувашского языкаОткрытого корпуса вепсского и карельского языков (ВепКар)Электронного корпуса хакасского языка за плодотворное сотрудничество.

С самыми тёплыми пожеланиями в Новом году,
Команда Национального корпуса русского языка
Поздравляем вас с наступающим Новым годом!

Пусть 2025 год принесёт вам как можно больше светлых и радостных событий!
Первые рабочие дни этого года подходят к концу. Предлагаем провести выходные с пользой и погрузиться в мир новых знаний и исторических открытий. Мы подготовили для вас подборку увлекательных материалов о Корпусе и не только:

Берестяные грамоты — 2024: дело о похищенной невесте, вдова и ее друг, а также совет удавиться. Ежегодный репортаж Дмитрия Сичинавы об уникальных находках и исторических фактах, связанных с ними.

Разметка по правилам: как Национальный корпус русского языка помогает изучать орфографию. Эллина Куцевал, создательница алгоритма разметки сложных мест русской орфографии, рассказывает, как Национальный корпус русского языка помогает изучать орфографию.

Сборник материалов международной научной конференции, посвященной 20-летию Национального корпуса русского языка. В сборник включены материалы по самым разным темам – от обзоров актуального состояния отдельных корпусов НКРЯ и применения инструментов обработки естественного языка на базе машинного обучения при разработке корпусов до использования НКРЯ в преподавании и исследовательской деятельности в школе и университете.
Сегодня отмечается 230 лет со дня рождения Александра Сергеевича Грибоедова, автора комедии «‎Горе от ума»‎, талантливого российского дипломата, лингвиста, драматурга, историка, пианиста, композитора и поэта. Его имя заслуженно стоит в одном ряду с именами А.С. Пушкина, М.Ю. Лермонтова и других классиков русской литературы. 

Творчество Грибоедова знаменито своей афористичностью. Его остроумные и меткие выражения — «Служить бы рад, прислуживаться тошно», «А судьи кто?», «Злые языки страшнее пистолета», «Свежо предание, а верится с трудом» — стали частью национального культурного кода. А. С. Пушкин, оценивая «Горе от ума», пророчески заметил в письме к Пущину: «О стихах я не говорю, половина — должны войти в пословицу».

Цитаты из «‎Горя от ума»‎ широко используются и в художественной литературе, что легко проверить с помощью Панхронического корпуса НКРЯ. Например, выражение с чувством, с толком, с расстановкой‌‎ встречается в «‎Вешних водах»‎ И.С. Тургенева, «‎Недоконченных беседах»‎ М. Е. Салтыкова-Щедрина, «‎Ряженых»‎ А. П. Чехова. Значительно влияние Грибоедов оказал и на творчество Ф. М. Достоевского: фразы из его комедии можно найти в «Идиоте», «‎Бесах»‎, «‎Подростке» и других произведениях‎.
Сегодня мы хотим напомнить вам о поиске по словообразовательной структуре слова, доступном в Основном корпусе НКРЯ. Этот тип поиска будет полезен тем, кто исследует морфемные связи или просто хочет глубже понять устройство слов русского языка.

Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.

Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
В Церковнославянский корпус включены новые тексты общим объемом 100 тысяч слов. Это небольшая часть свода житий святых, составленного известным церковным деятелем Димитрием Ростовским (Туптало) в начале XVIII в. Новое пополнение существенно увеличило объем нарративных текстов, ранее фактически представленных лишь Библией.

Корпус переведен в орфографию, приближенную к принятой в печатных новоцерковнославянских книгах. При этом для удобства пользователя доступен полноценный поиск и в упрощенной орфографии, в том числе и с помощью всплывающего словаря лемм.

В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.

В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Корпус «Русская классика» пополнен академическими полными собраниями сочинений Александра Сергеевича Грибоедова и Федора Ивановича Тютчева. Наследие этих писателей сравнительно невелико по объему (причем по-русски Тютчев написал даже меньше, чем «автор одной книги» Грибоедов), однако их язык представляет большой интерес с различных точек зрения. В корпус входят варианты, представленные в разных редакциях текстов. Все тексты корпуса заново размечены с учетом улучшений в языковой модели Рубик.
Media is too big
VIEW IN TELEGRAM
В исторических корпусах «Берестяные грамоты» и «Эпиграфика» появились фотографии и прориси исходных грамот и надписей.

По умолчанию в конкордансе видны изображения в формате превью: слева расположены фотографии, а справа — прориси. Щелчок по картинке открывает ее в полноэкранном режиме, где можно увеличивать или уменьшать рисунки и фотографии, а также скачивать их.

В режиме KWIC и при выборе подкорпуса изображения можно увидеть только в полноэкранном режиме, щелкнув по иконке справа от заголовка текста.

Для скрытия изображений предусмотрена соответствующая настройка. Эта опция сохраняется в браузере пользователя: при следующем обращении к корпусу настройки сохранятся и выдача будет отображаться без картинок.
Новый функционал реализован благодаря сотрудничеству с командами разработчиков сайтов gramoty.ru и epigrafika.ru. На этих платформах представлена более подробная информация о грамотах и надписях. Мы выражаем благодарность нашим коллегам и надеемся на дальнейшее успешное сотрудничество.
Сегодня исполняется 165 лет со дня рождения Антона Павловича Чехова. Его тексты несомненно являются образцом прозы и публицистики рубежа XIX-XX веков. Они представлены и в Основном, и в Обучающем корпусах НКРЯ. Но полное собрание сочинений А. П. Чехова, а также ряда других русских писателей, содержится в корпусе «‎Русская классика».

Используя поисковые возможности корпуса «‎Русская классика», можно узнать много интересных фактов о творчестве Чехова. Например, что на страницах его произведений чаще встречаются такие имена, как Иван, Анна, Ольга, Саша и Петр, а герои этих произведений чаще всего пьют чай –  это самый популярный напиток в его текстах. Далее по частоте упоминаний идет вода, а затем водка, вино, пиво и шампанское. К наиболее часто встречающимся продуктам питания, упоминаемым в прозе Чехова, относятся хлеб, рыба, масло, закуска и каша.

Из 5065 документов в корпусе текстов А. П. Чехова 4045 составляют письма. Специально к юбилею писателя Яндекс Книги создали чат-бот, в котором каждый пользователь может сгенерировать открытку с пожеланием из писем классика. Нужно только выбрать, кому адресована открытка и с каким праздником писатель будет поздравлять получателя. Для создания бота использованы материалы корпуса «‎Русская классика»‎ НКРЯ.
Сегодня в 14.00 в Институте русского языка РАН состоятся пятьдесят шестые Виноградовские чтения, посвященные 130-летию со дня рождения В. В. Виноградова.

В первой части чтений будут представлены доклады, основывающиеся на данных Поэтического и других корпусов НКРЯ. Полная программа чтений и ссылка на трансляцию доступны по ссылке.
В настоящее время поиск в НКРЯ может быть недоступен из-за проблем на стороне провайдера. Мы работаем над их устранением.

Приносим извинения за доставленные неудобства.
Доступ к сайту Корпуса восстановлен!
Мультимедийный корпус пополнен на 107 тыс. словоупотреблений. В него были добавлены: коллекция записей художественного чтения — рассказы А.П. Чехова в исполнении известных актеров Александра Борисова, Леонида Броневого, Игоря Ильинского, Ростислава Плятта; две театральные постановки, записи телевизионных ток-шоу. Значительно пополнена коллекция записей региональной речи. В нее вошли беседы и интервью с жителями Нижегородской, Мурманской, Рязанской, Свердловской, Тверской областей, Краснодарского края, Якутии и др., которые являются героями сюжетов документальных фильмов из цикла «Письма из провинции» и видеоблогов.

В корпусе появилась возможность отбора подкорпуса по региону.
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного, Обучающего, Газетных корпусов, а также корпусов «‎От 2 до 15»‎ и «‎Русская классика»‎ появилось сравнение скетчей!

Новый функционал позволяет увидеть сходства и различия в употреблении двух слов. Например, можно узнать, что общего у времени и денег или увидеть, что бывает колючим, а что – колким.

Cравнение скетчей доступно для существительных, прилагательных, глаголов и наречий. Сравнить можно две леммы, относящиеся к одной и той же части речи. Для слов, встретившихся менее чем в 3 разных текстах, а также для имен собственных, аббревиатур и слов, имеющих нестандартные написания, скетчи не выводятся и сравнение скетчей недоступно.

Для сравнения отбирается по топ-6 коллокатов для каждого ключа. В сравнительной таблице может быть меньше 12 коллокатов в случае, если не набралось 6 коллокатов для одного или обоих ключей или есть пересечения в топ-6.
2025/02/16 17:17:40
Back to Top
HTML Embed Code: