Чтобы лучше понять, как вы используете Национальный корпус русского языка для решения своих задач, и сделать Корпус еще удобнее и понятнее, мы запускаем исследование аудитории.
Первый этап исследования — это интервью с пользователями. Если вы применяете Корпус в работе, учебе или другой деятельности, мы будем рады услышать ваше мнение. Чтобы принять участие в интервью, заполните небольшую форму: https://forms.yandex.ru/u/675159c7f47e738d9a20e5fc/
После отправки формы наш менеджер свяжется с вами для согласования удобной даты и времени для интервью. Видеозвонок пройдет в Zoom и займет 30–40 минут.
Ваше мнение поможет нам улучшить сервис и лучше учитывать потребности наших пользователей!
Первый этап исследования — это интервью с пользователями. Если вы применяете Корпус в работе, учебе или другой деятельности, мы будем рады услышать ваше мнение. Чтобы принять участие в интервью, заполните небольшую форму: https://forms.yandex.ru/u/675159c7f47e738d9a20e5fc/
После отправки формы наш менеджер свяжется с вами для согласования удобной даты и времени для интервью. Видеозвонок пройдет в Zoom и займет 30–40 минут.
Ваше мнение поможет нам улучшить сервис и лучше учитывать потребности наших пользователей!
Уже завтра состоится открытие Конференции, посвященной 20-летию Национального корпуса русского языка!
В течение двух дней участники мероприятия обсудят широкий круг вопросов – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса, от применения нейросетевых моделей в подготовке корпусных данных до использования НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.
Мероприятия пройдут очно в Инстиуте русского языка РАН по адресу: ул. Волхонка, 18/2.
Программу конференции можно найти на сайте института.
Предусмотрена онлайн-трансляция пленарных докладов по ссылке.
В течение двух дней участники мероприятия обсудят широкий круг вопросов – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса, от применения нейросетевых моделей в подготовке корпусных данных до использования НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.
Мероприятия пройдут очно в Инстиуте русского языка РАН по адресу: ул. Волхонка, 18/2.
Программу конференции можно найти на сайте института.
Предусмотрена онлайн-трансляция пленарных докладов по ссылке.
В Диалектный корпус добавлены новые тексты объемом примерно 100 тыс. словоупотреблений. Новые тексты представляют говоры севера (Архангельская область, Карелия, Коми), Поволжья (большая хрестоматия диалектов Нижегородской области) и юга (Смоленская, Калужская области, молокане Кавказа). В пополнение входят как записи дореволюционного времени и 30-х годов, так и материалы недавних экспедиций. Добавлено несколько сот аудио- и десять кинозаписей, на которых можно не только услышать диалект, но и увидеть, как на севере смолят лодку, а в Азербайджане разводят пчел.
В Региональном корпусе обновлена разметка ключевых слов в текстах. Использование ключевых слов облегчает анализ узких тематических категорий и помогает ориентироваться в текстах разных тематик.
Для разметки использовалась модель T-lite-instruct-0.1, обученная на материалах корпуса. Новые ключевые слова содержат меньше ошибок нормализации и грамматических ошибок, а также более точно описывают тематику текста. Как и раньше, одно ключевое слово может состоять из однословного ключа (похолодание, гололед) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (сельская община). Для каждого текста сгенерировано от 5 до 10 ключевых слов, которые упорядочены по значимости.
Для разметки использовалась модель T-lite-instruct-0.1, обученная на материалах корпуса. Новые ключевые слова содержат меньше ошибок нормализации и грамматических ошибок, а также более точно описывают тематику текста. Как и раньше, одно ключевое слово может состоять из однословного ключа (похолодание, гололед) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (сельская община). Для каждого текста сгенерировано от 5 до 10 ключевых слов, которые упорядочены по значимости.
В последний рабочий день уходящего года по традиции команда Национального корпуса русского языка подводит итоги и вспоминает, что нового произошло за год.
В 2024 году Корпус увеличился более чем на 109 миллионов слов. Во многих корпусах появились поисковые и статистические инструменты, доступные ранее только в Основном, Газетном и других «передовых» корпусах.
Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных открытий и вдохновляющих находок!
Отдельную благодарность мы выражаем создателям Корпуса чувашского языка, Открытого корпуса вепсского и карельского языков (ВепКар), Электронного корпуса хакасского языка за плодотворное сотрудничество.
С самыми тёплыми пожеланиями в Новом году,
Команда Национального корпуса русского языка
В 2024 году Корпус увеличился более чем на 109 миллионов слов. Во многих корпусах появились поисковые и статистические инструменты, доступные ранее только в Основном, Газетном и других «передовых» корпусах.
Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных открытий и вдохновляющих находок!
Отдельную благодарность мы выражаем создателям Корпуса чувашского языка, Открытого корпуса вепсского и карельского языков (ВепКар), Электронного корпуса хакасского языка за плодотворное сотрудничество.
С самыми тёплыми пожеланиями в Новом году,
Команда Национального корпуса русского языка
Первые рабочие дни этого года подходят к концу. Предлагаем провести выходные с пользой и погрузиться в мир новых знаний и исторических открытий. Мы подготовили для вас подборку увлекательных материалов о Корпусе и не только:
Берестяные грамоты — 2024: дело о похищенной невесте, вдова и ее друг, а также совет удавиться. Ежегодный репортаж Дмитрия Сичинавы об уникальных находках и исторических фактах, связанных с ними.
Разметка по правилам: как Национальный корпус русского языка помогает изучать орфографию. Эллина Куцевал, создательница алгоритма разметки сложных мест русской орфографии, рассказывает, как Национальный корпус русского языка помогает изучать орфографию.
Сборник материалов международной научной конференции, посвященной 20-летию Национального корпуса русского языка. В сборник включены материалы по самым разным темам – от обзоров актуального состояния отдельных корпусов НКРЯ и применения инструментов обработки естественного языка на базе машинного обучения при разработке корпусов до использования НКРЯ в преподавании и исследовательской деятельности в школе и университете.
Берестяные грамоты — 2024: дело о похищенной невесте, вдова и ее друг, а также совет удавиться. Ежегодный репортаж Дмитрия Сичинавы об уникальных находках и исторических фактах, связанных с ними.
Разметка по правилам: как Национальный корпус русского языка помогает изучать орфографию. Эллина Куцевал, создательница алгоритма разметки сложных мест русской орфографии, рассказывает, как Национальный корпус русского языка помогает изучать орфографию.
Сборник материалов международной научной конференции, посвященной 20-летию Национального корпуса русского языка. В сборник включены материалы по самым разным темам – от обзоров актуального состояния отдельных корпусов НКРЯ и применения инструментов обработки естественного языка на базе машинного обучения при разработке корпусов до использования НКРЯ в преподавании и исследовательской деятельности в школе и университете.
Сегодня отмечается 230 лет со дня рождения Александра Сергеевича Грибоедова, автора комедии «Горе от ума», талантливого российского дипломата, лингвиста, драматурга, историка, пианиста, композитора и поэта. Его имя заслуженно стоит в одном ряду с именами А.С. Пушкина, М.Ю. Лермонтова и других классиков русской литературы.
Творчество Грибоедова знаменито своей афористичностью. Его остроумные и меткие выражения — «Служить бы рад, прислуживаться тошно», «А судьи кто?», «Злые языки страшнее пистолета», «Свежо предание, а верится с трудом» — стали частью национального культурного кода. А. С. Пушкин, оценивая «Горе от ума», пророчески заметил в письме к Пущину: «О стихах я не говорю, половина — должны войти в пословицу».
Цитаты из «Горя от ума» широко используются и в художественной литературе, что легко проверить с помощью Панхронического корпуса НКРЯ. Например, выражение с чувством, с толком, с расстановкой встречается в «Вешних водах» И.С. Тургенева, «Недоконченных беседах» М. Е. Салтыкова-Щедрина, «Ряженых» А. П. Чехова. Значительно влияние Грибоедов оказал и на творчество Ф. М. Достоевского: фразы из его комедии можно найти в «Идиоте», «Бесах», «Подростке» и других произведениях.
Творчество Грибоедова знаменито своей афористичностью. Его остроумные и меткие выражения — «Служить бы рад, прислуживаться тошно», «А судьи кто?», «Злые языки страшнее пистолета», «Свежо предание, а верится с трудом» — стали частью национального культурного кода. А. С. Пушкин, оценивая «Горе от ума», пророчески заметил в письме к Пущину: «О стихах я не говорю, половина — должны войти в пословицу».
Цитаты из «Горя от ума» широко используются и в художественной литературе, что легко проверить с помощью Панхронического корпуса НКРЯ. Например, выражение с чувством, с толком, с расстановкой встречается в «Вешних водах» И.С. Тургенева, «Недоконченных беседах» М. Е. Салтыкова-Щедрина, «Ряженых» А. П. Чехова. Значительно влияние Грибоедов оказал и на творчество Ф. М. Достоевского: фразы из его комедии можно найти в «Идиоте», «Бесах», «Подростке» и других произведениях.
Сегодня мы хотим напомнить вам о поиске по словообразовательной структуре слова, доступном в Основном корпусе НКРЯ. Этот тип поиска будет полезен тем, кто исследует морфемные связи или просто хочет глубже понять устройство слов русского языка.
Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.
Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.
Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
В Церковнославянский корпус включены новые тексты общим объемом 100 тысяч слов. Это небольшая часть свода житий святых, составленного известным церковным деятелем Димитрием Ростовским (Туптало) в начале XVIII в. Новое пополнение существенно увеличило объем нарративных текстов, ранее фактически представленных лишь Библией.
Корпус переведен в орфографию, приближенную к принятой в печатных новоцерковнославянских книгах. При этом для удобства пользователя доступен полноценный поиск и в упрощенной орфографии, в том числе и с помощью всплывающего словаря лемм.
В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.
В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Корпус переведен в орфографию, приближенную к принятой в печатных новоцерковнославянских книгах. При этом для удобства пользователя доступен полноценный поиск и в упрощенной орфографии, в том числе и с помощью всплывающего словаря лемм.
В Церковнославянском корпусе, объемном и лексически богатом, доступен сервис «Похожие слова», дающий наглядное представление о семантических полях славянской лексики.
В корпусе доступен режим «Частотность», позволяющий анализировать сочетаемость лексем и грамматических показателей. Обратите внимание, что грамматическая омонимия пока снята лишь в ограниченной степени.
Корпус «Русская классика» пополнен академическими полными собраниями сочинений Александра Сергеевича Грибоедова и Федора Ивановича Тютчева. Наследие этих писателей сравнительно невелико по объему (причем по-русски Тютчев написал даже меньше, чем «автор одной книги» Грибоедов), однако их язык представляет большой интерес с различных точек зрения. В корпус входят варианты, представленные в разных редакциях текстов. Все тексты корпуса заново размечены с учетом улучшений в языковой модели Рубик.
Media is too big
VIEW IN TELEGRAM
В исторических корпусах «Берестяные грамоты» и «Эпиграфика» появились фотографии и прориси исходных грамот и надписей.
По умолчанию в конкордансе видны изображения в формате превью: слева расположены фотографии, а справа — прориси. Щелчок по картинке открывает ее в полноэкранном режиме, где можно увеличивать или уменьшать рисунки и фотографии, а также скачивать их.
В режиме KWIC и при выборе подкорпуса изображения можно увидеть только в полноэкранном режиме, щелкнув по иконке справа от заголовка текста.
Для скрытия изображений предусмотрена соответствующая настройка. Эта опция сохраняется в браузере пользователя: при следующем обращении к корпусу настройки сохранятся и выдача будет отображаться без картинок.
Новый функционал реализован благодаря сотрудничеству с командами разработчиков сайтов gramoty.ru и epigrafika.ru. На этих платформах представлена более подробная информация о грамотах и надписях. Мы выражаем благодарность нашим коллегам и надеемся на дальнейшее успешное сотрудничество.
По умолчанию в конкордансе видны изображения в формате превью: слева расположены фотографии, а справа — прориси. Щелчок по картинке открывает ее в полноэкранном режиме, где можно увеличивать или уменьшать рисунки и фотографии, а также скачивать их.
В режиме KWIC и при выборе подкорпуса изображения можно увидеть только в полноэкранном режиме, щелкнув по иконке справа от заголовка текста.
Для скрытия изображений предусмотрена соответствующая настройка. Эта опция сохраняется в браузере пользователя: при следующем обращении к корпусу настройки сохранятся и выдача будет отображаться без картинок.
Новый функционал реализован благодаря сотрудничеству с командами разработчиков сайтов gramoty.ru и epigrafika.ru. На этих платформах представлена более подробная информация о грамотах и надписях. Мы выражаем благодарность нашим коллегам и надеемся на дальнейшее успешное сотрудничество.
Сегодня исполняется 165 лет со дня рождения Антона Павловича Чехова. Его тексты несомненно являются образцом прозы и публицистики рубежа XIX-XX веков. Они представлены и в Основном, и в Обучающем корпусах НКРЯ. Но полное собрание сочинений А. П. Чехова, а также ряда других русских писателей, содержится в корпусе «Русская классика».
Используя поисковые возможности корпуса «Русская классика», можно узнать много интересных фактов о творчестве Чехова. Например, что на страницах его произведений чаще встречаются такие имена, как Иван, Анна, Ольга, Саша и Петр, а герои этих произведений чаще всего пьют чай – это самый популярный напиток в его текстах. Далее по частоте упоминаний идет вода, а затем водка, вино, пиво и шампанское. К наиболее часто встречающимся продуктам питания, упоминаемым в прозе Чехова, относятся хлеб, рыба, масло, закуска и каша.
Из 5065 документов в корпусе текстов А. П. Чехова 4045 составляют письма. Специально к юбилею писателя Яндекс Книги создали чат-бот, в котором каждый пользователь может сгенерировать открытку с пожеланием из писем классика. Нужно только выбрать, кому адресована открытка и с каким праздником писатель будет поздравлять получателя. Для создания бота использованы материалы корпуса «Русская классика» НКРЯ.
Используя поисковые возможности корпуса «Русская классика», можно узнать много интересных фактов о творчестве Чехова. Например, что на страницах его произведений чаще встречаются такие имена, как Иван, Анна, Ольга, Саша и Петр, а герои этих произведений чаще всего пьют чай – это самый популярный напиток в его текстах. Далее по частоте упоминаний идет вода, а затем водка, вино, пиво и шампанское. К наиболее часто встречающимся продуктам питания, упоминаемым в прозе Чехова, относятся хлеб, рыба, масло, закуска и каша.
Из 5065 документов в корпусе текстов А. П. Чехова 4045 составляют письма. Специально к юбилею писателя Яндекс Книги создали чат-бот, в котором каждый пользователь может сгенерировать открытку с пожеланием из писем классика. Нужно только выбрать, кому адресована открытка и с каким праздником писатель будет поздравлять получателя. Для создания бота использованы материалы корпуса «Русская классика» НКРЯ.
Сегодня в 14.00 в Институте русского языка РАН состоятся пятьдесят шестые Виноградовские чтения, посвященные 130-летию со дня рождения В. В. Виноградова.
В первой части чтений будут представлены доклады, основывающиеся на данных Поэтического и других корпусов НКРЯ. Полная программа чтений и ссылка на трансляцию доступны по ссылке.
В первой части чтений будут представлены доклады, основывающиеся на данных Поэтического и других корпусов НКРЯ. Полная программа чтений и ссылка на трансляцию доступны по ссылке.
В настоящее время поиск в НКРЯ может быть недоступен из-за проблем на стороне провайдера. Мы работаем над их устранением.
Приносим извинения за доставленные неудобства.
Приносим извинения за доставленные неудобства.