Telegram Group & Telegram Channel
Ресурсы для цифровых стиховедов: поэтические корпуса

Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочет отличать Фета от Тютчева исследовать поэтическое наследие — русское и не только.

Поэтический подкорпус НКРЯ

Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус

Башкирский поэтический корпус

Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.

Персидский поэтический корпус

Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).

Мультиязычный корпус поэзии PoeTree

Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
 
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1077
Create:
Last Update:

Ресурсы для цифровых стиховедов: поэтические корпуса

Сегодня двойной поэтический день рождения: 5 декабря с разницей в 17 лет родились два выдающихся русских поэта — сначала Фёдор Тютчев в 1803 году, а затем Афанасий Фет в 1820-м. В связи с такой важной для поэзии датой предлагаем вспомнить, какие поэтические корпуса будут полезны тем, кто хочет отличать Фета от Тютчева исследовать поэтическое наследие — русское и не только.

Поэтический подкорпус НКРЯ

Первый в истории поэтический корпус, доступный с 2006 года, сегодня он насчитывает 101 521 текст. В стихотворениях размечены метр, строфика и другие параметры, указаны автор, дата создания и жанры. По всем этим признакам можно искать информацию и задавать подкорпус

Башкирский поэтический корпус

Вторым поэтическим корпусом в мире стал Башкирский, созданный в октябре 2013 года Борисом Ореховым. Коллекция текстов корпуса состоит из произведений 103 башкирских поэтов XX и начала XXI века. Благодаря нему можно узнать не только о башкирском стихе, но и о башкирском языке в целом. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам.

Персидский поэтический корпус

Персидский поэтический корпус был опубликован весной 2020 года. Он содержит тексты классической персидской поэзии IX-XVII веков в объеме 4,3 млн. словоупотреблений (это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии).

Мультиязычный корпус поэзии PoeTree

Проект PoeTree, опубликованный в 2023 году, включает более 330 000 стихотворений на десяти языках (чешский, английский, французский, немецкий, венгерский, итальянский, португальский, русский, словенский и испанский). Каждый корпус был очищен от дубликатов, снабжен морфосинтаксической разметкой в формате Universal Dependencies и снабжен метаданными. Тексты и метаднные доступны в виде унифицированных JSON-файлов.
 
Поэтические корпуса — это культурное достояние и важный источник, содержащий информацию о национальной поэзии и языке конкретного временного периода. Если вы использовали для своих исследований (или других целей?) эти и другие поэтические корпуса, пожалуйста, расскажите о них в комментариях!

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ




Share with your friend now:
group-telegram.com/sysblok/1077

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. NEWS
from us


Telegram Системный Блокъ
FROM American