Telegram Group & Telegram Channel
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Кратко: о чем интервью?

Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.

Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.

На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.

О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.

Время чтения: 28 минут.



group-telegram.com/sysblok/630
Create:
Last Update:

«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Кратко: о чем интервью?

Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.

Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.

На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.

О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.

Время чтения: 28 минут.

BY Системный Блокъ




Share with your friend now:
group-telegram.com/sysblok/630

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. NEWS
from ms


Telegram Системный Блокъ
FROM American