Telegram Group & Telegram Channel
A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1083
Create:
Last Update:

A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ




Share with your friend now:
group-telegram.com/sysblok/1083

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links.
from nl


Telegram Системный Блокъ
FROM American