Telegram Group & Telegram Channel
A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1083
Create:
Last Update:

A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ




Share with your friend now:
group-telegram.com/sysblok/1083

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Anastasia Vlasova/Getty Images Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields.
from us


Telegram Системный Блокъ
FROM American