Telegram Group & Telegram Channel
A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1083
Create:
Last Update:

A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ




Share with your friend now:
group-telegram.com/sysblok/1083

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

False news often spreads via public groups, or chats, with potentially fatal effects. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." I want a secure messaging app, should I use Telegram? That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war.
from nl


Telegram Системный Блокъ
FROM American