Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “
Компьютерный анализ текста в R” #tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео.
2️⃣6️⃣1️⃣2️⃣
9️⃣ Регулярные выражения (
видео,
текст).
🔟 Веб-скрапинг (
видео,
текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.
1️⃣1️⃣ Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (
видео,
текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.
1️⃣2️⃣ Распределения слов и анализ частотностей (
видео,
текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.
1️⃣3️⃣ Эмоциональная тональность: метод словарей (
видео,
текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.
1️⃣4️⃣ Латентно-семантический анализ (
видео,
текст). Изучали на публикациях Lenta.Ru.
1️⃣5️⃣ Векторные представления слов на основе PMI. Word2Vec (
видео,
текст). На том же новостном датасете для удобства сравнения.
1️⃣6️⃣ Проекты под контролем версий в Git. Текста нет,
видео.
🫥🫥🫥🫥🫥Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.
И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи
🌲