group-telegram.com/sysblok/1106
Last Update:
Театры и школы в текстах: анализируем именованные сущности
Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка.
В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.
Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.