group-telegram.com/sysblok/925
Last Update:
Инфографика для анализа текстов: Voyant Tools
На сайте “Системного Блока” вышел гайд в двух частях (I, II) о том, как пользоваться онлайн-анализатором текстов Voyant Tools. Рассказываем об основных функциях инструмента и о том, зачем они нужны.
Во-первых, Voyant Tools умеет подсчитывать частотности слов в корпусе текстов. Причем предлоги, артикли и прочие “вспомогательные” единицы, которых в текстах обычно особенно много, программа позволяет исключить, загрузив список стоп-слов. Тогда останутся только значимые слова. Их можно изучать дальше — например, построить график их встречаемости и узнать, менялась ли частота употребления ключевых слов на протяжении произведения или целого периода творчества писателя.
Еще один полезный инструмент в составе Voyant Tools — поиск коллокаций (это слова, которые чаще всего встречаются рядом с заданным). По контексту, в котором употребляются ключевые слова, можно сделать более глубокие выводы о темах произведения. По корпусу Достоевского, например, можно определить, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики.
Главная черта Voyant Tools — очень много возможностей визуализации полученных данных. Доступны не только разные виды графиков — но и облако частотных слов, мандала и даже карта перемещений персонажей (она, впрочем, без дополнительных настроек работает неточно).
Более подробно о том, как работать с программой, читайте в первой и второй частях гайда. А пока предлагаем квиз: как думаете, кто встречается в художественных произведениях Достоевского чаще всего — старик, ребенок или женщина? Все эти слова входят в список ключевых для творчества писателя, но некоторые до недавних пор не отмечались исследователями. Голосуйте в опросе, вечером опубликуем ответ!