group-telegram.com/sysblok/1086
Last Update:
От Роулинг до Лермонтова: как провести анализ тональности текста
Анализ тональности текста (Sentiment Analysis) — это процесс автоматического определения эмоциональной окраски содержания текста. Но как зафиксировать тонкие и динамичные изменения не в коммуникации, а в больших произведениях? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Рассказываем в нашем новом материале!
📕 К истории сентимент-анализа
Первые задачи анализа тональности решались с использованием заранее размеченных словарей, например, таких как kartaslovsent, где каждому слову соответствовала определённая эмоциональная оценка. С развитием технологий нейронных сетей появились более точные методы, основанные на эмбеддингах. Современные модели используют предобученные нейросети-энкодеры, такие как BERT, которые способны учитывать контекст и взаимосвязь между словами.
📗 Гарри Поттер и кривая эмоциональной тональности
Эндрю Рейган и его коллеги из Вермонтского университета создали одну из первых работ, описывающих изменение эмоциональной тональности на практике. Их исследование было посвящено книге «Гарри Поттер и Дары Смерти», самая счастливая точка которой приходится на первую четверть книги.
📘 Герой нашего времени
Мы решили повторить эксперимент Рейгана, но на примере романа М. Ю. Лермонтова. Для этого мы обратились к нейросети RuBERT и разбили текст на атомарные единицы. В случае книг для этого лучше всего использовать предложения – они достаточно маленькие по размеру, но выражают законченную мысль.
Высшей точкой нашей кривой эмоциональной тональности оказалась глава о княжне Мэри, а низшей – дуэль с Грушницким. Правда, путь к красивому графику оказался тернистым.
Если вы хотите узнать о сложностях, с которыми мы столкнулись, визуализируя эмоции в тексте Лермонтова, или изучить, как меняется эмоциональная окраска в вашем любимом (или нелюбимом!) тексте, переходите к нашему гайду.
Время чтения: 13 минут.