Telegram Group Search
Совершенно непонятно, когда работать над своими проектами, ведь столько всего интересного вокруг происходит.
Forwarded from DH CLOUD
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.

Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.

Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.

Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
Пакеты FactoMineR & factoextra — отличные альтернативы базовому R для анализа главных компонент. Позволяют изящно изобразить одновременно и нагрузки компонент, и сами наблюдения, а также отобрать самые значимые переменные, чтобы график не был очень шумным.

Код очень лаконичный:


fviz_pca_biplot(pca_object, geom = "point", habillage = as.factor(group), addEllipses = TRUE, select.var = list(cos2 = 20))


Это бывает полезно, когда надо от стилометрического анализа перейти к анализу стиля. Например, мне позволило заметить особое значение союза καί для книг 2-9 “Государства”.

Это не сразу понятно (если вы подзабыли фон Арнима), ведь союз “и”, казалось бы, должен быть везде.

Но “Государство” (кроме 1-й и 10-й книг) — абсолютный лидер по использованию формулы "καὶ μάλα” (“очень даже”). Вообще загляните на любой разворот издания Бернета и обязательно увидите несколько ответов, которые начинаются с καί.
ушел думать о смысле жизни и бренности бытия

(и да, я всегда здороваюсь, говорю “спасибо” и “пожалуйста”)
Уже очень давно мне хотелось написать рецензию на книгу Explorations in the Digital History of Ideas (2023). Цифровая история идей — совсем новое явление в DH, интересно было внимательно посмотреть на методологию и конкретные инструменты, которые нашли применение в этой отрасли.

Повод представился благодаря коллегам из СФУ, решившим собрать коллективную монографию под названием “Будь в курсе цифровых гуманитарных исследований”.

Область у нас высокотехнологичная, поэтому и рецензию я решила написать не простую, а в жанре реверс-инжиниринга. Т.е. буквально разобраться, как они все считали — и в меньшем мастштабе повторить все вычисления.

Надо сказать, что кембриджские коллеги не очень озаботились воспроизводимостью своих исследований (которые, как я знала и раньше, они делали на языке R), но немного смекалки, немного разведки и помощь читателей этого канала (упомянутая с благодарностью в первой сноске!) позволили во всем разобраться.

Выкладываю свою главу, там ссылочка на репозиторий с кодом. А весь сборник можно найти на сайте СФУ.
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские отчисления они не забывают получать.
Позитивистски настроенные платоноведы считают, что если стилистически тексты делятся на группы, то это ранний-средний-поздний стиль. Хотя мы про датировку, строго говоря, почти ничего не знаем (только что “Законы” позже “Государства”).

Интересно, думала я, а ведь есть же другие авторы, где с датировками все в порядке? Как будут там группы выглядеть?

И о чудо. Это уже посчитали для Гете, Кафки и Музиля (все делалось, как обычно, на языке R, пакет Stylo, плюс немного Gephi).

Оказалось, что стилометрия с так называемым “поздним стилем” (выдумкой романтиков, как говорят злые языки) не справилась во всех трех случаях. Графы отсюда.

О чем нам это говорит? Стареем спокойно, девочки, стилометрия не заметит, как мы выжили из ума. По поводу “эволюции” Платона — вопросов все больше. #стилометрия #платон
RAntiquity
Готовлю по просьбе коллег подборку книг по атрибуции авторства; набрела на злую и остроумную шутку от Гарольда Лова, специалиста по не менее злому и остроумному Джону Уилмоту. Вот, дескать, тут кое у кого автор умер -- славненько, но почему-то авторские…
А пока вы ждете релиза, расскажу о том, что в этот топ-5 не попадет.

Roger Kreuz (2023). How Language Creates and Reveals Identity.

Уже в предисловии среди основоположников стилометрии упомянут Конрад Риттер (вообще-то он Константин, но ок, немцы, кто их там разберет).

Дальше мы читаем, что «идиолект» произошел от префикса (sic!) idion («частный») и dialect (но ок, греки, кому интересно с ними возиться).

За этим — россыпь историй в духе «одной тетеньке прооперировали челюсть, и все подумали, что у нее британский акцент, а она возьми и уедь».

Рассказ про Менденхолла начинается с упоминания «маленькой деревеньки», в которой родился этот необычайно одаренный мальчик (житие мое... паки и паки...).

Постоянные вопросы к читателю, на которые совершенно не хочется отвечать («Как вы думаете, какую христианскую книгу читают чаще всего?»).

Киношный мелодраматизм на ровном месте. «Америка была в опасности. Бывшие колонисты должны были решить, как дальше жить...» (это про «Записки Федералиста»).

Неуместные метафоры. Один исследователь «поженил» литературоведение с компьютером; другие «сомкнули ряды» в определении автора.

====

Нет, вся фактура там изложена, и, кажется, корректно, хотя я до конца не добралась. И про Фому Кемпийского, и про «Федералиста», и про «Зов кукушки» (не обошлось, правда, без игривого заголовка с заглядыванием в гнездо). Но есть такая еда, на переваривание которой уходит калорий больше, чем она дает. Вот это она (это не метафора, если что, а прямое сравнение).

И да, я понимаю, что это такой жанр. Издательство хочет, чтобы книга продавалась. Я тоже писала Book Proposal и понимаю, что на вопрос: «Какой аудитории адресована ваша книга?» нельзя отвечать: «Трем яйцеголовым фрикам вроде меня». Но напиши в заявке что-нибудь — и дальше работай как работал. Не ядерная война нас доконает, нет, а TED головного мозга.
Forwarded from Antibarbari HSE (Olga Alieva)
Видео

В 2024 г., итоги которого мы скоро начнем подводить, завершился двухгодовой проект «Цифровая античность» (2022-2024), поддержанный Факультетом гуманитарных наук ВШЭ.

Этот проект стал развитием другой инициативы, «Разработка методических материалов для изучения древнегреческого и латинского языков» (2020-2022).

Именно в далеком 2020 мы — антиварвары и друзья — решили, что надо развивать цифровую экосистему для изучения греческого и латыни, и запустили свой первый сайт http://antibarbari.ru/ и видеоблог.

За четыре года проектной деятельности на этом сайте оказалось собрано множество комментариев к греческим и латинским авторам, а недавно к этому добавились и другие сайты, с интерактивными латинскими и греческими упражнениями и грамматикой.

Параллельно мы записывали видео, писали статьи, работали над параллельным корпусом, разрабатывали курс программирования для антиковедов и, в целом, искали новые точки сближения между античностью и цифрой.

Нам кажется, что получилось неплохо, и итоги работы мы решили изложить в коротком видео. Два года работы за полторы минуты — рассчитываем на ваши лайки!

Спасибо всем, кто нас поддерживал и поддерживает, без вас ничего бы не было.
5 книг, которые помогут разобраться в вопросах атрибуции авторства (в том числе при помощи стилометрии)

🙂 Встречаем пятницу, и вместе с ней – #пятикнижие от доцента Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ, руководителя проектной группы «Цифровая античность» Ольги Алиевой.

1️⃣ Anthony Kenny. The Computation of Style: An Introduction to Statistics for Students of Literature and Humanities (1982). Британский философ, воспитанный на Аристотеле, Фоме и Витгенштейне, написал небольшое и внятное (возможно, самое внятное) введение в статистику для гуманитариев. Неустаревающая классика.

2️⃣ Jacques Savoy. Machine Learning Methods for Stylometry (2020). Специалист по автоматической категоризации текстов Жак Савой найдет, что сказать и про апостола Павла, и про Элену Ферранте, и даже про Дональда Трампа. Доходчивое объяснение методов современной компьютерной стилометрии – от базовых алгоритмов МО до нейросетевого анализа. Все примеры – с кодом на языке R.

3️⃣ Harold Love. Attributing Authorship (2002). Рафинированный литературовед рассказывает об атрибуции авторства с примерами из Иеронима и Эразма. Риторический лоск, концептуальные обобщения, цитаты из Йейтса и Фуко, никаких таблиц. Непростое, но вознаграждающее чтение.

4️⃣ Hugh Craig, Arthur F. Kinney, eds. Shakespeare, Computers, and the Mystery of Authorship (2009). Хороший пример количественного исследования, которое обходится без «черных ящиков» и не подменяет разговор о стиле разговором о статистике. Книга поможет сориентироваться в шекспировском вопросе, а заодно понять, что такое Zeta.

5️⃣ Massimo Salgano. Stylistics, Stylometry and Sentiment Analysis in German Studies: Operationalization of Literary Values (2023). Несмотря на неряшливое изложение и рыхлую композицию, работа не лишена теоретических прозрений, из которых важнейшее — указание на связь стилометрии с «уликовой парадигмой» Карло Гинзбурга.

#чтопочитать #стилометрия #статистика #языкR #ML #исследования
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟Ч/б оформление графика в ggplot для полиграфической печати. Несколько опций:

🌟 scale_fill_grey() для равномерной заливки (контраст задается аргументами start и end);

🌟 пакет ggpattern для узоров.

На втором рисунке группа кодируется углом наклона и дополнительно оттенком серого. Толщина линий и просветы между ними, а также цвет обводки отрегулированы вручную. (Я не люблю горошки, но такое там тоже есть). #ggplot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Попалось у того же Гарольда Лава любопытное рассуждение в контексте определения авторства.

"Автор" (в смысле precursory author) может быть у целого жанра. Например, Серджо Леоне является автором спагетти-вестерна, и в этом смысле -- он соавтор Клинта Иствуда, который прославился благодаря фильмам Леоне, а затем начал выпекать свои собственные пирожки (или правильнее сказать: варить собственные спагетти?).

Развивая эту мысль, Лав называет Плутарха (точнее, его английский перевод) соавтором Шекспира. И едва ли можно сомневаться, что если бы Плутарх был жив, ему бы стоило потребовать свою долю авторских отчислений (сейчас это называется "автор идеи").

Когда договориться не получается, это называют плагиат (такая история, говорят, приключилась с "Ребеккой" Дафны дю Морье). В остальных случаях -- collaborative authorship.

Правда, к Плутарху тоже кое-кто мог бы постучаться с того света. Вообще в конце времен мы увидим очень длинные титры.

P.S. Код тоже будет, скоро -- но его же надо как-то и осмыслять. А может и не будет 🍝🍝🍝
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/04/12 19:28:01
Back to Top
HTML Embed Code: