RAntiquity
За проезд не забываем передавать! — У Лондиниума остановите, пожалуйста! данные: orbis графика: ggplot палитра: brutal #цифровые_этюды #spatial_data
кстати, после нескольких дней возни с картографическими проекциями, должна сказать, что вместе с дарвином пусть тогда уж забирают круглую землю. я согласна на плоскую 🐢🐘🐘🐘
Сегодня читали Эразма под руководством Мары Тимощук @thalatta_thalassa. Это был прекрасный семинар на живой латыни, но пост не об этом.
Есть такой датасет “Словарь русских писателей XVIII века: сеть персоналий” Это прекрасный датасет, подготовленный Борисом Ореховым @nevmenandr, но пост тоже не об этом.
Там собраны междустатейные ссылки в Словаре русских писателей XVIII века (1988–2010. Вып. 1–3). Узлами сети выступают посвященные персоналиям статьи словаря, а ребрами — ссылки на другие статьи в том же словаре. Но сейчас речь не об этом.
И вот, там 780 персоналий, и все они друг с другом как-то связаны. Но есть две странные изолированные пары.
Стало мне интересно, что это за несчастные, на которых ни одна статья не ссылается и их статьи тоже ни с кем не связаны.
Оказалось, что один из них -- Иоганн-Вернер Паузе, переводчик Эразма и Яна Коменского на русский. Вот о нем я и хотела написать.
Есть такой датасет “Словарь русских писателей XVIII века: сеть персоналий” Это прекрасный датасет, подготовленный Борисом Ореховым @nevmenandr, но пост тоже не об этом.
Там собраны междустатейные ссылки в Словаре русских писателей XVIII века (1988–2010. Вып. 1–3). Узлами сети выступают посвященные персоналиям статьи словаря, а ребрами — ссылки на другие статьи в том же словаре. Но сейчас речь не об этом.
И вот, там 780 персоналий, и все они друг с другом как-то связаны. Но есть две странные изолированные пары.
Стало мне интересно, что это за несчастные, на которых ни одна статья не ссылается и их статьи тоже ни с кем не связаны.
Оказалось, что один из них -- Иоганн-Вернер Паузе, переводчик Эразма и Яна Коменского на русский. Вот о нем я и хотела написать.
Почему так мало амфитеатров в Греции? А ведь были буквально родиной амфитеатров.
данные: римские амфитеатры
графика: tmap
#цифровые_этюды #spatial_data
данные: римские амфитеатры
графика: tmap
#цифровые_этюды #spatial_data
Forwarded from HSE R Meet Up
Всем привет!
Мы рады сообщить о запуске проекта HSE R Meet Up! Это пространство для обмена знаниями и опытом в мире анализа данных с использованием языка R. Наша цель — создать сообщество, где каждый сможет углубить свои навыки в data science, обсудить прикладные вопросы и новинки из этой области, а также найти единомышленников.
🔍 Что вас ждет?
- Мастер-классы от экспертов по разным методам анализа данных.
- Совместное решение и обсуждение реальных кейсов.
- Возможность делиться своими проектами и получать обратную связь.
Мы встречаемся как в очном формате, так и онлайн в Москве, Санкт-Петербурге и Перми.
В этом Telegram-канале мы будем публиковать анонсы мероприятий и всю актуальную информацию.
Let's RMeetUp ~ 🚀
Мы рады сообщить о запуске проекта HSE R Meet Up! Это пространство для обмена знаниями и опытом в мире анализа данных с использованием языка R. Наша цель — создать сообщество, где каждый сможет углубить свои навыки в data science, обсудить прикладные вопросы и новинки из этой области, а также найти единомышленников.
🔍 Что вас ждет?
- Мастер-классы от экспертов по разным методам анализа данных.
- Совместное решение и обсуждение реальных кейсов.
- Возможность делиться своими проектами и получать обратную связь.
Мы встречаемся как в очном формате, так и онлайн в Москве, Санкт-Петербурге и Перми.
В этом Telegram-канале мы будем публиковать анонсы мероприятий и всю актуальную информацию.
Let's RMeetUp ~ 🚀
library(imager)
img <- load.image("https://upload.wikimedia.org/wikipedia/commons/thumb/a/ae/Aristotle_Altemps_Inv8575.jpg/1024px-Aristotle_Altemps_Inv8575.jpg")
# цветовые каналы
ar.red <- img
G(ar.red) <- 0
B(ar.red) <- 0
ar.blue <- img
R(ar.blue) <- 0
G(ar.blue) <- 0
ar.green <- img
R(ar.green) <- 0
B(ar.green) <- 0
ar.yellow <- img
B(ar.yellow) <- 0
library(purrr)
par(mfrow = c(2,2))
walk(list(ar.red, ar.blue, ar.green, ar.yellow), plot,
axes=FALSE)
#images #цифровые_этюды
Forwarded from Antibarbari HSE (полина крупинина)
📘В свежем выпуске журнала "Философия. Журнал Высшей школы экономики" вышла статья нашего редактора Ольги Алиевой "Pseudoplatonica: блеск и нищета стилометрии”.
🔎Откуда в платоновском корпусе тексты, написанные не Платоном, и правильно ли считать их "подложными"?
🔎Почему количественные методы атрибуции авторства не могут достоверно установить, какие тексты считать подлинными?
🔎Достаточно ли "аномальной" статистики для того, чтобы усомниться в авторстве диалога?
Обо всем этом✨с картинками✨читайте по ссылке.
🔎Откуда в платоновском корпусе тексты, написанные не Платоном, и правильно ли считать их "подложными"?
🔎Почему количественные методы атрибуции авторства не могут достоверно установить, какие тексты считать подлинными?
🔎Достаточно ли "аномальной" статистики для того, чтобы усомниться в авторстве диалога?
Обо всем этом✨с картинками✨читайте по ссылке.
RAntiquity
📘В свежем выпуске журнала "Философия. Журнал Высшей школы экономики" вышла статья нашего редактора Ольги Алиевой "Pseudoplatonica: блеск и нищета стилометрии”. 🔎Откуда в платоновском корпусе тексты, написанные не Платоном, и правильно ли считать их "подложными"?…
Я очень довольна этим текстом. Он емкий и внятный. Будет еще один в серии, как только я доведу до ума курс по R.
Telegram
Antibarbari HSE
⚡ В свежих "Платоновских исследованиях" читайте статью Ольги Алиевой "Новая количественная модель Платоновского корпуса 1: Pseudoplatonica: проблемы происхождения и датировки"
Под влиянием филологической критики XIX в. диалоги из числа dubia и spuria долгое…
Под влиянием филологической критики XIX в. диалоги из числа dubia и spuria долгое…
RAntiquity
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Antibarbari HSE (Olga Alieva)
Please open Telegram to view this post
VIEW IN TELEGRAM
Очень интересный эксперимент (2023) по датировке греческих документальных папирусов с использованием регрессионных методов (GitHub).
Многое скажет сердцу эллиниста табличка, в которой приведены правила нормализации греческого текста.
Результат неплохой, надо бы попробовать повторить.
Многое скажет сердцу эллиниста табличка, в которой приведены правила нормализации греческого текста.
Результат неплохой, надо бы попробовать повторить.
Forwarded from Vox medii aevi
Продолжаем рубрику «сегодня я узнала»: оказывается, уже ДВА ГОДА как можно подать заявку в консорциум CREMMA и получить доступ к eScriptorium (это такая платформа для автоматической транскрипции рукописей). Нужно только описать свой проект и пообещать поделиться тренировочными данными.
Сайт на французском
Сайт на французском
RAntiquity
Спасибо, всем, кто слушал, вот ссылка на статью про дельту, которую я несколько раз сегодня упоминала. Там есть некорые выводы относительно приемлемой длины отрезка и числа mfw, необходимых для классификации.
У этой статьи было продолжение, в котором я выяснила, что косинусная (вюрцбургская) дельта работает на греческих текстах лучше, чем классическая. Но эта статья, увы, застряла в печати, поэтому ссылка только на препринт.
А самое главное понять (как я поняла лишь сравнительно недавно), что так называемая дельта — это не что иное, как метод машинного обучения под названием k-nn (метод ближайших соседей) при k = 1 на стандартизированных данных с манхэттенским расстоянием. Поэтому все это можно делать без
Почему
Но это без кодинга не решается, и для тех, кто не хочет кодировать,
У этой статьи было продолжение, в котором я выяснила, что косинусная (вюрцбургская) дельта работает на греческих текстах лучше, чем классическая. Но эта статья, увы, застряла в печати, поэтому ссылка только на препринт.
А самое главное понять (как я поняла лишь сравнительно недавно), что так называемая дельта — это не что иное, как метод машинного обучения под названием k-nn (метод ближайших соседей) при k = 1 на стандартизированных данных с манхэттенским расстоянием. Поэтому все это можно делать без
stylo
в библиотеке tidymodels
(о чем в курсе по R) обязательно будет добавлен урок. Почему
tidymodels
, а не stylo
? Потому что, во-первых, это опрятно. Во-вторых, есть возможность провести перекресную проверку на разных выборках с разными параметрами (пакет rsample), оценить модели при помощи yardstick
и автоматически отобрать лучшую. Но это без кодинга не решается, и для тех, кто не хочет кодировать,
stylo
— вполне достойная замена.
RAntiquity
Спасибо, всем, кто слушал, вот ссылка на статью про дельту, которую я несколько раз сегодня упоминала. Там есть некорые выводы относительно приемлемой длины отрезка и числа mfw, необходимых для классификации. У этой статьи было продолжение, в котором я выяснила…
Самое лучшее объяснение алгоритма knn я видела в книге Бретта Ланца “Машинное обучение на R” (русский перевод весьма пристойный).
Он, в частности, говорит о том, что это алгоритм ленивого обучения, т.к. машина на самом деле ничему не учится, а просто запоминает тренировочные данные. Тут-то я и осознала, что это дельта и есть.
Поэтому, если вы вдруг не понимаете смысл дельты, рекомендую посмотреть эту главу. Там и про векторное пространство, и про расстояния очень доходчиво с картинками.
Он, в частности, говорит о том, что это алгоритм ленивого обучения, т.к. машина на самом деле ничему не учится, а просто запоминает тренировочные данные. Тут-то я и осознала, что это дельта и есть.
Поэтому, если вы вдруг не понимаете смысл дельты, рекомендую посмотреть эту главу. Там и про векторное пространство, и про расстояния очень доходчиво с картинками.
Labirint.RU
Машинное обучение на R: экспертные техники для прогностического анализа
Язык R предлагает мощный набор методов машинного обучения, позволяющих быстро проводить нетривиальный анализ ваших данных.
Книга является руководством, которое поможет применять методы машинного обучения в решении ежедневных задач. Бретт Ланц...
Книга является руководством, которое поможет применять методы машинного обучения в решении ежедневных задач. Бретт Ланц...
Forwarded from БРУСНИЦЫН культурный квартал
DH-центр ИТМО в Лектории Брусницына
Раз в две недели по субботам будем собираться в Лектории Брусницына и говорить с экспертами DH-центра про исследования в области цифровой гуманитаристики. Что это такое и кто этим занимается?
DH-центр — центр цифровых гуманитарных
исследований университета ИТМО, который организует магистратуру в Санкт-Петербурге, курирует цифровые проекты с культурными институциями и проводит исследования.
В Лектории будут выступать преподаватели магистратуры и команда центра. На лекциях вы узнаете о том, как цифровые методы и инструменты существуют в мире гуманитарных исследований.
Программа:
19 октября
«Как оцифровать болезнь? Цифровая гуманитаристика в медицине»
2 ноября
«GLAMVR: галереи, архивы, музеи, библиотеки и их цифровая жизнь»
16 ноября
«Игра как совместное событие в физическом и цифровом пространстве»
30 ноября
«Интерфейсы цифровых архивов: аутентичность, пользователи и правила»
14 и 28 декабря
темы уточняются (следите за анонсами)
Первая лекция «Как оцифровать болезнь? Цифровая гуманитаристика в медицине» пройдет 19 октября.
Поговорим о том, как технологии стали неотъемлемой частью медицинских процессов и как соотносятся версии болезни в «реальном» и «виртуальном» измерениях?
Спикер — Илья Смирнов, преподаватель программы магистратуры по Digital Humanities ИТМО, социальный исследователь науки и технологий (STS), аспирант ЕУ СПб, основатель проекта Versia.
Вход свободный, необходма регистрация
🗓 19 октября, 15:00
📍Культурный квартал Брусницын, Лекторий (Дом с колоннами, 3 этаж, вход в арке)
Раз в две недели по субботам будем собираться в Лектории Брусницына и говорить с экспертами DH-центра про исследования в области цифровой гуманитаристики. Что это такое и кто этим занимается?
DH-центр — центр цифровых гуманитарных
исследований университета ИТМО, который организует магистратуру в Санкт-Петербурге, курирует цифровые проекты с культурными институциями и проводит исследования.
В Лектории будут выступать преподаватели магистратуры и команда центра. На лекциях вы узнаете о том, как цифровые методы и инструменты существуют в мире гуманитарных исследований.
Программа:
19 октября
«Как оцифровать болезнь? Цифровая гуманитаристика в медицине»
2 ноября
«GLAMVR: галереи, архивы, музеи, библиотеки и их цифровая жизнь»
16 ноября
«Игра как совместное событие в физическом и цифровом пространстве»
30 ноября
«Интерфейсы цифровых архивов: аутентичность, пользователи и правила»
14 и 28 декабря
темы уточняются (следите за анонсами)
Первая лекция «Как оцифровать болезнь? Цифровая гуманитаристика в медицине» пройдет 19 октября.
Поговорим о том, как технологии стали неотъемлемой частью медицинских процессов и как соотносятся версии болезни в «реальном» и «виртуальном» измерениях?
Спикер — Илья Смирнов, преподаватель программы магистратуры по Digital Humanities ИТМО, социальный исследователь науки и технологий (STS), аспирант ЕУ СПб, основатель проекта Versia.
Вход свободный, необходма регистрация
🗓 19 октября, 15:00
📍Культурный квартал Брусницын, Лекторий (Дом с колоннами, 3 этаж, вход в арке)
Итак, мы прошли следующие темы.
1. Начало работы в R (текст, видео).
2. Таблицы. Опрятные данные (текст, видео). Датасет: М. Кондра, Е. Казакова, «Программы по литературе для средней школы с 1919 по 1991 гг.». Узнали, в какой год в новейшей истории России распухли школьные программы.
3. Визуализации (текст, видео). Датасет: Т. Андервуд и др., “NovelTM Datasets for English-Language Fiction, 1700-2009”. Повторили знаменитое исследование Ф. Моретти о длине названия («Корпорация стиля») и узнали, в какие года среди романистов было больше всего женщин.
4. Циклы, условия, функции (текст, видео).
5. Функционалы в анализе данных (текст, видео). Исследовали датасет Британской библиотеки, посвященный Гарри Поттеру. После хакерской атаки на библиотеку он исчез с их сайта, но у меня сохранилась копия с прошлого года.
6. Импорт: JSON (текст, видео). Датасет: «Шедевры Пушкинского музея». И небольшой датасет со списком эпизодов «Теории большого взрыва».
7. Импорт: XML (текст, видео). Датасет: Д. Скоринкин, “Персонажи «Войны и мира» Л. Н. Толстого: вхождения в тексте, прямая речь и семантические роли”. Также пригодились XML из корпуса русской драмы Dracor.
8. Публикация с Quarto (текст, видео).
Идем дальше.
#tar2024
Please open Telegram to view this post
VIEW IN TELEGRAM
locusclassicus.github.io
Компьютерный анализ текста