Telegram Group Search
Как сделать так, чтобы RStudio «понимал» латынь


- Скачиваем https://latin-dict.github.io/docs/hunspell.html архив hunspell-la.zip и распаковываем его

- Находим на компьютере директорию со словарями:
• Linux and macOS: ~/.config/rstudio/dictionaries/languages-system/
• Windows: %AppData%\RStudio\dictionaries\languages-system\

- Добавляем туда два файла (с расширениями .dic и .aff) из архива

- После этого перезапускаем RStudio, идем в Tools — Global Options — Spelling, проверяем, что новый словарь доступен в списке словарей. Все, можно работать.
Просто зафиксирую для истории тот день, когда GPT начал мной командовать. Раньше он все больше говорил "Рад был вам помочь" или "Могу ли еще что-то сделать?" А теперь сплошные императивы, и какие. "Отпишитесь" 😬
В сети опубликована запись «Цифровой среды» с Ольгой Алиевой

🙂 Делимся новой записью онлайн-семинара Института цифровых гуманитарных исследований (DHRI) СФУ «Цифровая среда».

Кандидат филологических наук, доцент Школы философии и культурологии факультета гуманитарных наук НИУ ВШЭ и автор телеграм-канала RAntiquity Ольга Алиева рассказала об использовании филогенетических методов для определения авторства и хронологии платоновских текстов и поделилась важными итогами своего исследования.

Доклад «Лес за деревьями: филогенетические методы на службе платоноведения» будет интересен широкому кругу слушателей – тем, кто стремится по-новому взглянуть на исследования авторства и готов пересмотреть стереотипы, связанные со стилометрией.

Смотрим:

🔜 YouTube
🔜 Rutube
🔜 VK Видео

Здесь можно ознакомиться с перечнем всех выпусков «Цифровой среды» (гости семинара – исследователи-историки, филологи, лингвисты, культурологи, и не только).

#приоритет2030 #dhri #ицги #цифроваясреда #языкR #стилометрия
Please open Telegram to view this post
VIEW IN TELEGRAM
RAntiquity
Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R” #tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео. 2️⃣6️⃣1️⃣2️⃣ 9️⃣ Регулярные выражения (видео, текст). 🔟 Веб-скрапинг (видео,…
Третий модуль «Компьютерного анализа текста» #tar2024 (он же и 2025) подходит к концу, а значит я снова публикую текст и видео к урокам. Почти весь модуль посвящен деревьям и сетям 🕸️

1) Тематическое моделирование с LDA (текст, видео). Датасет: новости Lenta.Ru. Бонус: код и данные для статьи «Танцы, эрос и зачатие: о чем писали “Платоновские исследования” за последние 10 лет». К статье есть видео прошлогоднего выступления на «Цифровой среде».

2) Кластеризация и метод главных компонент (текст, видео). Датасеты: на дом — сценарий сериала «Друзья» из пакета {friends} для кластеризации персонажей; аудиторная — датасет Galbraith из пакета {stylo} на определение авторства романа, написанного Роулинг под псевдонимом. И еще немного пингвинов из {palmerpenguins} для упражнения. Потому что пингвины лишними не бывают.

3) Стилометрический анализ с пакетом stylo (текст, видео). Датасет: древнегреческая литература, собранная автором для статьи «Delta Берроуза для древнегреческих авторов: опыт применения» (выборочно, ссылка на репозиторий). Также очень пригодились данные, опубликованные Даниилом Скоринкиным @fckndh. Даня, спасибо, особенно за Ильфа и Петрова!

4) Консенсусные деревья и сети (текст, видео). Аудиторная работа на том же Galbraith (он же Роулинг), домашняя — датасет Бориса Орехова «Стилеметрические данные “Тихого Дона” и современной ему прозы». Бонус: видео выступления на «Цифровой среде» с докладом «Лес за деревьями: филогенетические методы на службе платоноведения» (дискутант: Артем Юнусов из ИФЕ @philosophy_diary).

5) Сетевые данные в igraph (текст, видео). Датасеты из пакета {networkdata}, а также собранный Борисом Ореховым «Словарь русских писателей XVIII века: сеть персоналий».

6) Графический дизайн сетей с ggraph и visNetwork (текст, видео). Датасет: Тюдоры из пакета {historydata}.

7) Анализ сетей и обнаружение сообществ (текст, видео). Датасет: драматический корпус Dracor. На дом: сети Ходасевича (снова спасибо Борису Орехову) и сети «Войны и мира» (снова спасибо Даниилу Скоринкину).

Ссылка на весь видео-плейлист. Всего там 23 записи за этот учебный год.

🖥 Ссылка на репозиторий для issues и пул-реквестов.

Я уползаю готовиться к четвертому модулю, в планах добраться до многослойного перцептрона, но это уж как пойдет
Please open Telegram to view this post
VIEW IN TELEGRAM
Осваиваю веселенький пакет FastTextR (снова неутомимый Эмиль Хвитфельдт!), позволяющий работать с предобученными эмбеддингами. Хочется, глядя на это, сказать голосом Любшина:
Please open Telegram to view this post
VIEW IN TELEGRAM
В рубрике BEST DH TRAINING MATERIALS ищите вашу locusclassicus ☺️ http://dhawards.org/dhawards2024/voting/

Конкуренция серьезная, но хорошая новость в том, что можно голосовать в разных номинациях за разные проекты.

P.S. Расшары друзьям и знакомым кролика приветствуются! Правила конкурса это допускают
Как проверить латинский текст на опечатки и ошибки распознавания с пакетами {hunspell} и {spelling}

Это решение подойдет для быстрой “очистки” после OCR. Код позволяет выбрать замену слова или скипнуть исправление в интерактивном режиме.

https://teletype.in/@locusclassicus/BBSaUFXR-1S
Наконец-то кто-то сделал мем про меня. (6 часов — это довольно быстро, скорее 6 дней).
Please open Telegram to view this post
VIEW IN TELEGRAM
Раньше были какие-то понятные преподавательские страхи. Забыть про собственную пару, не подготовиться и не знать, что делать со студентами полтора часа. Или, толком не проснувшись (по ночам мы же пишем статьи), примчаться с каким-то очевидным изъяном во внешнем виде. Ну всякое такое, скучища. Все это было и все это не страшно.

Предлагаю новый страх. Промахнуться мимо окошка в телеграме и случайно запостить в один из своих пабликов вопрос, предназначенный Chat AI Bot. И тогда весь мир узнает, что…

А что он узнает, кстати? Какие запросы реально могут смутить, если станут публичными?

Пишите в комментариях. Если написать, то не сбудется (тьфу-тьфу-тьфу). Гарантия 100% 🔮
завтра иду рассказывать классикам на конфе в рггу, какой есть прикольный и простой цифровой инструмент для поиска аллюзий в латинских текстах

тем временем классики: еще в девяностых начали жаловаться, как компухтеры загубили комментаторскую работу
Последнее время приходится довольно много сканировать и распознавать, так что пришлось придумать небольшую хитрость, чтобы

✔️ разрезать разворот на два изображения
✔️ сшить pdf заново, но уже постранично

Всех дел на пару минут. После этого файл можно отдавать tesseract’у или нейросетям.

Хитрость на языке R доступна в виде gist’a, надеюсь будет полезна не только мне.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/27 13:05:26
Back to Top
HTML Embed Code: