Telegram Group Search
RAntiquity
RAntiquity
🎯В Вышке закончился первый учебный модуль, а значит — пройдена первая четверть курса «Компьютерный анализ текста в R». Этот курс я читаю второй год студентам магистерской программы «Цифровые методы в гуманитарных науках», и продолжаю дорабатывать. Итак,…
Второй модуль позади, а значит мы с магистрами прошли еще 8 тем курса “Компьютерный анализ текста в R#tar2024 . Как и в прошлый раз, делюсь ссылками на уроки и на видео.


2️⃣6️⃣1️⃣2️⃣


9️⃣ Регулярные выражения (видео, текст).

🔟 Веб-скрапинг (видео, текст). В этом уроке мы собрали “De Bello Gallico” из Wikisource.

1️⃣1️⃣ Токенизация, лемматизация, POS-тэггинг и синтаксический анализ (видео, текст). В этом уроке мы научились лемматизировать и размечать латинский датасет, который подготовили в предыдущем уроке.

1️⃣2️⃣ Распределения слов и анализ частотностей (видео, текст). В этом уроке мы изучали закон Ципфа и считали tf-idf на корпусе британских эмпириков: Локка, Юма и Беркли.

1️⃣3️⃣ Эмоциональная тональность: метод словарей (видео, текст). “Бедная Лиза” Карамзина как повод для sentiment analysis.

1️⃣4️⃣ Латентно-семантический анализ (видео, текст). Изучали на публикациях Lenta.Ru.

1️⃣5️⃣ Векторные представления слов на основе PMI. Word2Vec (видео, текст). На том же новостном датасете для удобства сравнения.

1️⃣6️⃣ Проекты под контролем версий в Git. Текста нет, видео.

🫥🫥🫥🫥🫥

Огромное спасибо всем, кто пишет issues! Так мне гораздо проще учитывать все замечания, а после доработки курса я буду знать, кого упомянуть в благодарностях. Я не всегда успеваю оперативно реагировать, простите — год выдался очень непростой, но я очень ценю такую поддержку и все обязательно поправлю.

И снова спасибо Софии Ф., которая помогает с проверкой дз и настройкой тестов. После НГ — целый модуль будет посвящен деревьям и сетям. До встречи 🌲
Please open Telegram to view this post
VIEW IN TELEGRAM
Rесурсы 🌟

Коллеги, исходя из своих интересов, я сделал небольшой список ресурсов и ссылок, которые сам использую, либо могу рекомендовать по Data Science. Это далеко не все, что существует по R, тем не менее, данная коллекция ресурсов может пригодиться как начинающим, так и активным пользователям.

Отмечу, что тут не все касается только R, например, ссылки на материалы по геопространственному анализу включают Python и Julia.

📍 Rесурсы (русская версия) | RSources (English version)

Напомню, что некоторые примеры работы с R можно посмотреть в блоге Наука и Данные. 💫

Надеюсь, что это может стать поводом для вдохновения и написания собственных замечательных проектов!
Please open Telegram to view this post
VIEW IN TELEGRAM
Ну что, дорогие пифагорейцы. Calculemus.

> 45^2
[1] 2025
> sum(1:9)
[1] 45
> sum((1:9)^3)
[1] 2025


1️⃣ 2025 — это 45 в квадрате.
2️⃣ 45 — это сумма всех цифр (от 1 до 9).
3️⃣Квадрат суммы равен сумме кубов.

❗️Подсмотрено у Савватеева ❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
RAntiquity
История с EvaLatin получила продолжение. Удалось написать скрипт, который превращает conllu в упражнения (сначала в файл qmd, из которого рендерится html). Для интерактива использовала уже знакомый checkdown от Георгия Мороза. Над заданиями буду еще думать, но начало положено 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
А знаете ли вы, что до 26 января можно податься (или номинировать друга) на DH Awards? Я не планирую, но буду рада поддержать коллег; после публикации списка номинантов кидайте ссылки в комментарии. Плюшек за это никаких не дают, кроме приятного чувства победы. Ну и что.
Свежая (2024) года статья, сравнивающая обычный и LLM машинный перевод для латинского (!) языка. Авторы заключают, что GPT-4 достиг впечатляющих успехов в латинистике (метрики на первом скрине).

По моим впечатлениям, так и есть — ему уже вполне можно доверять несложные (а то и сложные) задачи и переводы.

Проблема пока в том, как это вписать в рабочий воркфлоу. Недавно экспериментировала с пакетом {tidyllm} — удобнейшая вещь, но есть одно но. Все прилично говорящие по-латыни модели требуют деняк. И впн, конечно, но больше всего — деняк.

Опенсурсная Llama — для которой тоже есть пакет {ollamar}, но можно и через {tidyllm}, разницы никакой — похожа на студента-первокурсника: не признается, что не знает латыни, но лепит чепуху (на втором скрине)

общий вывод такой, что быть гуманистом и здесь тоже оказывается дорого

p.s. и да, я знаю про чатбот, я изучала, есть ли возможность обойтись без лишних движений копипасты

#llm #латынь
зафиксирую итоги рисерча, чтобы не растерять ссылки

По совету Светы Яцык @voxmediiaevi попробовала китайскую DeepSeek и прямо-таки влюбилась.

Начала с чата, он доступен после регистрации бесплатно онлайн: https://www.deepseek.com/ Выяснилось, что машинка весьма неплохо знает латынь и может нагенерить упражнений к заданному латинскому тексту, оформив их в markdown (см. скрин).

Ок, quod во втором предложении — союз, а не относительное местоимение, но, во-первых, союз происходит от местоимения, а, во-вторых, можно попробовать докрутить промпт.

V3 доступна через API по подписке (дешевле аналогов, как они уверяют). Пакет {tidyllm} китайцев не поддерживает, но можно немного схитрить и самостоятельно перевести пример их curl-запроса на язык R. Для этого есть, оказывается, гениальный translator: https://curlconverter.com/r-httr2/ и не менее удобный {httr2}

Теоретически V2.5 можно поставить локально и пользоваться через {ollamar}, но практически это 133 Гб, на кривой козе не подъедешь, надо учиться разворачивать, а у меня лапки: https://ollama.com/library/deepseek-v2.5

А еще параллельно выяснилось (все наверняка знали, но я только сейчас догнала), что Хадли наш бесценный Викхем написал еще один пакет для работы с LLM: https://ellmer.tidyverse.org/

DeepSeek он не поддерживает, но поддерживает кучу других, а еще на странице пакета очень подробные статьи о том, как обрабатывать тексты и распознавать изображения с помощью этой штуковины, как правильно писать запросы, чтобы не разориться и многое другое.

Но пока с меня хватит, вернусь к этому чуть позже #llm #api
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня доработала и отправила в журнал рецензию на одну книгу о Платоне, которую медленно читала все праздники, чтобы не впасть в майонезную кому. Рецензия, как и книга, не имеет никакого отношения к цифре: речь идет о некоторых emerging trends в платоноведении.

Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.

Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) и принялась варить кашу попросила GPT каждую из них резюмировать. Несмотря на путаную структуру книги и местами темную аргументацию, перемежающуюся длинными греческими цитатами, модель в целом для каждой главы корректно установила, о чем она, и перечислила основные выводы.

Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.

Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).

Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.

Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.

Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.

Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.
Спасибо коллегам за такой обзор. Про прокурора это, конечно, преувеличение 😅 Просто логика диалектической беседы требует додумывать любой тезис до конца, причем in utramque partem. Сначала в одну сторону, потом в другую.

Я не технофоб, не технофил и уж точно не техновизионер (этого и без меня хватает). Но мне нравится осмысленность.

Вот, например, Платон. Незадолго до его рождения Греция начала становиться грамотной: впервые в истории человечества не просто появилось фонетическое письмо, но и система грамматических школ, плюс доступный папирус из египетских колоний.

Все знание можно записать! - говорили одни. И продать! - говорили другие. Спокойно, - сказал Платон. — Пишите, кому что надо, законы там, учебники, стихи, — но не надо называть это знанием.

И на этом спокойствии мы протянули 25 веков, протянем и еще немного.
RAntiquity
Но король плагинов и безусловный фаворит — это, друзья, плагин confetti. Я теперь его везде буду добавлять, чтобы жить веселее. Вот, кстати, первый опыт, та самая презентация для школьников: на любом слайде нажмите букву c и поделитесь ощущениями 🎊
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках

22 января
состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.

Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».

🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.

Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь

#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
Скимминг с {tidyllm}

…на случай, когда тг-бот капризничает


library(tidyllm)
Sys.setenv(OPENAI_API_KEY = "sk-00000000")

conversation <- llm_message("Please summarize the key points from the provided PDF document.",
.pdf = "my.pdf") |>
chat(openai(.model = "gpt-4o"))

conversation |> get_reply(1) |> cat()


Источник. #llm
2025/01/18 06:06:30
Back to Top
HTML Embed Code: