Forwarded from sonja, a kick ass young lady
Сколько кошек было у Колетт?
🔘 🔘 🔘
В 1989 году Этьен Брюне опубликовал статью, где решил пересчитать животных во французской литературе 19-20 веков. Это стало возможно благодаря созданию Цифрового тезауруса французского языка (TLFi), который на тот момент насчитывал 2 500 текстов (по современным меркам, конечно, не очень много).
В качестве центрального автора Брюне выбрал Колетт, полагая, что её любовь к животным находит отражение и в её текстах. При помощи программы STELLA (которая визуализирует расчёты) Брюне анализирует частоту встречаемости животных в пяти произведениях Колетт, сравнивая их с текстами других французских авторов (среди них — Бовуар, Камю, Пруст и Селин):
⏪ ⏩
В ходе цифровой кулинарии выясняется, что чаще всего Колетт пишет про кошек (chat / chatte) — что особенно, по мнению Брюне, выделяет её на фоне других авторов, которые либо не особенно обращаются к животным в своих текстах, либо используют их в символическом значении. Или как пишет Брюне в заключении:
⏪ ⏩
А кошек у Колетт насчитали 198🙂
В 1989 году Этьен Брюне опубликовал статью, где решил пересчитать животных во французской литературе 19-20 веков. Это стало возможно благодаря созданию Цифрового тезауруса французского языка (TLFi), который на тот момент насчитывал 2 500 текстов (по современным меркам, конечно, не очень много).
В качестве центрального автора Брюне выбрал Колетт, полагая, что её любовь к животным находит отражение и в её текстах. При помощи программы STELLA (которая визуализирует расчёты) Брюне анализирует частоту встречаемости животных в пяти произведениях Колетт, сравнивая их с текстами других французских авторов (среди них — Бовуар, Камю, Пруст и Селин):
Мы предлагаем проверить, любит ли Колетт кошек или животных вообще [...] Вряд ли Колетт питала любовь к измерениям и подсчетам. Считать монетки это ещё куда ни шло. Но считать слова вместо того, чтобы их взвешивать! Считать животных вместо того, чтобы их гладить! Без сомнения, этот безумный проект никогда не приходил Колетт в голову — даже в те беспокойные вечера, когда счет овец, как говорят, помогал ей уснуть. Но чтобы успокоить Колетт и избавить её призрак от кошмара цифр, мы не покажем вам процесс их приготовления [la cuisine des chiffres ne sera pas montrée]. Достаточно знать, что эти кривые получаются в результате перекрестного умножения, квадратных корней и многих других ингредиентов, одни названия которых могут испортить вам аппетит, хотя компьютер переварит их без проблем.
В ходе цифровой кулинарии выясняется, что чаще всего Колетт пишет про кошек (chat / chatte) — что особенно, по мнению Брюне, выделяет её на фоне других авторов, которые либо не особенно обращаются к животным в своих текстах, либо используют их в символическом значении. Или как пишет Брюне в заключении:
В этом случае статистика лишь подтверждает ощущение очевидного. Это, конечно же, не является открытием, и мы добились лишь относительного прогресса в доказательстве, если не правильности [количественного] метода, то хотя бы того, что он не является ошибочным.
А кошек у Колетт насчитали 198
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
RAntiquity
Сколько кошек было у Колетт? 🔘 🔘 🔘 В 1989 году Этьен Брюне опубликовал статью, где решил пересчитать животных во французской литературе 19-20 веков. Это стало возможно благодаря созданию Цифрового тезауруса французского языка (TLFi), который на тот момент…
винтажные диаграммы + коты = DH здорового человека
RAntiquity
Вот тут кстати на SO инциировала обсуждение, как подключиться к API дипсика из среды R. Все работает, если дать денег (существенно меньше, чем просит OpenAI). Надо будет еще подумать, чтобы как в {ellmer} сразу структурированные данные извлекать, но это все позже, сейчас завал.
Может пока я буду думать, китайцы уже пакет напишут. Тогда и с ВПН можно было бы не мучиться (все, что работает через ВПН, практически невозможно демонстрировать в реальном времени на паре, например).
Может пока я буду думать, китайцы уже пакет напишут. Тогда и с ВПН можно было бы не мучиться (все, что работает через ВПН, практически невозможно демонстрировать в реальном времени на паре, например).
Stack Overflow
A call to DeepSeek API in R returns 401 error despite correct api-key
I am trying to chat from DeepSeek from R, and here is the code I use (since this model is not supported by {ellmer} or {tidyllm}.
Here is my code:
library(httr)
library(jsonlite)
# Set your DeepSe...
Here is my code:
library(httr)
library(jsonlite)
# Set your DeepSe...
Forwarded from People Analytics
📌 Классифицируем отзывы сотрудников о работодателе с помощью R, rollama и Ollama
В предыдущем посте мы научились устанавливать и пользоваться LLM локально. Теперь знакомимся с практическим примером.
@people_analytics
#LLM #БЯМ #AI #R #people_analytics #отзывы_сотрудников
В предыдущем посте мы научились устанавливать и пользоваться LLM локально. Теперь знакомимся с практическим примером.
@people_analytics
#LLM #БЯМ #AI #R #people_analytics #отзывы_сотрудников
Teletype
Классифицируем отзывы сотрудников о работодателе с помощью R, rollama и Ollama
Анализ отзывов сотрудников помогает HR-менеджерам выявлять ключевые проблемы в компании, оценивать уровень удовлетворенности персонала...
Что ни говори, а инфраструктура под недружественные интеллекты очень дружественная, и для тех, кому машина нужна не под капотом возиться, а ехать, Хадли делает классные продукты.
Его
Записывайте: перечислить файлы, придумать тип данных для выхода, запустить чат. На выходе таблица: в одном столбце текст, в другом — перевод.
В промышленных масштабах пока не пробовала.
Его
{ellmer}
позволяет без особых усилий извлекать структурированные данные из изображений. Что это такое — решайте сами; в моем случае — распознанный текст и перевод. OpenAI: распознавание на 5, перевод на русский на 3+.Записывайте: перечислить файлы, придумать тип данных для выхода, запустить чат. На выходе таблица: в одном столбце текст, в другом — перевод.
library(ellmer)
library(tidyverse)
# придумываем, какие нужны столбцы
type_text <- type_object(
"Latin text and Russian translation of the text. Occasionally, you might see some Ancient Greek.",
text = type_string("Latin text"),
translation = type_string("Russian translation")
)
# список изображений
my_images <- list.files(pattern = "png")
# рабочая функция для purrr
process_image <- function(image_path) {
response <- chat$extract_data(
content_image_file(image_path),
type = type_text
)
return(response)
}
# еще спроси, а где здесь вожжи
all_responses <- map_dfr(my_images, process_image)
В промышленных масштабах пока не пробовала.
RAntiquity
Сегодня пришли результаты студенческой оценки преподавания (СОП), из которых следует, что с первым своим курсом по программированию на R я вроде бы справилась. Спасибо, дорогие студенты, за ваши отзывы. Я их все прочитала, а некоторые даже по два раза 🧡
Недавно пришли отзывы студентов на первую часть курса “Компьютерный анализ текста” #tar2024 , общая оценка 4.93 из 5, мой личный рекорд.
Очень приятно, что курс приносит удовлетворение не только мне — и, конечно, такие отзывы вдохновляют и заставляют стремиться к большему.
На облаке слов — основные биграмы из отзывов. Спасибо 🤗
Очень приятно, что курс приносит удовлетворение не только мне — и, конечно, такие отзывы вдохновляют и заставляют стремиться к большему.
На облаке слов — основные биграмы из отзывов. Спасибо 🤗
Латинский гиперкуб — обобщение латинского квадрата Эйлера на произвольное число измерений. Используется для поиска оптимальных параметров в МО. А латинским называется потому, что Эйлер (про которого недавно писал дружественный канал) использовал латинские буквы. Пакет {dials} версии 1.3.0 отказался от такого названия функции, а жаль. Так в нашей жизни стало еще меньше латыни.
Вообще в МО есть множество _просто красивых_ вещей, прекрасных самих по себе, а не ради пресловутого скоринга.
Вообще в МО есть множество _просто красивых_ вещей, прекрасных самих по себе, а не ради пресловутого скоринга.
В копилку инструментов и методов цифровой истории философии: https://www.group-telegram.com/Philosophytoday/15267 Снова сети. Эyхенио Петрович, один их хедлайнеров проекта, благодаря @curiousonya уже некоторое время в поле моего зрения, в 2022 г. у него была любопытная статья о сетях благодарностей, о которой см. https://www.group-telegram.com/curiousonya/217 А вот ссылка на сам проект: https://edhiphy.org/network Очень милое онлайн-приложение. Молодцы, чо.
Telegram
PhilosophyToday
Библиометрия за пределами цитирования: индекс упоминаний
Современные практики цитирования появились относительно недавно, из-за чего научные базы данных сталкиваются с проблемой неполноты учтенных ссылок: например, WoS гарантирует достоверность ссылок…
Современные практики цитирования появились относительно недавно, из-за чего научные базы данных сталкиваются с проблемой неполноты учтенных ссылок: например, WoS гарантирует достоверность ссылок…
RAntiquity
В копилку инструментов и методов цифровой истории философии: https://www.group-telegram.com/Philosophytoday/15267 Снова сети. Эyхенио Петрович, один их хедлайнеров проекта, благодаря @curiousonya уже некоторое время в поле моего зрения, в 2022 г. у него была любопытная статья…
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, знаешь человека давно, уже и Цицерона вместе читали, и Цезаря, и Лукреция, и даже немного Августина — и тут выясняется, что этот человек опубликовал огненный лонгрид на “Системном блоке” про цифровые просопографии и графовые модели в изучении античности. https://www.group-telegram.com/antibarbari/3006
Тут и методология исторической науки, и реляционные БД, и несколько фирменных шуток от @patroclusisnotdead Просто именины сердца, Ксюша, поздравляю!
Тут и методология исторической науки, и реляционные БД, и несколько фирменных шуток от @patroclusisnotdead Просто именины сердца, Ксюша, поздравляю!
Telegram
Antibarbari HSE
🖥 Жизнь и связи древних римлян: о чем могут рассказать просопографические базы данных?
Наш постоянный автор, а также руководитель и участник семинаров Ксения Дмитриева @patroclusisnotdead рассказала в “Системном Блоке” о том, как используются цифровые базы…
Наш постоянный автор, а также руководитель и участник семинаров Ксения Дмитриева @patroclusisnotdead рассказала в “Системном Блоке” о том, как используются цифровые базы…
RAntiquity
GIF
Студенты прислали валентинку, сделанную в
{ggplot}
. А вот и источник! Невероятно трогательно, спасибо 🥰🥰🥰Как объяснить герменевтический круг аналитику данных
Герменевтический круг — это философская концепция, описывающая процесс понимания текста, явления или смысла, при котором целое интерпретируется через его части, а части – через целое. Это означает, что понимание любого отдельного элемента требует понимания контекста, а сам контекст, в свою очередь, формируется через понимание отдельных элементов.
Как правило, приступая к чтению текста, мы имеем очень отдаленное представление о «целом», и из этого несовершенного представления сооружаем такое же несовершенное понимание «частей», которое, однако, позволяет немного уточнить исходное «целое», а от него опять вернуться к «частям». Так мы двигаемся туда-сюда (или по кругу) очень долго, пока, наконец, все или почти все не складывается как надо.
Как понять, что это произошло? По-моему, так: каждая новая итерация уже не производит значительных смысловых сдвигов, плюснеземной свет.
А похоже это на алгоритм кластеризации. Сначала каждому наблюдению присваивается случайно выбранное число из интервала от 1 до K (число кластеров). Это исходные метки. Дальше вычисляется центроид для каждого из кластеров (это мы вернулись к «целому»). Центроид k-го класса – вектор из p средних значений признаков, описывающих наблюдения из этого кластера. Идем обратно к «частям»: каждому наблюдению присваивается метка того кластера, чей центроид находится ближе всего к этому наблюдению. Повторяем шаги 2-3 до тех пор, пока метки классов не перестанут изменяться.
А еще это похоже на градиентный спуск и постепенную минимизацию функции потерь, но эту метафору вы разверните сами. Правда, в искусстве интерпретации «алгоритму» бывает трудно остановиться, так что весь Google Scholar переполнен публикациями, которые уводят вас все дальше от наилучшего прочтения.
Осталось найти аналитика данных, которому это интересно.
Герменевтический круг — это философская концепция, описывающая процесс понимания текста, явления или смысла, при котором целое интерпретируется через его части, а части – через целое. Это означает, что понимание любого отдельного элемента требует понимания контекста, а сам контекст, в свою очередь, формируется через понимание отдельных элементов.
Как правило, приступая к чтению текста, мы имеем очень отдаленное представление о «целом», и из этого несовершенного представления сооружаем такое же несовершенное понимание «частей», которое, однако, позволяет немного уточнить исходное «целое», а от него опять вернуться к «частям». Так мы двигаемся туда-сюда (или по кругу) очень долго, пока, наконец, все или почти все не складывается как надо.
Как понять, что это произошло? По-моему, так: каждая новая итерация уже не производит значительных смысловых сдвигов, плюс
А похоже это на алгоритм кластеризации. Сначала каждому наблюдению присваивается случайно выбранное число из интервала от 1 до K (число кластеров). Это исходные метки. Дальше вычисляется центроид для каждого из кластеров (это мы вернулись к «целому»). Центроид k-го класса – вектор из p средних значений признаков, описывающих наблюдения из этого кластера. Идем обратно к «частям»: каждому наблюдению присваивается метка того кластера, чей центроид находится ближе всего к этому наблюдению. Повторяем шаги 2-3 до тех пор, пока метки классов не перестанут изменяться.
А еще это похоже на градиентный спуск и постепенную минимизацию функции потерь, но эту метафору вы разверните сами. Правда, в искусстве интерпретации «алгоритму» бывает трудно остановиться, так что весь Google Scholar переполнен публикациями, которые уводят вас все дальше от наилучшего прочтения.
Осталось найти аналитика данных, которому это интересно.
Ютуб все понял про редактора этого канала и порекомендовал видео: НИЧЕГО НЕ ДАНО А НАДО. Красивая, кстати, задача, но лучше всего в ней название. Эпиграф к книге жизни.
YouTube
Задача, в которой ничего не дано, а надо найти угол
Телеграм "Этому не учат в школе" — https://www.group-telegram.com/yellow_school
Найди угол альфа, если прямая a параллельна прямой b, а остальные данные отмечены на рисунке.
Найди угол альфа, если прямая a параллельна прямой b, а остальные данные отмечены на рисунке.
Между тем, февральское обновление в пакете
{ellmer}
: появились долгожданные функции content_pdf_file()
and content_pdf_url()
. Правда, пока их поддерживают не все модели, только Gemini & Claude. Будем ждать развития событий!ellmer.tidyverse.org
Changelog
Forwarded from Гуманитарии в цифре
Весна все ближе: и мы готовимся к путешествию в «Лес за деревьями…» с уже знакомой постоянным участникам онлайн-семинара «Цифровая среда» Ольгой Алиевой.
Кандидат филологических наук, доцент Школы философии и культурологии Факультета гуманитарных наук НИУ ВШЭ, автор телеграм-канала RAntiquity («Об античности на языке R и не только») Ольга Валерьевна Алиева расскажет в своем докладе об особенностях методов консенсусных деревьев и сетей, их реализациях в программной среде R и результатах применения к анализу платоновского корпуса.
🔜 Присоединяйтесь к семинару в следующую среду.
Дата: 5 марта
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь здесь ←
#цифроваясреда #смотреть #слушать #платоноведение #языкR
Кандидат филологических наук, доцент Школы философии и культурологии Факультета гуманитарных наук НИУ ВШЭ, автор телеграм-канала RAntiquity («Об античности на языке R и не только») Ольга Валерьевна Алиева расскажет в своем докладе об особенностях методов консенсусных деревьев и сетей, их реализациях в программной среде R и результатах применения к анализу платоновского корпуса.
Дата: 5 марта
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь здесь ←
#цифроваясреда #смотреть #слушать #платоноведение #языкR
Please open Telegram to view this post
VIEW IN TELEGRAM
RAntiquity
Весна все ближе: и мы готовимся к путешествию в «Лес за деревьями…» с уже знакомой постоянным участникам онлайн-семинара «Цифровая среда» Ольгой Алиевой. Кандидат филологических наук, доцент Школы философии и культурологии Факультета гуманитарных наук НИУ…
одна алиева весны не делает, но надо же с чего-то начинать 😅