Свежая (2024) года статья, сравнивающая обычный и LLM машинный перевод для латинского (!) языка. Авторы заключают, что GPT-4 достиг впечатляющих успехов в латинистике (метрики на первом скрине).
По моим впечатлениям, так и есть — ему уже вполне можно доверять несложные (а то и сложные) задачи и переводы.
Проблема пока в том, как это вписать в рабочий воркфлоу. Недавно экспериментировала с пакетом {tidyllm} — удобнейшая вещь, но есть одно но. Все прилично говорящие по-латыни модели требуют деняк. И впн, конечно, но больше всего — деняк.
Опенсурсная Llama — для которой тоже есть пакет {ollamar}, но можно и через {tidyllm}, разницы никакой — похожа на студента-первокурсника: не признается, что не знает латыни, но лепит чепуху (на втором скрине)
общий вывод такой, что быть гуманистом и здесь тоже оказывается дорого
p.s. и да, я знаю про чатбот, я изучала, есть ли возможность обойтись безлишних движений копипасты
#llm #латынь
По моим впечатлениям, так и есть — ему уже вполне можно доверять несложные (а то и сложные) задачи и переводы.
Проблема пока в том, как это вписать в рабочий воркфлоу. Недавно экспериментировала с пакетом {tidyllm} — удобнейшая вещь, но есть одно но. Все прилично говорящие по-латыни модели требуют деняк. И впн, конечно, но больше всего — деняк.
Опенсурсная Llama — для которой тоже есть пакет {ollamar}, но можно и через {tidyllm}, разницы никакой — похожа на студента-первокурсника: не признается, что не знает латыни, но лепит чепуху (на втором скрине)
общий вывод такой, что быть гуманистом и здесь тоже оказывается дорого
p.s. и да, я знаю про чатбот, я изучала, есть ли возможность обойтись без
#llm #латынь
зафиксирую итоги рисерча, чтобы не растерять ссылки
По совету Светы Яцык @voxmediiaevi попробовала китайскую DeepSeek и прямо-таки влюбилась.
Начала с чата, он доступен после регистрации бесплатно онлайн: https://www.deepseek.com/ Выяснилось, что машинка весьма неплохо знает латынь и может нагенерить упражнений к заданному латинскому тексту, оформив их в markdown (см. скрин).
Ок, quod во втором предложении — союз, а не относительное местоимение, но, во-первых, союз происходит от местоимения, а, во-вторых, можно попробовать докрутить промпт.
V3 доступна через API по подписке (дешевле аналогов, как они уверяют). Пакет {tidyllm} китайцев не поддерживает, но можно немного схитрить и самостоятельно перевести пример их curl-запроса на язык R. Для этого есть, оказывается, гениальный translator: https://curlconverter.com/r-httr2/ и не менее удобный {httr2}
Теоретически V2.5 можно поставить локально и пользоваться через {ollamar}, но практически это 133 Гб, на кривой козе не подъедешь, надо учиться разворачивать, а у меня лапки: https://ollama.com/library/deepseek-v2.5
А еще параллельно выяснилось (все наверняка знали, но я только сейчас догнала), что Хадли наш бесценный Викхем написал еще один пакет для работы с LLM: https://ellmer.tidyverse.org/
DeepSeek он не поддерживает, но поддерживает кучу других, а еще на странице пакета очень подробные статьи о том, как обрабатывать тексты и распознавать изображения с помощью этой штуковины, как правильно писать запросы,чтобы не разориться и многое другое.
Но пока с меня хватит, вернусь к этому чуть позже #llm #api
По совету Светы Яцык @voxmediiaevi попробовала китайскую DeepSeek и прямо-таки влюбилась.
Начала с чата, он доступен после регистрации бесплатно онлайн: https://www.deepseek.com/ Выяснилось, что машинка весьма неплохо знает латынь и может нагенерить упражнений к заданному латинскому тексту, оформив их в markdown (см. скрин).
Ок, quod во втором предложении — союз, а не относительное местоимение, но, во-первых, союз происходит от местоимения, а, во-вторых, можно попробовать докрутить промпт.
V3 доступна через API по подписке (дешевле аналогов, как они уверяют). Пакет {tidyllm} китайцев не поддерживает, но можно немного схитрить и самостоятельно перевести пример их curl-запроса на язык R. Для этого есть, оказывается, гениальный translator: https://curlconverter.com/r-httr2/ и не менее удобный {httr2}
Теоретически V2.5 можно поставить локально и пользоваться через {ollamar}, но практически это 133 Гб, на кривой козе не подъедешь, надо учиться разворачивать
А еще параллельно выяснилось (все наверняка знали, но я только сейчас догнала), что Хадли наш бесценный Викхем написал еще один пакет для работы с LLM: https://ellmer.tidyverse.org/
DeepSeek он не поддерживает, но поддерживает кучу других, а еще на странице пакета очень подробные статьи о том, как обрабатывать тексты и распознавать изображения с помощью этой штуковины, как правильно писать запросы,
Но пока с меня хватит, вернусь к этому чуть позже #llm #api
Сегодня доработала и отправила в журнал рецензию на одну книгу о Платоне, которую медленно читала все праздники, чтобы не впасть в майонезную кому. Рецензия, как и книга, не имеет никакого отношения к цифре: речь идет о некоторых emerging trends в платоноведении.
Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.
Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) ипринялась варить кашу попросила GPT каждую из них резюмировать. Несмотря на путаную структуру книги и местами темную аргументацию, перемежающуюся длинными греческими цитатами, модель в целом для каждой главы корректно установила, о чем она, и перечислила основные выводы.
Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.
Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).
Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.
Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.
Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.
Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.
Но, разумеется, после всех экспериментов с LLM мне стало интересно, может ли чат GPT помочь в написании рецензии. Вспомнив про эксперименты Ньютона с втыканием булавки в собственный глаз, для начала попросила модель резюмировать несколько своих статей. Результат показался внятным: тонкости аргументации потерялись, но общий смысл был сохранен. Это обнадеживало: модель вполне можно использовать, чтобы понять, о чем текст, а это уже очень близко к цели.
Как оставленные без присмотра герои Носова, я разрезала на главы пиратский pdf (ограничения по моей подписке — 100 000 знаков) и
Но ни одной строчки этого внятного пересказа я в итоге не использовала. Почему? Рецензия — это не реферат (хотя и полноценный реферат — это не пересказ). Это гораздо более сложный жанр, или даже констелляция жанров, о которой коллеги in times of yore сделали целую книгу. Среди рецензий встречаются своего рода пересказы, и, хотя ценность подобных сочинений никогда не была особенно велика, они были и пока остаются востребованы в условиях перепроизводства публикаций.
Легкость получения такого пересказа при помощи GPT совершенно его обесценивает. Нельзя сказать, чтобы это было совсем бесполезно: полезно, например, сравнивать свой читательский опыт с тем, что тебе вернула машина. Это позволяет лишний раз подумать, правильно ли ты расставил акценты и все ли понял (не такая заурядная задача, хотя ей часто пренебрегают студенты, спеша сказать новое слово в науке).
Но в итоге в рецензию я постаралась включить только то, что модель никак не могла описать, а это две вещи.
Во-первых, теоретический и методологический контекст. Какое место занимает книга Х в научном поле, какие влияния она испытала и как сама может повлиять на других? Модель не представляет себе контекст. Она в каком-то смысле «начитана», но она не видит границ между дисциплинарными парадигмами, для нее все подходы равны и все ходы мысли по-своему приемлемы. «Читая» книгу, она может контекстуализировать ее лишь настолько, насколько это делает сам автор, например, во введении. Условно говоря, если ты просишь ее приготовить ужин из того, что есть в холодильнике, она не «вспомнит», что за шкафом есть банка крупы. А в гуманитарных науках очень важна способность к метаописанию или, проще говоря, самопознанию: мы это понимаем так, но это можно понимать и иначе. Хороший гуманитарий — не тот, кто хорошо играет по заданным правилам, но тот, кто понимает историческую контингентность этих правил.
Во-вторых, модель, как курос Парменида, не может познать небытие. Она не сможет пересказать то, что не сказано прямо. Речь идет не только о неизбежных упущениях (хотя это тоже важно: например, почему не процитированы релевантные работы или не поставлены очевидные вопросы). Речь идет в большей степени о том, что не принято говорить прямо — потому ли, что это знание считается общепринятым; потому ли, что сам автор не задумывался об основаниях, на которых держится вся его конструкция; потому ли, что контекст по определению исключен из текста. Условия, делающие возможным высказывание, сами остаются за его пределами.
Из этого делаю два предварительных вывода: как редактор — не соглашаться на пересказы; как автор — не опускаться до пересказов. А как быть? Учиться писать приличные рецензии.
Спасибо коллегам за такой обзор. Про прокурора это, конечно, преувеличение 😅 Просто логика диалектической беседы требует додумывать любой тезис до конца, причем in utramque partem. Сначала в одну сторону, потом в другую.
Я не технофоб, не технофил и уж точно не техновизионер (этого и без меня хватает). Но мне нравится осмысленность.
Вот, например, Платон. Незадолго до его рождения Греция начала становиться грамотной: впервые в истории человечества не просто появилось фонетическое письмо, но и система грамматических школ, плюс доступный папирус из египетских колоний.
Все знание можно записать! - говорили одни. И продать! - говорили другие. Спокойно, - сказал Платон. — Пишите, кому что надо, законы там, учебники, стихи, — но не надо называть это знанием.
И на этом спокойствии мы протянули 25 веков, протянем и еще немного.
Я не технофоб, не технофил и уж точно не техновизионер (этого и без меня хватает). Но мне нравится осмысленность.
Вот, например, Платон. Незадолго до его рождения Греция начала становиться грамотной: впервые в истории человечества не просто появилось фонетическое письмо, но и система грамматических школ, плюс доступный папирус из египетских колоний.
Все знание можно записать! - говорили одни. И продать! - говорили другие. Спокойно, - сказал Платон. — Пишите, кому что надо, законы там, учебники, стихи, — но не надо называть это знанием.
И на этом спокойствии мы протянули 25 веков, протянем и еще немного.
Telegram
Историко-философский ежедневник
Далее в Ежегоднике следует небольшой методологический блок, открывающийся статьей Ольги Валерьевны Алиевой, проблематизирующей вопрос о возможности цифровых методов в истории философии. Договариваясь с Ольгой Валерьевной об этой статье, мы, признаться, думали…
RAntiquity
Но король плагинов и безусловный фаворит — это, друзья, плагин confetti. Я теперь его везде буду добавлять, чтобы жить веселее. Вот, кстати, первый опыт, та самая презентация для школьников: на любом слайде нажмите букву
c
и поделитесь ощущениями 🎊GitHub
GitHub - ArthurData/quarto-confetti: Send some 🎊
Send some 🎊. Contribute to ArthurData/quarto-confetti development by creating an account on GitHub.
Forwarded from Гуманитарии в цифре
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
22 января состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.
Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».
Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь
#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
Скимминг с {tidyllm}
…на случай, когда тг-бот капризничает
Источник. #llm
…на случай, когда тг-бот капризничает
library(tidyllm)
Sys.setenv(OPENAI_API_KEY = "sk-00000000")
conversation <- llm_message("Please summarize the key points from the provided PDF document.",
.pdf = "my.pdf") |>
chat(openai(.model = "gpt-4o"))
conversation |> get_reply(1) |> cat()
Источник. #llm
Forwarded from Vox medii aevi
Нишевый контент: многие занятия по digital humanities церемониально начинаются с упоминания Роберто Бузы, иезуита, который в 1949 году начал работать над Index Thomisticus. Иногда показывают его улыбающуюся фотографию в старости, ту, что привязана к википедии. А я сегодня набрела на посвященный ему тамблер, а там посмотрите, какой он прекрасный и юный. Сличает с распечаткой факсимиле свитков Мертвого моря.
RAntiquity
Неожиданно мой икеевский торшер настигла слава: лекция Алексея Вдовина для нашего курса “Критическое введение в DH” (2024) попала на БП в рубрику “Ученые по субботам”. https://www.group-telegram.com/prbezposhady/25875 Девочки, спасибо, продакшн старался.
Хотела написать сегодня скучный пост про неравенство треугольника и его роль в мировой стилометрии, но по случаю прихода новых подписчиков немного повангую. Геометрия никому не интересна, а футурология интересна всем.
Вот уже некоторое время я думаю об построении такого воркфлоу в R, который позволил бы филологу решать задачи от распознавания текста до его анализа, разметки и публикации с использованием LLM. Чтобы на входе, например, картинка, а на выходе — html.
Многие детали пока не ясны, но уже сейчас очевидно, что задача это вполне выполнимая, причем ее выполнение требует все меньше специальных навыков. У меня где-то лежит учебник по МО с объяснением, как использовать опорные векторы для оптического распознавания символов, но понятно, что сегодня никто не будет мучиться с SVM для решения такой задачи (рукописи — отдельная тема, но я ей и не занимаюсь). Основное ограничение пока — деньги, VPN, санкции и т.п. Но вот китайцы уже взялись за дело, так что, думаю, эти ограничения не навсегда.
Что тогда? Курсы программирования для гуманитариев выйдут из моды быстрее, чем туфли системы Мэри Джейн (это касается и моего курса, да), вернется спрос на людей, которые понимают, что со всем этим распознанным богатством делать. И тут нам главное не повторить судьбу икеевской акулы — всем внезапно стало надо, спекулянты ломят ценник, авито забит подделками, а оригинальный продукт всё, снят с производства.
Поэтому, не дожидаясь будущего, предлагаю немедленно переходить к изучению греческого и латыни🦈
Вот уже некоторое время я думаю об построении такого воркфлоу в R, который позволил бы филологу решать задачи от распознавания текста до его анализа, разметки и публикации с использованием LLM. Чтобы на входе, например, картинка, а на выходе — html.
Многие детали пока не ясны, но уже сейчас очевидно, что задача это вполне выполнимая, причем ее выполнение требует все меньше специальных навыков. У меня где-то лежит учебник по МО с объяснением, как использовать опорные векторы для оптического распознавания символов, но понятно, что сегодня никто не будет мучиться с SVM для решения такой задачи (рукописи — отдельная тема, но я ей и не занимаюсь). Основное ограничение пока — деньги, VPN, санкции и т.п. Но вот китайцы уже взялись за дело, так что, думаю, эти ограничения не навсегда.
Что тогда? Курсы программирования для гуманитариев выйдут из моды быстрее, чем туфли системы Мэри Джейн (это касается и моего курса, да), вернется спрос на людей, которые понимают, что со всем этим распознанным богатством делать. И тут нам главное не повторить судьбу икеевской акулы — всем внезапно стало надо, спекулянты ломят ценник, авито забит подделками, а оригинальный продукт всё, снят с производства.
Поэтому, не дожидаясь будущего, предлагаю немедленно переходить к изучению греческого и латыни
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Школа Юного Филолога НИУ ВШЭ | ШЮФ
Дорогие друзья!✨
🏛️ В грядущий понедельник приглашаем вас погрузиться в мир античных текстов на лекции «Вычислить Платона: Что могут сказать количественные методы о подлинности диалогов корпуса?»
📜 От некоторых античных авторов до наших дней сохранились лишь фрагменты, а другим, наоборот, традиция приписывает слишком много произведений. Таков случай Платона, о подлинности некоторых диалогов которого до сих пор идут споры. Зачем кому-то понадобились эти подделки? Как исследователи выявляют подложные тексты и как в этом помогают компьютерные методы?
🗝️ Обо всем этом поговорим 27 января в 18:10 с кандидатом филологических наук, доцентом Школы философии и культурологии НИУ ВШЭ и создателем греко-латинского клуба Antibarbari Ольгой Валерьевной Алиевой.
⬆️ Регистрация по ссылке: https://shkola-yunogo-filologa-vs.timepad.ru/event/3205638/
Please open Telegram to view this post
VIEW IN TELEGRAM
RAntiquity
Дорогие друзья!✨ 🏛️ В грядущий понедельник приглашаем вас погрузиться в мир античных текстов на лекции «Вычислить Платона: Что могут сказать количественные методы о подлинности диалогов корпуса?» 📜 От некоторых античных авторов до наших дней сохранились лишь…
Верный признак того, что ты уже не юный, — тебя начинают приглашать на школы юных.