Forwarded from Boris Orekhov
Всем привет!
В пятницу, 16 августа в 14:00 (по МСК) встретимся в прямом эфире Moscow Python Podcast с Борисом Ореховым, кандидатом филологических наук и доцентом факультета гуманитарных наук НИУ ВШЭ. В выпуске мы обсудим:
🟡 в чём особенности обучения программированию гуманитариев;
🟡 что общего между естественным языком и языком программирования;
🟡 какие библиотеки востребованы у гуманитариев;
🟡 зачем кандидату филологических наук изучать программирование.
➡️ Когда: 16 августа в 14:00 по Москве.
➡️ Где: онлайн и в записи по ссылке.
В пятницу, 16 августа в 14:00 (по МСК) встретимся в прямом эфире Moscow Python Podcast с Борисом Ореховым, кандидатом филологических наук и доцентом факультета гуманитарных наук НИУ ВШЭ. В выпуске мы обсудим:
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Зачем гуманитариям изучать Python?
Спонсор подкаста: Learn Python Advanced — курсы по Python-разработке для тех, кто уже знаком с веб-разработкой — https://learn.python.ru/advanced
Ведущие – Григорий Петров и Михаил Корнеев
Ссылки выпуска:
Курс Learn Python — https://learn.python.ru/advanced…
Ведущие – Григорий Петров и Михаил Корнеев
Ссылки выпуска:
Курс Learn Python — https://learn.python.ru/advanced…
RAntiquity
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated. 1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится…
История с распределением слов в гекзаметре получила продолжение: https://www.group-telegram.com/antibarbari/2509
Будет развитие, ждем #гомер
Будет развитие, ждем #гомер
Telegram
Antibarbari HSE
Есть ли разница между гекзаметром, предназначенным для устного исполнения, и гекзаметром, предназначенным для чтения?
Подсчеты показали: при метрической и тематической схожести «Илиады» Гомера и «Аргонавтики» Аполлония Родосского в поэме Гомера на один стих…
Подсчеты показали: при метрической и тематической схожести «Илиады» Гомера и «Аргонавтики» Аполлония Родосского в поэме Гомера на один стих…
Недавно @aGricolaMZ обратил мое внимание на то, что в пакете
Пока разработчик пакета не собирается обновлять модели и предлагает их доучивать самостоятельно. Для этого у него есть даже очень подробная инструкция.
В общем, я забрала из репозитория Perseus свеженький трибанк и обучила модель, ее можно скачать в формате udpipe вот здесь. На это ушло примерно 8 часов. Точность на картинке; это далеко от идеала, но (по итогам ручного сравнения выборки в 100 слов) в большинстве случае лучше, чем perseus 2.5.
Но самое интересное там оказалось внутри…⬇️
udpipe
модели устаревшие: например, для латыни это Perseus 2.5, хотя трибанки доступны уже 2.12 и 2.13. Пока разработчик пакета не собирается обновлять модели и предлагает их доучивать самостоятельно. Для этого у него есть даже очень подробная инструкция.
В общем, я забрала из репозитория Perseus свеженький трибанк и обучила модель, ее можно скачать в формате udpipe вот здесь. На это ушло примерно 8 часов. Точность на картинке; это далеко от идеала, но (по итогам ручного сравнения выборки в 100 слов) в большинстве случае лучше, чем perseus 2.5.
Но самое интересное там оказалось внутри…
Please open Telegram to view this post
VIEW IN TELEGRAM
(Продолжение о латинском парсере⬆️ )
Вот некоторые изменения:
- появилась метка dep_rel для ablativus absolutus (
- исправлены аннотации для супина (
- добавлен тип для местоимения (
Возможность различать указательные и относительные местоимения — это очень круто (несмотря на ошибки).
Но герундив и герундий новая модель не различает и даже не пытается. Это не баг, как говорится, а фича. В статье по ссылке выше для этого дается развернутое обоснование, из которого следует, что герундий — это вариант герундива, а последний рассматривается как причастие будущего времени пассивного залога. В общем, нау иц офишал: нет таких форм.
Так что задумайтесь, прежде чем ставить двойки студентам, которые так и не научились различать два “ерундива”🤷♀️
Вот некоторые изменения:
- появилась метка dep_rel для ablativus absolutus (
advcl:abs
);- исправлены аннотации для супина (
VerbForm=Conv, Aspect=Prosp
), а также герундия и герундива (VerbForm=Part, Aspect=Prosp
);- добавлен тип для местоимения (
PronType
) и вид для глагола (Aspect
) и др. Возможность различать указательные и относительные местоимения — это очень круто (несмотря на ошибки).
Но герундив и герундий новая модель не различает и даже не пытается. Это не баг, как говорится, а фича. В статье по ссылке выше для этого дается развернутое обоснование, из которого следует, что герундий — это вариант герундива, а последний рассматривается как причастие будущего времени пассивного залога. В общем, нау иц офишал: нет таких форм.
Так что задумайтесь, прежде чем ставить двойки студентам, которые так и не научились различать два “ерундива”
Please open Telegram to view this post
VIEW IN TELEGRAM
RAntiquity
Недавно @aGricolaMZ обратил мое внимание на то, что в пакете udpipe модели устаревшие: например, для латыни это Perseus 2.5, хотя трибанки доступны уже 2.12 и 2.13. Пока разработчик пакета не собирается обновлять модели и предлагает их доучивать самостоятельно.…
В общем, Perseus 2.13 при ближайшем рассмотрении оказался не так хорош. Так что учу вот эту малышку, пожелайте удачи. Неделю я возилась с конфликтами версий, нехваткой ума памяти -- и вот, кажется, дело пошло! До первой ошибки 😂
Очень хочется хороший латинский парсер. А так как с облаком не сложилось, буду без компьютера несколько дней (или недель).
А потом вернусь жаловаться, что все сломалось🐈
Очень хочется хороший латинский парсер. А так как с облаком не сложилось, буду без компьютера несколько дней (или недель).
А потом вернусь жаловаться, что все сломалось
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ufal/evalatin2024-latinpipe: LatinPipe – the winning entry to parsing task of EvaLatin 2024
LatinPipe – the winning entry to parsing task of EvaLatin 2024 - ufal/evalatin2024-latinpipe
RAntiquity
В общем, Perseus 2.13 при ближайшем рассмотрении оказался не так хорош. Так что учу вот эту малышку, пожелайте удачи. Неделю я возилась с конфликтами версий, нехваткой ума памяти -- и вот, кажется, дело пошло! До первой ошибки 😂 Очень хочется хороший…
1. Модель LatinPipe у меня дообучилась. В итоге пришлось заплатить Яндексу за GPU, примерно два дня я разбиралась в DataShere и осваивала Jupyter Lab, а потом за 8 часов все посчиталось. В целом оно того стоит (стоит недешево, кстати, но спасает родное железо).
2. На входе модель, как выяснилось, хочет готовый conllu, поэтому о воркфлоу я еще подумаю. Но по моим ощущениям результат намного лучше, чем дают и предобученные, и самостоятельно обученные модели udpipe.
…Что неудивительно: чехи построили очень сложную архитектуру из нескольких нейросетей, которые обучаются сразу на десятке латинских трибанков. То есть за 8 часов эта крошка выучила всю латынь, включая Данте и Фому.
Это какая-то, знаете, фантастика. Подробный отчет будет, но позже, мне надо прийти в себя от этих чудес техники и наконец выспаться.
2. На входе модель, как выяснилось, хочет готовый conllu, поэтому о воркфлоу я еще подумаю. Но по моим ощущениям результат намного лучше, чем дают и предобученные, и самостоятельно обученные модели udpipe.
…Что неудивительно: чехи построили очень сложную архитектуру из нескольких нейросетей, которые обучаются сразу на десятке латинских трибанков. То есть за 8 часов эта крошка выучила всю латынь, включая Данте и Фому.
Это какая-то, знаете, фантастика. Подробный отчет будет, но позже, мне надо прийти в себя от этих чудес техники и наконец выспаться.
GitHub
GitHub - ufal/evalatin2024-latinpipe: LatinPipe – the winning entry to parsing task of EvaLatin 2024
LatinPipe – the winning entry to parsing task of EvaLatin 2024 - ufal/evalatin2024-latinpipe
RAntiquity
1. Модель LatinPipe у меня дообучилась. В итоге пришлось заплатить Яндексу за GPU, примерно два дня я разбиралась в DataShere и осваивала Jupyter Lab, а потом за 8 часов все посчиталось. В целом оно того стоит (стоит недешево, кстати, но спасает родное железо).…
Please open Telegram to view this post
VIEW IN TELEGRAM
Я пока мечтательно придумываю вопросы, которые ей можно задать (и, конечно, не задам, потому что самой лень этим заниматься):
1) Как часто антецендент относительного местоимения повторяется в придаточном (и зачем)? (ок, ну это я уже посчитала из любопытства)
2) А есть ли связь между доминирующим топиком фрагмента и, например, асиндетонами (у Цезаря, например, часто в описании военных действий для выражения стремительности)?
3) Сложность синтаксиса (число зависимых клауз) как стилистическая характеристика чего- или кого-нибудь.
4) Ну и классика, конечно: герундий с дополнением или герундивная конструкция (в диахронном, само собой, аспекте)?
5) Винительный падеж при отглагольных существительных в классической прозе (domum reditio и т.п.)
6) Инверсия в употреблении местоимений (и вообще любая инверсия)…
В общем, мне кажется, это хороший инструмент и для лингвистических, и для филологических исследований. Главное знать немножко латыни и немножно программировать — а научное воображение нам никакие LLM не заменят.
1) Как часто антецендент относительного местоимения повторяется в придаточном (и зачем)? (ок, ну это я уже посчитала из любопытства)
2) А есть ли связь между доминирующим топиком фрагмента и, например, асиндетонами (у Цезаря, например, часто в описании военных действий для выражения стремительности)?
3) Сложность синтаксиса (число зависимых клауз) как стилистическая характеристика чего- или кого-нибудь.
4) Ну и классика, конечно: герундий с дополнением или герундивная конструкция (в диахронном, само собой, аспекте)?
5) Винительный падеж при отглагольных существительных в классической прозе (domum reditio и т.п.)
6) Инверсия в употреблении местоимений (и вообще любая инверсия)…
В общем, мне кажется, это хороший инструмент и для лингвистических, и для филологических исследований. Главное знать немножко латыни и немножно программировать — а научное воображение нам никакие LLM не заменят.
Forwarded from ФГН НИУ ВШЭ
Зачем гуманитариям уметь анализировать данные? 🤔
Чёткого ответа на этот вопрос у нас нет, но мы точно знаем где его найти — на новом онлайн-курсе доцента Школы лингвистики ФГН Георгия Мороза.
Курс «Введение в анализ данных на R для гуманитарных и социальных наук» доступен на платформе «Открытое образование». В нём Георгий учит использовать язык программирования R для анализа и визуализации данных.
Узнать больше о деталях курса, для кого он предназначен и какие необычные задания ждут студентов, вы можете по ссылке.
Чёткого ответа на этот вопрос у нас нет, но мы точно знаем где его найти — на новом онлайн-курсе доцента Школы лингвистики ФГН Георгия Мороза.
Курс «Введение в анализ данных на R для гуманитарных и социальных наук» доступен на платформе «Открытое образование». В нём Георгий учит использовать язык программирования R для анализа и визуализации данных.
Узнать больше о деталях курса, для кого он предназначен и какие необычные задания ждут студентов, вы можете по ссылке.
RAntiquity
Зачем гуманитариям уметь анализировать данные? 🤔 Чёткого ответа на этот вопрос у нас нет, но мы точно знаем где его найти — на новом онлайн-курсе доцента Школы лингвистики ФГН Георгия Мороза. Курс «Введение в анализ данных на R для гуманитарных и социальных…
Четкого ответа все еще нет 😪 сколько можно это терпеть то
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда очень долго сидишь за компьютером, а потом слышишь вопрос:
— Ты будешь чай или кофе?
…то совершенно естественно отвечаешь:
— Я буду чай ИЛИ кофе.
Правда, есть риск услышать в ответ:
— Опять булева логика? Вот только не надо меня _булить_☕️
— Ты будешь чай или кофе?
…то совершенно естественно отвечаешь:
— Я буду чай ИЛИ кофе.
Правда, есть риск услышать в ответ:
— Опять булева логика? Вот только не надо меня _булить_
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Я тут завела плейлист с занятиями по R у магистров, пока там первые две записи, это четыре пары. Так что желающие могут идти вместе с нами: https://vk.com/video/playlist/91786643_1
Курс, с одной стороны, опирается на то, что я делала в прошлом году, но за лето я существенно переработала первые 16 уроков и сейчас работаю над тем, чтобы добавить к ним еще 16 новых; обновленный handbook по ссылке, но надо иметь в виду, что это пока work очень сильно in progress. https://locusclassicus.github.io/text_analysis_2024/
обновления по тегу #tar2024
Курс, с одной стороны, опирается на то, что я делала в прошлом году, но за лето я существенно переработала первые 16 уроков и сейчас работаю над тем, чтобы добавить к ним еще 16 новых; обновленный handbook по ссылке, но надо иметь в виду, что это пока work очень сильно in progress. https://locusclassicus.github.io/text_analysis_2024/
обновления по тегу #tar2024
locusclassicus.github.io
Компьютерный анализ текста