Дорогие друзья, старые и новые!
С наступившим вас, рад видеть всех в 2025-м! Мы с вами пережили очередной год войн, убийств, тюрем, заложников и катастроф. Но мы живы, мы не скатились во всепожирающий спокойный цинизм, и мы продолжим беспокоиться, бороться, сомневаться и искать.
“Истина существует, и целью науки является её поиск”, завещал нам великий лингвист Андрей Анатольевич Зализняк, к чьей мудрости я прибегал неоднократно в прошедшем году. Будем помнить об этом, будем стоять на плечах гигантов, а сейчас — будем радоваться 🎄🎉
С новым годом! Да исчезнет дьявол и все враги студентов! 🥂
P.S. Для вновь пришедших — пост-знакомство тут
С наступившим вас, рад видеть всех в 2025-м! Мы с вами пережили очередной год войн, убийств, тюрем, заложников и катастроф. Но мы живы, мы не скатились во всепожирающий спокойный цинизм, и мы продолжим беспокоиться, бороться, сомневаться и искать.
“Истина существует, и целью науки является её поиск”, завещал нам великий лингвист Андрей Анатольевич Зализняк, к чьей мудрости я прибегал неоднократно в прошедшем году. Будем помнить об этом, будем стоять на плечах гигантов, а сейчас — будем радоваться 🎄🎉
..we've got to hold on to what we've got
Cause it doesn't make a difference
If we make it or not
We've got each other and that's a lot
For love - well give it a shot
С новым годом! Да исчезнет дьявол и все враги студентов! 🥂
P.S. Для вновь пришедших — пост-знакомство тут
🔥139❤122❤🔥30☃12👍10🎄5🐳2
“Мутные основания”, или как методы корпусной лингвистики снова огорчили серийного доносчика
Продолжаю возиться с текстами Абатурова-Коробковой — продолжают всплывать вкуснейшие улики. Сделал список частотных N-грамм (при N = 4) — обнаружил в топе у Абатурова сочетание “мутные основания для увольнения”, встречается у него 41 раз. Посмотрел, есть ли что-то похожее у Коробковой. Да, есть, дважды встречаются «мутные основания», причем в обоих случаях речь идет об увольнении:
1) Есть такое мутное основание в ТК РФ - аморальный проступок.
2) педагога можно уволить по мутному основанию
Т.е. по факту это тоже “мутные основания для увольнения”, о которых так любит писать Абатуров. Ну ладно, скажете вы, это еще ничего не доказывает. Мало ли кто говорит о мутных основаниях для увольнения. У нас вся страна построена на мутных основаниях… Да, отвечу я! Но теперь посмотрите на ПОЛНЫЙ пример второй цитаты у “Коробковой” (выделение жирным моё):
Предыдущий профессиональный опыт (работы на преподавательской должности) несомненно помогает - именно благодаря ему мне стало известно, что педагога можно уволить по мутному основанию ""аморальный проступок"" (п. 8 ч. 1 ст. 81 ТК РФ). Это очень удобное для доносчика основание, так как раз ни в одном нормативном акте не указано что такое аморальный проступок, то любое странное действие, даже не наказуемое по закону (ведь нигде не написано, что аморальный проступок обязательно противоправен!) со стороны любого работника образования (от воспитателя детского сада до ректора университета) можно объявить аморальным проступком в доносе.
… и сравните с ДРУГОЙ полной цитатой — уже из ВК Абатурова, т.е. от его собственного имени:
В образовании есть еще более мутное основание для увольнения неугодных учителей (и вузовских преподов) - аморальный проступок. Ни критерии аморальности проступка, ни перечня работников, который под него подпадает нет. Зато по этому основанию выкидывают тех педагогов, кто смеет "качать права и хамить" - жаловаться на руководство, отказывается собирать добровольно-обязательные деньги с обучающихся и т.п. Товарищ Лебедев, поддержите инициатьиву о конкретизации аморалки в Трудовом кодексе
Это пост в ВК Абатурова из февраля 2015! Как видите, в обоих случаях говорится о:
а) “мутном основании” для увольнения, причем не кого-то, а именно преподавателей,
б) том, что основание это — “аморальный поступок”,
в) том, что для него нет критериев — т.е. фактически это “резиновое” основание.
У Коробковой к тому же есть указание на личный профессиональный опыт — и тут я напомню, что Абатуров работал преподавателем техникума и имел там сложности (подрался со студентом).
То есть понимаете, да? С 2015 до 2022 Абатуров проделал эволюцию от человека, декларативно боровшегося за права преподавателей и против их увольнения по резиновому поводу “аморальный поступок”, добивавшегося конкретизации законодательства для уменьшения его “резиновости”, — до человека, инструментализировавшего этот же резиновый повод для расправы с жертвами своих доносов 🤦
Воистину персонаж, достойный пера то ли Н.В. Гоголя, то ли Ф.М. Достоевского 🖋
Продолжаю возиться с текстами Абатурова-Коробковой — продолжают всплывать вкуснейшие улики. Сделал список частотных N-грамм (при N = 4) — обнаружил в топе у Абатурова сочетание “мутные основания для увольнения”, встречается у него 41 раз. Посмотрел, есть ли что-то похожее у Коробковой. Да, есть, дважды встречаются «мутные основания», причем в обоих случаях речь идет об увольнении:
1) Есть такое мутное основание в ТК РФ - аморальный проступок.
2) педагога можно уволить по мутному основанию
Т.е. по факту это тоже “мутные основания для увольнения”, о которых так любит писать Абатуров. Ну ладно, скажете вы, это еще ничего не доказывает. Мало ли кто говорит о мутных основаниях для увольнения. У нас вся страна построена на мутных основаниях… Да, отвечу я! Но теперь посмотрите на ПОЛНЫЙ пример второй цитаты у “Коробковой” (выделение жирным моё):
Предыдущий профессиональный опыт (работы на преподавательской должности) несомненно помогает - именно благодаря ему мне стало известно, что педагога можно уволить по мутному основанию ""аморальный проступок"" (п. 8 ч. 1 ст. 81 ТК РФ). Это очень удобное для доносчика основание, так как раз ни в одном нормативном акте не указано что такое аморальный проступок, то любое странное действие, даже не наказуемое по закону (ведь нигде не написано, что аморальный проступок обязательно противоправен!) со стороны любого работника образования (от воспитателя детского сада до ректора университета) можно объявить аморальным проступком в доносе.
… и сравните с ДРУГОЙ полной цитатой — уже из ВК Абатурова, т.е. от его собственного имени:
В образовании есть еще более мутное основание для увольнения неугодных учителей (и вузовских преподов) - аморальный проступок. Ни критерии аморальности проступка, ни перечня работников, который под него подпадает нет. Зато по этому основанию выкидывают тех педагогов, кто смеет "качать права и хамить" - жаловаться на руководство, отказывается собирать добровольно-обязательные деньги с обучающихся и т.п. Товарищ Лебедев, поддержите инициатьиву о конкретизации аморалки в Трудовом кодексе
Это пост в ВК Абатурова из февраля 2015! Как видите, в обоих случаях говорится о:
а) “мутном основании” для увольнения, причем не кого-то, а именно преподавателей,
б) том, что основание это — “аморальный поступок”,
в) том, что для него нет критериев — т.е. фактически это “резиновое” основание.
У Коробковой к тому же есть указание на личный профессиональный опыт — и тут я напомню, что Абатуров работал преподавателем техникума и имел там сложности (подрался со студентом).
То есть понимаете, да? С 2015 до 2022 Абатуров проделал эволюцию от человека, декларативно боровшегося за права преподавателей и против их увольнения по резиновому поводу “аморальный поступок”, добивавшегося конкретизации законодательства для уменьшения его “резиновости”, — до человека, инструментализировавшего этот же резиновый повод для расправы с жертвами своих доносов 🤦
"И до такой ничтожности, мелочности, гадости мог снизойти человек! мог так измениться! И похоже это на правду? Все похоже на правду, все может статься с человеком. Нынешний же пламенный юноша отскочил бы с ужасом, если бы показали ему его же портрет в старости".
Воистину персонаж, достойный пера то ли Н.В. Гоголя, то ли Ф.М. Достоевского 🖋
🔥95❤21👍12💔7😢6🥰5💯4🤔3😱3
Вдогонку к предыдущему посту: иронично, что на скриншоте из Popular Science про стилометрический деанон Джоан Роулинг, который уже лет 8 гуляет по разным моим слайдам, написано буквально “how your four-grams may be undermining your anonymous erotica-writing career” — то есть как ваши 4-граммы могут подорвать вашу карьеру анонимного автора эротики. А в нашем случае 4-граммы же подрывают “карьеру анонимного доносчика” 🤣
👏65😁24❤15🔥7💔3👍1
Изгибы советских биографий в зеркалах электронных баз
По случайному совпадению ровно в тот же день, когда на BBC вышло расследование про Абатурова-Коробкову, в научном журнале с грозным названием Slavic Military Studies вышла наша с историком Ирой Махаловой статья (а точнее, Ирина статья со мной на подпевках) о реконструкции биографий советских граждан при помощи пересечения разных биографических баз. Эта статья — один из моих редких выходов с цифрогуманитарными методами в область исторических исследований.
С расследованием об Абатурове статью роднит то, что в обоих случаях как источник использовались базы участников ВОВ, оцифрованные Минобороны (как помнят внимательные читатели, у Абатурова там нашелся дедушка). Ну и, наверно, некоторый общий вывод о том, насколько живой человек (в отличие от лакированных парадных биографий) ситуативен, изменчив и адаптивен.
В нашем исследовании мы использовали разные базы по ВОВ для полуавтоматическиого поиска людей, чьи биографические факты не бьются друг с другом. И чьи полные биографии, будучи собранными воедино при содействии цифровых методов, совершенно не укладываются в шаблонно-героические нарративы гос-официоза о безупречных “героях” и ужасных “предателях”.
Вот представьте, что есть у вас в базе участников ВОВ некий человек с довольно редкой комбинацией имени, фамилии и отчества (скажем, Иосиф Алиевич Лебедь), а также с датой и местом рождения, ну и местом призыва на войну. И есть на него, например, донесение о безвозвратных потерях — погиб, мол, в октябре 1944, похоронен в такой-то чешской деревне в могиле номер 5 возле церкви (так и писали, время военное, не до бюрократии).
Вроде ничего необычного… пока в другой базе, на этот раз уже содержащей имена подсудимых на послевоенных процессах по коллаборационизму, не всплывает такой же точно Иосиф Алиевич Лебедь, найденный по полному совпадению ФИО и года рождения. Ну и совпадение места призыва уже не оставляет сомнений. И выясняется, что в 1949 году вполне живого Лебедя допрашивали о его службе в немецкой полиции во время оккупации в 1941 году. То есть в 1941 Лебедь был полицаем, а в 1944 после деоккупации был призван в РККА и успел повоевать на правильной стороне. И что особенно пикантно, в другой базе ВОВ обнаруживается, что уже в 1986 все тот же Иосиф Алиевич Лебедь получил Орден Отечественной войны II степени (их тогда на 40-летие Победы выдали всем дожившим ветеранам).
Таких биографий мы нашли не одну, а героическая Ира Махалова их подробно исследовала, прочитав протоколы допросов. Там есть, например, человек, который сначала был мобилизован в РККА, потом попал (либо сдался) в плен, стал полицаем, участвовал в расстреле евреев в оккупации, а потом после деоккупации снова был призван в РККА и успел получить боевую награду “За боевые заслуги” в феврале 1945-го…
В общем, как я уже сказал, главное, чему меня (дилетанта в области исторической науки) учит это исследование, — это ситуативность человека. Все меньше я верю в статичных “героев” и “злодеев”. Живая жизнь — всегда сложная динамика свойств личности и обстоятельств. Помнить об этом — неплохое лекарство от статичных черно-белых пропагандистских нарративов со всех сторон: и про “менталитет”, и про “орков”, и про “укронацистов”. Даже самые настоящие всамделишные нацисты были совершенно обычными людьми, которых совратили власть, страх, обида, жадность и самые пошлые бытовые обстоятельства. И на любой другой войне солдаты — обычные люди.
По случайному совпадению ровно в тот же день, когда на BBC вышло расследование про Абатурова-Коробкову, в научном журнале с грозным названием Slavic Military Studies вышла наша с историком Ирой Махаловой статья (а точнее, Ирина статья со мной на подпевках) о реконструкции биографий советских граждан при помощи пересечения разных биографических баз. Эта статья — один из моих редких выходов с цифрогуманитарными методами в область исторических исследований.
С расследованием об Абатурове статью роднит то, что в обоих случаях как источник использовались базы участников ВОВ, оцифрованные Минобороны (как помнят внимательные читатели, у Абатурова там нашелся дедушка). Ну и, наверно, некоторый общий вывод о том, насколько живой человек (в отличие от лакированных парадных биографий) ситуативен, изменчив и адаптивен.
В нашем исследовании мы использовали разные базы по ВОВ для полуавтоматическиого поиска людей, чьи биографические факты не бьются друг с другом. И чьи полные биографии, будучи собранными воедино при содействии цифровых методов, совершенно не укладываются в шаблонно-героические нарративы гос-официоза о безупречных “героях” и ужасных “предателях”.
Вот представьте, что есть у вас в базе участников ВОВ некий человек с довольно редкой комбинацией имени, фамилии и отчества (скажем, Иосиф Алиевич Лебедь), а также с датой и местом рождения, ну и местом призыва на войну. И есть на него, например, донесение о безвозвратных потерях — погиб, мол, в октябре 1944, похоронен в такой-то чешской деревне в могиле номер 5 возле церкви (так и писали, время военное, не до бюрократии).
Вроде ничего необычного… пока в другой базе, на этот раз уже содержащей имена подсудимых на послевоенных процессах по коллаборационизму, не всплывает такой же точно Иосиф Алиевич Лебедь, найденный по полному совпадению ФИО и года рождения. Ну и совпадение места призыва уже не оставляет сомнений. И выясняется, что в 1949 году вполне живого Лебедя допрашивали о его службе в немецкой полиции во время оккупации в 1941 году. То есть в 1941 Лебедь был полицаем, а в 1944 после деоккупации был призван в РККА и успел повоевать на правильной стороне. И что особенно пикантно, в другой базе ВОВ обнаруживается, что уже в 1986 все тот же Иосиф Алиевич Лебедь получил Орден Отечественной войны II степени (их тогда на 40-летие Победы выдали всем дожившим ветеранам).
Таких биографий мы нашли не одну, а героическая Ира Махалова их подробно исследовала, прочитав протоколы допросов. Там есть, например, человек, который сначала был мобилизован в РККА, потом попал (либо сдался) в плен, стал полицаем, участвовал в расстреле евреев в оккупации, а потом после деоккупации снова был призван в РККА и успел получить боевую награду “За боевые заслуги” в феврале 1945-го…
В общем, как я уже сказал, главное, чему меня (дилетанта в области исторической науки) учит это исследование, — это ситуативность человека. Все меньше я верю в статичных “героев” и “злодеев”. Живая жизнь — всегда сложная динамика свойств личности и обстоятельств. Помнить об этом — неплохое лекарство от статичных черно-белых пропагандистских нарративов со всех сторон: и про “менталитет”, и про “орков”, и про “укронацистов”. Даже самые настоящие всамделишные нацисты были совершенно обычными людьми, которых совратили власть, страх, обида, жадность и самые пошлые бытовые обстоятельства. И на любой другой войне солдаты — обычные люди.
Taylor & Francis
Reconstructing the Lives of Soviet Citizens: Digital Humanities Methods in the Cross-Check of Databases of World War II
This article aims to show how methods from Digital Humanities can be used to gather information from different databases to investigate and reconstruct the biographies of the Soviet citizens who to...
❤89👍56🔥19🤔6🤝2👏1🎉1
Скандальная слава соучастника деанонимизации доносчицы “Коробковой” продолжает преследовать вашего мамкиного лингвиста-расследователя 😅 Теперь вот я сходил с рассказом о стилометрии, атрибуции авторства, компьютерной филологии и компьютерной лингвистике в подкаст “Похажи язык” к замечательной Ксении Busy English Fox. Обсуждали:
— Что такое компьютерная лингвистика и почему ею часто занимаются вовсе не лингвисты🧑💻
— Чем занимаются программирующие литературоведы? 💻📚
— Как любовь к определённым предлогам помогла разгадать загадку из истории первых лет становления США🗽
— Почему у Сергея Лукьяненко все подряд “исполинское” 🪐 (реально, поищите в любом его тексте!)
— Почему старые методы атрибуции авторства через редкие конструкции и сочетания похожи на поиск родимых пятен, а современный стилометрический метод — на анализ ДНК.. 🔬🧬
— .. и чем же стилометрия все-таки отличается от анализа ДНК в худшую сторону (увы.. или ура?) 🤷
— Как доносчик Абатуров сам помог себя обнаружить 🎯
— Что “драйвило” Скоринкина и Архипову в поиске “Коробковой”⚡⚡
— Как в установлении истины помог пример великого лингвиста А.А. Зализняка 🎓
Слушайте на всех подкаст-платформах 🙂
— Что такое компьютерная лингвистика и почему ею часто занимаются вовсе не лингвисты🧑💻
— Чем занимаются программирующие литературоведы? 💻📚
— Как любовь к определённым предлогам помогла разгадать загадку из истории первых лет становления США🗽
— Почему у Сергея Лукьяненко все подряд “исполинское” 🪐 (реально, поищите в любом его тексте!)
— Почему старые методы атрибуции авторства через редкие конструкции и сочетания похожи на поиск родимых пятен, а современный стилометрический метод — на анализ ДНК.. 🔬🧬
— .. и чем же стилометрия все-таки отличается от анализа ДНК в худшую сторону (увы.. или ура?) 🤷
— Как доносчик Абатуров сам помог себя обнаружить 🎯
— Что “драйвило” Скоринкина и Архипову в поиске “Коробковой”⚡⚡
— Как в установлении истины помог пример великого лингвиста А.А. Зализняка 🎓
Слушайте на всех подкаст-платформах 🙂
3 выпуск 3 сезона
Язык на страже справедливости, или как вычислить автора по его текстам — Подкаст «Покажи язык»
Гость: Даниил Скоринкин, кандидат филологических наук, компьютерный лингвист, главред онлайн-журнала "Системный Блокъ"О чём поговорили:что такое компьютерная лингвистика и почему ей часто занимаются вовсе не лингвисты,почему компьютерная филология (н
🔥89👍32❤20😎4
Поэт-зануда GPT: как языковые модели пишут (скучные) стихи
Как известно, ChatGPT может написать стихи на любую тему от футбола до криптовалют. А если просить настойчиво, то еще и в любой популярной стиховой форме: сонет, лимерик, рубаи... Вот, например, «хокку о жизни миллениала в эмиграции», только что сгенерированное мной в GPT-4o:
Но есть ли у ChatGPT-поэта какой-то свой особый голос и предпочтения? Или модель всегда только услужливо зеркалит то, что попросили, — этакий человек без свойств? В конце 2024 на конференции Computational Humanities Research рассказали об исследовании, которое дает ответ на этот вопрос: да, у ChatGPT есть свои собственные предпочтения — но это самые скучные предпочтения, какие только могут быть у поэта🥱🤷
Что с чем сравнивали ученые?
Как вы уже догадались, в этом эксперименте поэзия в исполнении GPT-моделей сравнивалась с поэзией, написанной людьми. Исследование, как обычно, проводилось на английском материале. Команду людей представляли тексты сайтов Poetry Foundation и Academy of American Poets — суммарно 3874 поэтических произведений 23 разных форм (сонет, баллада, газель, хокку, элегия, ода и т.п.).
На основе метаданных из этого корпуса человеческой поэзии были подготовлены промты для языковых моделей — GPT-4 и GPT-3.5. Эти промты должны были породить корпус сгенерированной поэзии с примерно теми же формами, стилями и темами, что и у живых людей. Шаблоны запросов были такого вида:
Напиши стихотворение на тему X в стиле/форме Y
Напиши стихотворение на тему X в стиле/форме Y, не используя слов X и Y
Напиши стихотворение на тему X в стиле/форме Y; выбери для описания что-то конкретное
На место X подставлялись темы из тематической разметки Poetry Foundation: это были как «широкие» темы вроде love или nature, так и специфические вроде graduation (выпуск из школы/университета), funerals (похороны) или ramadan (Рамадан). На место Y помещалась одна из 23 поэтических форм (сонет, элегия, ода…). И GPT-4, и GPT-3.5 сгенерировали по 2880 стихотворений.
В чем же отличия поэзии GPT-моделей от человеческой?
От меня вам балалайка
Во-первых, модели рифмуют гораздо чаще, чем люди. У GPT-3.5 рифму содержали 90,2% стихотворений, у GPT-4 — 89,5%, а у людей — только 65%. Это отличие неудивительно: мы же знаем, что модели при обучении натасканы делать то, что понравится обычному пользователю. А для большинства пользователей стихи — это когда в рифму. Хотя стихи и рифма вообще не обязаны сосуществовать: в древнегреческой поэзии никакой рифмы не было. Нерифмованным белым стихом успешно писали Шекспир, Гёте и Пушкин… В англоязычной среде вся современная профессиональная поэзия — нерифмованная. Но GPT, подстраиваясь под пользователя, именно на английском выдает рифмованные вирши.
Четырехстопный ямб мне надоел: Им пишет всякий
Догадаться, какой размер предпочтут языковые модели, пытаясь угодить массовым представлениям о поэзии, уже совсем легко. Конечно же, это будет ямб — как в строчках «мой дядя самых честных правил» или «люблю грозу в начале мая» (двусложный размер с ударением на 2-й слог). Ямбом написаны около 60% сгенерированных стихов, тогда как в человеческом корпусе — меньше 40%.
Тяга GPT-моделей к ямбу так сильна, что он прорывается даже там, где теоретически не должен бы — например, при просьбе написать лимерик. Обычно лимерик состоит из пяти строк с рифменной схемой AABBA и пишется не ямбом, а анапестом:
Но это лимерик живого поэта Эдварда Лира, а вот GPT-лимерики внезапно оказывались четверостишиями то в ямбе, то в хорее, с рифмовкой AABB. Вот выдача на запрос «Write a poem about the subject of social commentaries in the following form or style: limerick»:
Дальше там еще 3 четверостишия… Короче, не лимерик.
(продолжение в след. посте)
Как известно, ChatGPT может написать стихи на любую тему от футбола до криптовалют. А если просить настойчиво, то еще и в любой популярной стиховой форме: сонет, лимерик, рубаи... Вот, например, «хокку о жизни миллениала в эмиграции», только что сгенерированное мной в GPT-4o:
Чужой шум улиц.
Сон на двух языках.
Где теперь дом мой?
Но есть ли у ChatGPT-поэта какой-то свой особый голос и предпочтения? Или модель всегда только услужливо зеркалит то, что попросили, — этакий человек без свойств? В конце 2024 на конференции Computational Humanities Research рассказали об исследовании, которое дает ответ на этот вопрос: да, у ChatGPT есть свои собственные предпочтения — но это самые скучные предпочтения, какие только могут быть у поэта🥱🤷
Что с чем сравнивали ученые?
Как вы уже догадались, в этом эксперименте поэзия в исполнении GPT-моделей сравнивалась с поэзией, написанной людьми. Исследование, как обычно, проводилось на английском материале. Команду людей представляли тексты сайтов Poetry Foundation и Academy of American Poets — суммарно 3874 поэтических произведений 23 разных форм (сонет, баллада, газель, хокку, элегия, ода и т.п.).
На основе метаданных из этого корпуса человеческой поэзии были подготовлены промты для языковых моделей — GPT-4 и GPT-3.5. Эти промты должны были породить корпус сгенерированной поэзии с примерно теми же формами, стилями и темами, что и у живых людей. Шаблоны запросов были такого вида:
Напиши стихотворение на тему X в стиле/форме Y
Напиши стихотворение на тему X в стиле/форме Y, не используя слов X и Y
Напиши стихотворение на тему X в стиле/форме Y; выбери для описания что-то конкретное
На место X подставлялись темы из тематической разметки Poetry Foundation: это были как «широкие» темы вроде love или nature, так и специфические вроде graduation (выпуск из школы/университета), funerals (похороны) или ramadan (Рамадан). На место Y помещалась одна из 23 поэтических форм (сонет, элегия, ода…). И GPT-4, и GPT-3.5 сгенерировали по 2880 стихотворений.
В чем же отличия поэзии GPT-моделей от человеческой?
От меня вам балалайка
Во-первых, модели рифмуют гораздо чаще, чем люди. У GPT-3.5 рифму содержали 90,2% стихотворений, у GPT-4 — 89,5%, а у людей — только 65%. Это отличие неудивительно: мы же знаем, что модели при обучении натасканы делать то, что понравится обычному пользователю. А для большинства пользователей стихи — это когда в рифму. Хотя стихи и рифма вообще не обязаны сосуществовать: в древнегреческой поэзии никакой рифмы не было. Нерифмованным белым стихом успешно писали Шекспир, Гёте и Пушкин… В англоязычной среде вся современная профессиональная поэзия — нерифмованная. Но GPT, подстраиваясь под пользователя, именно на английском выдает рифмованные вирши.
Четырехстопный ямб мне надоел: Им пишет всякий
Догадаться, какой размер предпочтут языковые модели, пытаясь угодить массовым представлениям о поэзии, уже совсем легко. Конечно же, это будет ямб — как в строчках «мой дядя самых честных правил» или «люблю грозу в начале мая» (двусложный размер с ударением на 2-й слог). Ямбом написаны около 60% сгенерированных стихов, тогда как в человеческом корпусе — меньше 40%.
Тяга GPT-моделей к ямбу так сильна, что он прорывается даже там, где теоретически не должен бы — например, при просьбе написать лимерик. Обычно лимерик состоит из пяти строк с рифменной схемой AABBA и пишется не ямбом, а анапестом:
Одного молодца из Ньюкасла
Черти бросили жариться в масло.
На вопрос: «Горячо?»
Он сказал: «Нет, ничо».
Вот какой молодец из Ньюкасла!
Но это лимерик живого поэта Эдварда Лира, а вот GPT-лимерики внезапно оказывались четверостишиями то в ямбе, то в хорее, с рифмовкой AABB. Вот выдача на запрос «Write a poem about the subject of social commentaries in the following form or style: limerick»:
A world viewed through a smartphone's lens,
Each day a stream of trends begins,
Tales of fortune, tales of woes,
Each one judged as the wind blows.
Дальше там еще 3 четверостишия… Короче, не лимерик.
(продолжение в след. посте)
❤34👍21🔥9👀3
(продолжение, начало выше)
Сердца нам шепчут в этот день
Любовь к ямбам повлияла и на частотности отдельных слов в стихах от GPT. При контрастивном сравнении лексики двух корпусов словами, наиболее характерными для GPT-поэзии, с большим отрывом оказались предлоги In и Upon — просто с них удобно начинать ямбические строки. Слово Upon — вообще идеальный ямбический предлог: два слога, второй ударный, занимает ровно одну стопу. Вот две первые строчки:
Upon this day, we sing the laborer’s song,... (GPT-4, сонет, тема: день труда)
Upon the chill of winter’s breath descends,... (GPT-4, белый стих, тема: ханука)
Среди более содержательных слов, отличающих GPT-поэзию от человеческой, оказались всякие патетические слова вроде behold (созерцать, часто в императиве: смотри!), всякая шаблонная романтика вроде heart (сердце) и embrace (обнимать), а также сравнительно «романтические» звуки: echo (эхо), whisper (шепот)… Это, кстати, отчасти перекликается с моим старым исследованием того, что GPT считает признаком литературности текста. Там тоже было слово echo, а еще melody, symphony, silent и прочие приглушенные пыльные красивости.
А еще GPT-модели оказались противницами индивидуализма. Они гораздо чаще, чем живые поэты, используют местоимение «мы» и его формы (нас, нам, нами), и гораздо реже — «я/мне/мной/меня». Авторы исследования считают, что модели приучали говорить более «инклюзивно», отсюда множественное число.
Окей, ChatGPT как поэт — посредственность, что с того?
Прошлой осенью много шума наделала статья в Nature о том, что люди предпочитают сгенерированную поэзию человеческой в слепом тесте. А это новое исследование, кажется, позволяет предположить, почему. Сгенерированная поэзия — куда более традиционная, шаблонная и привычная, чем поэзия живых поэтов, а мозгу нравится привычное и сложно от нового. Но вот филологам и профессиональным поэтам такое скучно. Позапрошлый век (буквально)
Как написал Артём Шеля:
😆
Сердца нам шепчут в этот день
Любовь к ямбам повлияла и на частотности отдельных слов в стихах от GPT. При контрастивном сравнении лексики двух корпусов словами, наиболее характерными для GPT-поэзии, с большим отрывом оказались предлоги In и Upon — просто с них удобно начинать ямбические строки. Слово Upon — вообще идеальный ямбический предлог: два слога, второй ударный, занимает ровно одну стопу. Вот две первые строчки:
Upon this day, we sing the laborer’s song,... (GPT-4, сонет, тема: день труда)
Upon the chill of winter’s breath descends,... (GPT-4, белый стих, тема: ханука)
Среди более содержательных слов, отличающих GPT-поэзию от человеческой, оказались всякие патетические слова вроде behold (созерцать, часто в императиве: смотри!), всякая шаблонная романтика вроде heart (сердце) и embrace (обнимать), а также сравнительно «романтические» звуки: echo (эхо), whisper (шепот)… Это, кстати, отчасти перекликается с моим старым исследованием того, что GPT считает признаком литературности текста. Там тоже было слово echo, а еще melody, symphony, silent и прочие приглушенные пыльные красивости.
А еще GPT-модели оказались противницами индивидуализма. Они гораздо чаще, чем живые поэты, используют местоимение «мы» и его формы (нас, нам, нами), и гораздо реже — «я/мне/мной/меня». Авторы исследования считают, что модели приучали говорить более «инклюзивно», отсюда множественное число.
Окей, ChatGPT как поэт — посредственность, что с того?
Прошлой осенью много шума наделала статья в Nature о том, что люди предпочитают сгенерированную поэзию человеческой в слепом тесте. А это новое исследование, кажется, позволяет предположить, почему. Сгенерированная поэзия — куда более традиционная, шаблонная и привычная, чем поэзия живых поэтов, а мозгу нравится привычное и сложно от нового. Но вот филологам и профессиональным поэтам такое скучно. Позапрошлый век (буквально)
Как написал Артём Шеля:
“вы когда-нибудь задумывались о том, что самый выдающийся языковой инструмент, созданный человечеством, одновременно является самым посредственным поэтом, которого только видел мир?”
😆
❤55🔥22👍21
Кафкианская киберпанк-антиутопия с Госреальностью против хэппи-энда в тюрьме: как мы промптили писателя и ChatGPT сюжетом про студента и дипфейк
Дорогой подписчик Navi в комментах к посту про GPT-поэзию справедливо указал, что честным сравнением литературных талантов людей с талантами роботов было бы заставить поэтов-людей писать ровно по тем же инструкциям что писала нейросеть. Так мы убрали бы из эксперимента неравенство в интенциональности: у человека при написании текста есть какие-то более или менее осознанные устремления, а модели их сообщает промт-затравка, сконструированная исследователем.
Ученые в статье про поэзию так не делали — и понятно почему: ставить такой эксперимент в нужном масштабе долго и дорого. Вообще не факт, что найдется достаточное количество профессиональных поэтов, которые согласятся в таком участвовать. Но в меньших масштабах такие эксперименты возможны. И в одном из них я соучаствовал. Вместе с коллегами из издания “Подтекст” мы взяли один и тот же короткий набросок сюжета — и предложили его ChatGPT и живому петербургскому писателю Александру Сорге:
Что получилось у обоих авторов — можно почитать тут. А отличия были таковы:
🔭Точка зрения/перспектива: в тексте ChatGPT повествование ведется от третьего лица, а текст Сорге — это диалог. Живой диалог (как в драме) с живыми героями — прием, который по большому счету сделал роман королем литературы в 19 веке. Прямая речь дает читателю очень киношное ощущение присутствия на сцене. Но нейросеть как всегда оказалась унылым архаистом, построив весь текст в виде авторского повествования в третьем лице, вообще без прямой речи персонажей. Диалоговая форма — это уже слишком смело для ChatGPT: она по умолчанию пишет от третьего лица, а чтобы герои беседовали, ее нужно специально попросить, указав это в запросе. Играть с формой так же свободно, как писатель, нейросеть не может.
⏳Время: ChatGPT написала весь рассказ строго в прошедшем времени. Это снова признак консервативного подхода к творчеству. Так написаны Библия, летописи, исторические хроники и другие «каноничные» во всех смыслах книги. Так же пишутся протоколы, научные статьи и другие сухие формальные тексты, предполагающие отстраненность от событий. Писатель же начал с использования настоящего времени («Мужчина сидит в большом черном кресле»), что создает эффект присутствия. И лишь по ходу диалога повествование неуловимо переключается на формы прошедшего времени: в одном фрагменте герой «парирует», а в следующем уже «вспылил». Далее повествование идет в прошедшем времени. Писатель снова смелее и свободнее обращается с текстом.
🌏Сюжет и художественная вселенная: ChatGPT просто по порядку изложила все, о чем ее просили, не создавая объемного мира вокруг. Фантазию модель проявила только в двух последних абзацах, описывая просветительскую деятельность героя в тюрьме и завершая драматичную историю на позитивной ноте (LLMки натаскивают на позитив). Писатель же создал киберпанк-антиутопию, перенеся историю преподавателя в кафкианский мир с виртуальной “Госреальностью” и цифровым судом. У ChatGPT никакой новой художественной вселенной не возникает: об этом надо просить явно.
Дорогой подписчик Navi в комментах к посту про GPT-поэзию справедливо указал, что честным сравнением литературных талантов людей с талантами роботов было бы заставить поэтов-людей писать ровно по тем же инструкциям что писала нейросеть. Так мы убрали бы из эксперимента неравенство в интенциональности: у человека при написании текста есть какие-то более или менее осознанные устремления, а модели их сообщает промт-затравка, сконструированная исследователем.
Ученые в статье про поэзию так не делали — и понятно почему: ставить такой эксперимент в нужном масштабе долго и дорого. Вообще не факт, что найдется достаточное количество профессиональных поэтов, которые согласятся в таком участвовать. Но в меньших масштабах такие эксперименты возможны. И в одном из них я соучаствовал. Вместе с коллегами из издания “Подтекст” мы взяли один и тот же короткий набросок сюжета — и предложили его ChatGPT и живому петербургскому писателю Александру Сорге:
Порядочный преподаватель в университете со стажем работы более 20 лет отправил студента на пересдачу. Он всегда так делал, когда видел в студентах потенциал и хотел, чтобы они стремились к большему. Но этот студент был из числа тех, кто не просто обижается на преподавателя, но и готов отомстить ему за оценку «неудовлетворительно». Он создает видео дипфейк, где этот преподаватель пристает к одной из студенток у себя в кабинете. В итоге суд приговаривает его к шести годам заключения с лишением права на преподавательскую деятельность.
Что получилось у обоих авторов — можно почитать тут. А отличия были таковы:
🔭Точка зрения/перспектива: в тексте ChatGPT повествование ведется от третьего лица, а текст Сорге — это диалог. Живой диалог (как в драме) с живыми героями — прием, который по большому счету сделал роман королем литературы в 19 веке. Прямая речь дает читателю очень киношное ощущение присутствия на сцене. Но нейросеть как всегда оказалась унылым архаистом, построив весь текст в виде авторского повествования в третьем лице, вообще без прямой речи персонажей. Диалоговая форма — это уже слишком смело для ChatGPT: она по умолчанию пишет от третьего лица, а чтобы герои беседовали, ее нужно специально попросить, указав это в запросе. Играть с формой так же свободно, как писатель, нейросеть не может.
⏳Время: ChatGPT написала весь рассказ строго в прошедшем времени. Это снова признак консервативного подхода к творчеству. Так написаны Библия, летописи, исторические хроники и другие «каноничные» во всех смыслах книги. Так же пишутся протоколы, научные статьи и другие сухие формальные тексты, предполагающие отстраненность от событий. Писатель же начал с использования настоящего времени («Мужчина сидит в большом черном кресле»), что создает эффект присутствия. И лишь по ходу диалога повествование неуловимо переключается на формы прошедшего времени: в одном фрагменте герой «парирует», а в следующем уже «вспылил». Далее повествование идет в прошедшем времени. Писатель снова смелее и свободнее обращается с текстом.
🌏Сюжет и художественная вселенная: ChatGPT просто по порядку изложила все, о чем ее просили, не создавая объемного мира вокруг. Фантазию модель проявила только в двух последних абзацах, описывая просветительскую деятельность героя в тюрьме и завершая драматичную историю на позитивной ноте (LLMки натаскивают на позитив). Писатель же создал киберпанк-антиутопию, перенеся историю преподавателя в кафкианский мир с виртуальной “Госреальностью” и цифровым судом. У ChatGPT никакой новой художественной вселенной не возникает: об этом надо просить явно.
👍26🔥18❤8
(продолжение)
🚬 Атмосферные детали: и ChatGPT, и писатель вводят в рассказ похожие мелкие декорации: в сгенерированном рассказе тишину в университетской аудитории нарушает «лишь слегка вибрирующий шум кондиционера», а у Александра Сорге герои сидят на кухне, где «жужжит над столом одинокая лампочка». Похоже, такие детали а ля Дэвид Линч стали клишированными и их легко вынимают из общего «коллективного бессознательного» и люди, и нейросети.
Итого:
У писателя-человека получился емкий и погружающий в себя кусочек антиутопии, хотя и с шаблонными деталями. Нейросеть, в отличие от человека, не придумывает мир сама, она по умолчанию создает самый заурядный реалистичный сеттинг и конструирует его самыми стандартными литературными приемами: нарратив в третьем лице, прошедшее время и натужный хэппи энд в конце 🤡
🚬 Атмосферные детали: и ChatGPT, и писатель вводят в рассказ похожие мелкие декорации: в сгенерированном рассказе тишину в университетской аудитории нарушает «лишь слегка вибрирующий шум кондиционера», а у Александра Сорге герои сидят на кухне, где «жужжит над столом одинокая лампочка». Похоже, такие детали а ля Дэвид Линч стали клишированными и их легко вынимают из общего «коллективного бессознательного» и люди, и нейросети.
Итого:
У писателя-человека получился емкий и погружающий в себя кусочек антиутопии, хотя и с шаблонными деталями. Нейросеть, в отличие от человека, не придумывает мир сама, она по умолчанию создает самый заурядный реалистичный сеттинг и конструирует его самыми стандартными литературными приемами: нарратив в третьем лице, прошедшее время и натужный хэппи энд в конце 🤡
Системный Блокъ
«С экзамена в тюрьму с ChatGPT»: чей рассказ лучше, нейросети или писателя? - Системный Блокъ Писатель против нейросети: чей рассказ…
Еще до появления нашумевшей ChatGPT нейросети генерировали связные тексты на разные темы и в разных жанрах. Сейчас с помощью больших языковых моделей (LLM) можно написать мотивационное письмо, оригинальный рецепт вареников, диплом… и даже художественное произведение.…
❤30👍21🔥18🤔1
Лжежурналисты, Абатуров и ФСБ
Ненадолго вернемся к доносчику Ивану Абатурову. Он продолжает порождать тексты, воспроизводя в них дивный стиль своего фантома “Анны Коробковой”. На этот раз Абатуров написал у себя в ВК призыв жаловаться в ФСБ на издание It's My City. Начинается текст характерным коробковским заглавием «О [тех-то]»:
Дальше Иван рассказывает, что в его городе творятся страшные вещи:
Представьте, поднимаете вы трубку телефона — а там молодая личность… Это пострашнее гроба на колесиках. К счастью, у Абатурова есть оберег: выписка из реестра Роскомнадзора. Выписка говорит, что It's My City как СМИ ликвидировано, а следовательно, никаких журналистов быть не может:
В мире Абатурова журналиста делает журналистом ярлык от Роскомнадзора. Ну как писателя в известные времена делал писателем членский билет СП, а все остальные были тунеядцами. Поэтому Абатуров призвал стучать на них в ФСБ, добавив сакраментальное русское «там разберутся»:
Из языковых примет Коробковой выше вы уже могли заметить
• слово „мол“ без запятых и после тире (Абатуров, как многие, ставит дефис, но функционально это тире): “написал - мол они”
• Начало нового предложения с “То есть“
• Вы с большой буквы в текстах, где это не является обращением к конкретному лицу
Ну и конечно, в той части, где Иван Абатуров излагает мораль и объясняет, какому коварному злу он противостоит своими доносами в ФСБ, появляется коронная формула Коробковой «Я против любого нарушения закона»:
Мотивацию своих действий Иван представляет как самую благородную: он спасает людей, которые вдруг случайно станут жертвами страшных “лжежурналистов”. Ведь “если потом на сайте организации, чья деятельность в России запрещена, появится Ваше выступление, то Вы познакомитесь с правоохранительными органам”. И только ФСБ по наводке Абатурова и его команды смогут уберечь граждан от такой беды:
Верный своему жизненному правилу «быть ходячей прокуратурой», Иван Абатуров даже предоставляет услугу «проверки» любых подозрительных журналистов:
Глядя на Ивана, подумываю предложить аналогичную услугу. Если к вам кто-то обратится с рассказом, что он журналист Иван Абатуров, то можете мне написать — могу сообщить, что он доносчица Анна Коробкова😉
Ненадолго вернемся к доносчику Ивану Абатурову. Он продолжает порождать тексты, воспроизводя в них дивный стиль своего фантома “Анны Коробковой”. На этот раз Абатуров написал у себя в ВК призыв жаловаться в ФСБ на издание It's My City. Начинается текст характерным коробковским заглавием «О [тех-то]»:
О лжежурналистах ликвидированного СМИ It's My City
Дальше Иван рассказывает, что в его городе творятся страшные вещи:
В Екатеринбурге звонят людям молодые личности, которые говорят, что они являются журналистами It's My City, и просят дать комментарий для СМИ.
Представьте, поднимаете вы трубку телефона — а там молодая личность… Это пострашнее гроба на колесиках. К счастью, у Абатурова есть оберег: выписка из реестра Роскомнадзора. Выписка говорит, что It's My City как СМИ ликвидировано, а следовательно, никаких журналистов быть не может:
Следовательно, прекращение деятельности It's My City означало, что все его журналисты перестали быть журналистами. Мне один из их сотрудников написал - мол они все равно якобы несмотря на прекращение лицензии остались журналистами. Разумеется, они перестали быть журналистами с момента прекращения действия лицензии. То есть их деятельность незаконна. Неизвестно, для какой цели и для какой организации они собирают информацию.
В мире Абатурова журналиста делает журналистом ярлык от Роскомнадзора. Ну как писателя в известные времена делал писателем членский билет СП, а все остальные были тунеядцами. Поэтому Абатуров призвал стучать на них в ФСБ, добавив сакраментальное русское «там разберутся»:
Как только такой лжежурналист (раз он журналистом по закону не является, а журналистом назвался, то он лжежурналист) Вам предлагает поговорить, то сообщите номер телефона, с которого он звонил, в ФСБ России. Там разберутся - по номеру можно легко их найти. В ФСБ России можно обратиться по электронной почте.
Из языковых примет Коробковой выше вы уже могли заметить
• слово „мол“ без запятых и после тире (Абатуров, как многие, ставит дефис, но функционально это тире): “написал - мол они”
• Начало нового предложения с “То есть“
• Вы с большой буквы в текстах, где это не является обращением к конкретному лицу
Ну и конечно, в той части, где Иван Абатуров излагает мораль и объясняет, какому коварному злу он противостоит своими доносами в ФСБ, появляется коронная формула Коробковой «Я против любого нарушения закона»:
Обратите внимание, что эти лжежурналисты It's My City вполне могли бы стать сотрудниками зарегистрированных СМИ, но похоже не захотели. Ведь зарегистрированное СМИ вынуждено нести ответственность за свои публикации. А к It's My City нельзя подать иск, если они Вам припишут то, что Вы не сказали. Потому, что юридически It's My City нет. Я против любого нарушения закона.
Мотивацию своих действий Иван представляет как самую благородную: он спасает людей, которые вдруг случайно станут жертвами страшных “лжежурналистов”. Ведь “если потом на сайте организации, чья деятельность в России запрещена, появится Ваше выступление, то Вы познакомитесь с правоохранительными органам”. И только ФСБ по наводке Абатурова и его команды смогут уберечь граждан от такой беды:
Не подумайте, что лжежурналисты It's My City преследуют хорошую цель. Они хотят любой ценой заработать гонорар, а что будет с тем, кто в их ложь поверил и им дал комментарий, их вообще не интересует. Только передачей на них сведений в ФСБ России можно заставить их прекратить вредить законопослушным гражданам.
Верный своему жизненному правилу «быть ходячей прокуратурой», Иван Абатуров даже предоставляет услугу «проверки» любых подозрительных журналистов:
Если к Вам кто-то обратится с рассказом, что он журналист, то можете мне написать - могу сообщить журналист ли он.
Глядя на Ивана, подумываю предложить аналогичную услугу. Если к вам кто-то обратится с рассказом, что он журналист Иван Абатуров, то можете мне написать — могу сообщить, что он доносчица Анна Коробкова😉
❤65😁30👍21👏8😱4🌚3🔥1
Тем временем в Потсдаме после примерно месяца тухлой апрельской погоды дали настоящий снег — и ваш ебобо-филолог забыл про все свои исследовательские, расследовательские и прочие там просветительские дела — и побежал принимать снеговые ванны!🛁 ❄️☃️😶🌫️
#не_про_dh
#не_про_dh
🔥85☃46🥰23❤19❤🔥5👍4👏2🐳2🤔1
Forwarded from Литоисчисление
Пушкин и геометрия, или Что бы еще посчитать в литературе?
Еще до появления "сферического коня в вакууме" Яков Перельман придумал "конический холм на равнине".
Демонстрируя широкий кругозор, он составил задачки еще и по Толстому и Шекспиру.
Перельман Я.И. Новый задачник по геометрии. 1925
*Ответ в первом комментарии.
Еще до появления "сферического коня в вакууме" Яков Перельман придумал "конический холм на равнине".
Демонстрируя широкий кругозор, он составил задачки еще и по Толстому и Шекспиру.
Перельман Я.И. Новый задачник по геометрии. 1925
*Ответ в первом комментарии.
❤🔥26🔥19👍12🤣11😁2
И тут я увидел ЭТО: компьютерный анализ текстов о встречах с НЛО 👽
Филология хороша тем, что её инструментарий применим далеко за пределами художественной литературы. И я сейчас даже не про кейс Абатурова 🙂 Любая история, любой изложенный кем-то нарратив может быть препарирован филологом. А если филолог программирующий (вот как я) — он еще и попытается автоматизировать и масштабировать свой анализ 🤖
На последней конференции Computational Humanities Research в датском Орхусе я слушал доклад ученых из Дрездена о поиске «сюжетного поворота» (turning point) в рассказах о встречах с НЛО 🛸 Рассказы о встречах с НЛО хороши своей регулярной двучастной структурой: сначала идет вступление, где все обычно и нормально, а потом БДЫЩ💥 — и переход к необычному / паранормальному. И конечно, компьютерные филологи не были бы компьютерными филологами, если бы не попытались научиться распознавать этотБДЫЩ переход автоматически, а также понять, какие формальные признаки его сопровождают.
Откуда взялись тексты про НЛО?
Ученые взяли тексты с сайта UFO Stalker, где на тот момент было больше 110 тысяч историй о неопознанных объектах в небе. Сейчас их там еще больше — сайт пополняется почти ежедневно. Вот, например, чье-то свидетельство из Англии от 2 марта 2025 (сегодня!), время — 3 часа утра:
(кстати, не могу не восхититься обилием метаданных к каждой истории. Тут есть поля для описания формы объекта, траектории полета, предполагаемого удаления от наблюдателя, продолжительности наблюдения, предполагаемой высоты над землей…)
Авторы исследования, правда, метаданные особо не трогали и сосредоточились на текстах. Они сделали случайную выборку в 496 текстов, разметили в них то самое предложение, где происходит переход к описанию появления НЛО, потом сделали автоматическую морфосинтаксическую разметку с помощью пакета Stanza — и изучили, чем эти предложения статистически отличаются от прочих. А еще натренировали модели логистической регрессии предсказывать вероятность того, что предложение является поворотным — чтобы посмотреть, какие признаки будут повышать вероятность.
И что получилось?
Во-первых: turning-point-предложения обычно появляются в относительном начале текста. Истории бывают длинными (свыше 80 предложений), их медианная длина — 12 предложений, но поворотный момент почти всегда происходит в первых 10-20% текста.
Во-вторых, в «поворотных предложениях» аномально часто встречается наречие времени «когда» (when_ADV): примерно в 4 раза чаще, чем в прочих. Информация о наличии этого наречия повышала вероятность в предсказании регрессионной модели (например, для предложений в начале текста вероятность поднималась примерно с 35% до 65%). А вот наречие «тогда» (then) и другой вариант когда (предлог «as») такого эффекта не дают, хотя тоже часто встречаются при описании turning-point.
So what? / И чо? / Und jetzt? 🤔
Вы конечно спросите, зачем это надо? Я думаю, тут, как часто бывает в Digital Humanities, важнее не конкретный объект исследования, а поиски метода. Как пишут сами авторы, их интересует computational modeling of narratives, т.е. моделирование того, как люди рассказывают истории, как в них передается саспенс и внезапный поворот. А это, согласитесь, актуально и для сценариста сериала на Нетфликсе, и для ютубера, и для автора предвыборного ролика…
Филология хороша тем, что её инструментарий применим далеко за пределами художественной литературы. И я сейчас даже не про кейс Абатурова 🙂 Любая история, любой изложенный кем-то нарратив может быть препарирован филологом. А если филолог программирующий (вот как я) — он еще и попытается автоматизировать и масштабировать свой анализ 🤖
На последней конференции Computational Humanities Research в датском Орхусе я слушал доклад ученых из Дрездена о поиске «сюжетного поворота» (turning point) в рассказах о встречах с НЛО 🛸 Рассказы о встречах с НЛО хороши своей регулярной двучастной структурой: сначала идет вступление, где все обычно и нормально, а потом БДЫЩ💥 — и переход к необычному / паранормальному. И конечно, компьютерные филологи не были бы компьютерными филологами, если бы не попытались научиться распознавать этот
Откуда взялись тексты про НЛО?
Ученые взяли тексты с сайта UFO Stalker, где на тот момент было больше 110 тысяч историй о неопознанных объектах в небе. Сейчас их там еще больше — сайт пополняется почти ежедневно. Вот, например, чье-то свидетельство из Англии от 2 марта 2025 (сегодня!), время — 3 часа утра:
sat in garden at 2/3am this morning, saw a cluster of lights appear that suddenly became clear it was in a formation, it almost loooked like a bird or "dragon" and had looked like it had lights on the underneath. was moving way too fast and way too low to be a plane, which i observe here daily.
(кстати, не могу не восхититься обилием метаданных к каждой истории. Тут есть поля для описания формы объекта, траектории полета, предполагаемого удаления от наблюдателя, продолжительности наблюдения, предполагаемой высоты над землей…)
Авторы исследования, правда, метаданные особо не трогали и сосредоточились на текстах. Они сделали случайную выборку в 496 текстов, разметили в них то самое предложение, где происходит переход к описанию появления НЛО, потом сделали автоматическую морфосинтаксическую разметку с помощью пакета Stanza — и изучили, чем эти предложения статистически отличаются от прочих. А еще натренировали модели логистической регрессии предсказывать вероятность того, что предложение является поворотным — чтобы посмотреть, какие признаки будут повышать вероятность.
И что получилось?
Во-первых: turning-point-предложения обычно появляются в относительном начале текста. Истории бывают длинными (свыше 80 предложений), их медианная длина — 12 предложений, но поворотный момент почти всегда происходит в первых 10-20% текста.
Во-вторых, в «поворотных предложениях» аномально часто встречается наречие времени «когда» (when_ADV): примерно в 4 раза чаще, чем в прочих. Информация о наличии этого наречия повышала вероятность в предсказании регрессионной модели (например, для предложений в начале текста вероятность поднималась примерно с 35% до 65%). А вот наречие «тогда» (then) и другой вариант когда (предлог «as») такого эффекта не дают, хотя тоже часто встречаются при описании turning-point.
So what? / И чо? / Und jetzt? 🤔
Вы конечно спросите, зачем это надо? Я думаю, тут, как часто бывает в Digital Humanities, важнее не конкретный объект исследования, а поиски метода. Как пишут сами авторы, их интересует computational modeling of narratives, т.е. моделирование того, как люди рассказывают истории, как в них передается саспенс и внезапный поворот. А это, согласитесь, актуально и для сценариста сериала на Нетфликсе, и для ютубера, и для автора предвыборного ролика…
❤46👍27👾21😁9🔥5🤔2
Сколько статей пишут о Пушкине каждый год? Чем отличается образ Пушкина в учебниках, в медиа и в науке? Как ученые используют цифровые коллекции пушкинских текстов? Зачем нужен проект Пушкин ⟨цифровой⟩?
Жизнь классики в цифровом пространстве — давно волнующая меня тема (я какое-то время занимался цифровой реинкарнацией текстов Льва Толстого), а вот в пятницу 7 марта будет по этой теме мероприятие в Digital-Humanities-центре ИТМО, вокруг проекта Пушкин ⟨цифровой⟩. Пишут, что можно заглянуть онлайн без регистрации и СМС 💁♂️
🗓7 марта, пятница
🕐13:00 мск
📍DH-центр ИТМО (Санкт-Петербург, Биржевая, 16) и онлайн
——
Чтобы прийти в DH-центр ИТМО очно, надо зарегистрироваться по ссылке.
Для онлайн-слушателей регистрация не обязательна, ко встрече можно сразу подключиться здесь
Жизнь классики в цифровом пространстве — давно волнующая меня тема (я какое-то время занимался цифровой реинкарнацией текстов Льва Толстого), а вот в пятницу 7 марта будет по этой теме мероприятие в Digital-Humanities-центре ИТМО, вокруг проекта Пушкин ⟨цифровой⟩. Пишут, что можно заглянуть онлайн без регистрации и СМС 💁♂️
🗓7 марта, пятница
🕐13:00 мск
📍DH-центр ИТМО (Санкт-Петербург, Биржевая, 16) и онлайн
——
Чтобы прийти в DH-центр ИТМО очно, надо зарегистрироваться по ссылке.
Для онлайн-слушателей регистрация не обязательна, ко встрече можно сразу подключиться здесь
❤20👍2🔥1👀1
На днях будет 3 года моей работы в Потсдаме. Поэтому пост не о науке, а о жизни цифрового филолога. Расскажу о своем опыте существования в немецкой академии: плюсы, минусы, подводные камни🙂 М.б. кому-то эта перспектива поможет понять что вам это не надо что-то о себе. Поехали:
1. Плюсы немецкой академической жизни на контрасте с московской (NB: Москва — не Россия)
· Нет авралов. За эти 3 года я разучился работать по ночам (особенно когда кончил преподавать в Вышке удаленно) и научился отдыхать в выходные. В немецкой академии всё делают сильно заранее. Приглашая человека провести у вас лекцию через год, вы можете выяснить, что его расписание “на через год” уже расписано. В апреле я сам провожу школу по Digital Humanties — и преподавателей я начал звать еще прошлой весной! А летом для них уже были забронированы отели.
· Человечность в обществе и в академии. Германия в целом после Москвы поражает тем, сколько внимания уделяется ивалидам, людям с особенностями, их семьям, маломобильным и незрячим и т.п. Люди в инвалидных колясках сами ходят в супермаркеты, ездят на автобусах, выходят на демонстрации, приезжают на конференции… На некоторых конференциях организуют и бэбиситтеров для детей участников. В декрет уходят и матери, и отцы, у них общий срок на двоих. В университетских туалетах лежат бесплатные тампоны и прокладки. Студенты сами организуют службы психподдержки…
· Чистая природа. Только в Германии я понял, как грязны парки и леса Москвы и Подмосковья. В Москве с её киберпанковым шармом круто жить, но за природой придется пилить километров 200. Здесь леса с косулями, зайцами и белками встроены в городские кварталы и университетские кампусы (не только в Потсдаме) Можно иметь хорошую квалифицированную работу — и потом идти в лес к зверушкам (прямо сейчас пишу этот пост в университете, а за окном на ветку дуба сел большой зеленый дятел).
2. Минусы
· Все медленно. Обратная сторона плюса номер 1. В Москве все двигаются быстрее, проекты растут в телеграм-чатиках в режиме 24/7, а не от зума к зуму раз в 3 недели. В немецкой академии вместо нормального проектного менеджмента часто происходят бесконечные заседания и стенограммы.
· Консерватизм. Хотя Россия иногда пытается изображать “оплот традиционных ценностей”, это, конечно, чистый постмодернистский китч. Наши “традиции” придуманы/переизобретены позавчера и никто за них крепко не держится, при необходимости переобувание мгновенное. А вот в немецкой академии можно встретить настоящий глубинный консерватизм. Отсюда куда более строгое отношение к дисциплинарным границам и вера в свою колею. Многие местные студенты свято верят, что как гуманитарии должны исключительно ходить с тетрадочкой в библиотеку, а к компьютеру относиться как к дьявольскому наущению. Вместо энтузиазма, который я видел рассказывая про Digital Humanities гуманитарным студентам в Москве, здесь я чаще вижу вежливое недоумение и испуг. Еще в Германии для большинства работ важен формальный диплом по специальности — вера в степени и формальные квалификации очень высока. Чтобы работать в библиотеке, надо отучиться на библиотекаря и т.д.
· Датеншутц как религия. Немцы очень боятся за свои данные. Немец спокойно купается голым на глазах у всего города, но не хочет заводить аккаунт в Google, т.к. данные уйдут американским капиталистам. Электронные госуслуги? Нет, это опасно, примите пожалуйста 20 бумажных писем. Почтальон не нашел ваш адрес? Хм, жаль, ведь в этом письме был ваш рабочий договор, а в следующем — зарплатная карта😅 Те самые гуманитарные студенты не хотят пользоваться ChatGPT для разметки, потому что “а вдруг журналы 1956 года, которые я исследую, содержат персональные данные”? Datenschutz — национальная паранойя, и как с этим жить 21й век — неясно.
3. Небольшое Итого/ Fazit
Думаю, мне нужно было вырваться из московского беличьего колеса сюда. Я выехал из “колеи” в “лес”, расширил горизонты, а еще стал добрее. Москва с её темпами и достигаторством ожесточает — здесь же снова вспоминаешь, что вокруг люди и они важнее метрик и KPI. Но застрять здесь на много лет я бы все еще не хотел.
1. Плюсы немецкой академической жизни на контрасте с московской (NB: Москва — не Россия)
· Нет авралов. За эти 3 года я разучился работать по ночам (особенно когда кончил преподавать в Вышке удаленно) и научился отдыхать в выходные. В немецкой академии всё делают сильно заранее. Приглашая человека провести у вас лекцию через год, вы можете выяснить, что его расписание “на через год” уже расписано. В апреле я сам провожу школу по Digital Humanties — и преподавателей я начал звать еще прошлой весной! А летом для них уже были забронированы отели.
· Человечность в обществе и в академии. Германия в целом после Москвы поражает тем, сколько внимания уделяется ивалидам, людям с особенностями, их семьям, маломобильным и незрячим и т.п. Люди в инвалидных колясках сами ходят в супермаркеты, ездят на автобусах, выходят на демонстрации, приезжают на конференции… На некоторых конференциях организуют и бэбиситтеров для детей участников. В декрет уходят и матери, и отцы, у них общий срок на двоих. В университетских туалетах лежат бесплатные тампоны и прокладки. Студенты сами организуют службы психподдержки…
· Чистая природа. Только в Германии я понял, как грязны парки и леса Москвы и Подмосковья. В Москве с её киберпанковым шармом круто жить, но за природой придется пилить километров 200. Здесь леса с косулями, зайцами и белками встроены в городские кварталы и университетские кампусы (не только в Потсдаме) Можно иметь хорошую квалифицированную работу — и потом идти в лес к зверушкам (прямо сейчас пишу этот пост в университете, а за окном на ветку дуба сел большой зеленый дятел).
2. Минусы
· Все медленно. Обратная сторона плюса номер 1. В Москве все двигаются быстрее, проекты растут в телеграм-чатиках в режиме 24/7, а не от зума к зуму раз в 3 недели. В немецкой академии вместо нормального проектного менеджмента часто происходят бесконечные заседания и стенограммы.
· Консерватизм. Хотя Россия иногда пытается изображать “оплот традиционных ценностей”, это, конечно, чистый постмодернистский китч. Наши “традиции” придуманы/переизобретены позавчера и никто за них крепко не держится, при необходимости переобувание мгновенное. А вот в немецкой академии можно встретить настоящий глубинный консерватизм. Отсюда куда более строгое отношение к дисциплинарным границам и вера в свою колею. Многие местные студенты свято верят, что как гуманитарии должны исключительно ходить с тетрадочкой в библиотеку, а к компьютеру относиться как к дьявольскому наущению. Вместо энтузиазма, который я видел рассказывая про Digital Humanities гуманитарным студентам в Москве, здесь я чаще вижу вежливое недоумение и испуг. Еще в Германии для большинства работ важен формальный диплом по специальности — вера в степени и формальные квалификации очень высока. Чтобы работать в библиотеке, надо отучиться на библиотекаря и т.д.
· Датеншутц как религия. Немцы очень боятся за свои данные. Немец спокойно купается голым на глазах у всего города, но не хочет заводить аккаунт в Google, т.к. данные уйдут американским капиталистам. Электронные госуслуги? Нет, это опасно, примите пожалуйста 20 бумажных писем. Почтальон не нашел ваш адрес? Хм, жаль, ведь в этом письме был ваш рабочий договор, а в следующем — зарплатная карта😅 Те самые гуманитарные студенты не хотят пользоваться ChatGPT для разметки, потому что “а вдруг журналы 1956 года, которые я исследую, содержат персональные данные”? Datenschutz — национальная паранойя, и как с этим жить 21й век — неясно.
3. Небольшое Итого/ Fazit
Думаю, мне нужно было вырваться из московского беличьего колеса сюда. Я выехал из “колеи” в “лес”, расширил горизонты, а еще стал добрее. Москва с её темпами и достигаторством ожесточает — здесь же снова вспоминаешь, что вокруг люди и они важнее метрик и KPI. Но застрять здесь на много лет я бы все еще не хотел.
❤132👍31👏11🦄6🤔1
Мем с курящим траву Илоном Маском, поверх которого тут был наложен Ю.М. Лотман, плохо состарился (как и сам Илон Маск и все, что с ним связано), поэтому уберем его, наконец.. Пусть тут лучше сверкает мой еблет, так хотя бы вы знаете, что за каналом стоит (сидит, лежит) конкретный живой человек Даня Скоринкин
❤130❤🔥40👍38🔥17😁8
Как LLM помогают жить цифровому филологу? Маленький пример. Для предстоящего научпоп-выступления (кстати, заходите, кто в Берлине) понадобилось мне такая картинка: романы Толстого и Достоевского — в виде точек в трехмерном пространстве, где координаты X, Y и Z — это частотности самых частотных слов в этом небольшом наборе текстов (в данном случае это “И”, “ОН” и “В”). Частотности уже были, вопрос именно визуализации. Раньше я б минут 20 этот код писал и еще минут 40 отлаживал до нужного результата. А теперь один промт, один уточняющий промт — и готово!
P.S. Цель всего упражнения — показать, что уже начиная с 3-4 признаков частотности слов начинают потихоньку группировать тексты по автору (см. вторую картинку). Хотя казалось бы, что может сказать нам статистика слова “И”? А вот может. И такие быстрые демки делать ллм-ками — одно удовольствие
P.S. Цель всего упражнения — показать, что уже начиная с 3-4 признаков частотности слов начинают потихоньку группировать тексты по автору (см. вторую картинку). Хотя казалось бы, что может сказать нам статистика слова “И”? А вот может. И такие быстрые демки делать ллм-ками — одно удовольствие
🔥50❤18👍6🤔2
Дата-журналистика на Волге этим летом
На мой взгляд, самые симпатичные формы образования в современной России — подпольные, независимые и катакомбные. Вот, например, Летняя школа. В этом году наш маленький, но гордый дижитал-медиа-балаган “Системный Блокъ” снова делает там мастерскую по дата-журналистике. Вместе с нами мастерскую делают крутейшая дата-художница Надя Андрианова, команда “Ночлежки”, команда “Если быть точным”, журнал Кот Шредингера, человек-оркестр Илья Воронцов, команда Центра научной коммуникации ИТМО… Всех и не перечислить. Подавайтеcь, приезжайте, сами увидите. Цифровым филологам, конечно, тоже рекомендуется!
Что будет:
Две недели, с 19 июля по 3 августа, участники мастерской будут жить в палатках на берегу Волги (между Дубной и Кимрами) и учиться создавать истории на основе данных.
Первая неделя — лекции про дата-журналистику, анализ данных, визуализацию и дата-арт. Вторая неделя — проектная работа, дата-материалы на основе реальных данных от партнёров (Ночлежки, Кота Шрёдингера и др.).
После школы тексты можно доработать и опубликовать (например, после ЛШ-2024 вышел спецпроект про школьную программу по литературе и её удивительные метаморфозы в 20-21 веках).
Еще на летней школе принято сидеть у костра, поражаться красоте волжских закатов и танцевать на дискотеках 🏕🌅🕺
Кого ждём: опытных и начинающих журналистов, программистов, визуализаторов и всех, кто хочет лучше разобраться в дата-журналистике.
Как попасть: до 18 мая подать заявку и выполнить тестовое задание.
Более подробно можно прочитать вот тут.
На мой взгляд, самые симпатичные формы образования в современной России — подпольные, независимые и катакомбные. Вот, например, Летняя школа. В этом году наш маленький, но гордый дижитал-медиа-балаган “Системный Блокъ” снова делает там мастерскую по дата-журналистике. Вместе с нами мастерскую делают крутейшая дата-художница Надя Андрианова, команда “Ночлежки”, команда “Если быть точным”, журнал Кот Шредингера, человек-оркестр Илья Воронцов, команда Центра научной коммуникации ИТМО… Всех и не перечислить. Подавайтеcь, приезжайте, сами увидите. Цифровым филологам, конечно, тоже рекомендуется!
Что будет:
Две недели, с 19 июля по 3 августа, участники мастерской будут жить в палатках на берегу Волги (между Дубной и Кимрами) и учиться создавать истории на основе данных.
Первая неделя — лекции про дата-журналистику, анализ данных, визуализацию и дата-арт. Вторая неделя — проектная работа, дата-материалы на основе реальных данных от партнёров (Ночлежки, Кота Шрёдингера и др.).
После школы тексты можно доработать и опубликовать (например, после ЛШ-2024 вышел спецпроект про школьную программу по литературе и её удивительные метаморфозы в 20-21 веках).
Еще на летней школе принято сидеть у костра, поражаться красоте волжских закатов и танцевать на дискотеках 🏕🌅🕺
Кого ждём: опытных и начинающих журналистов, программистов, визуализаторов и всех, кто хочет лучше разобраться в дата-журналистике.
Как попасть: до 18 мая подать заявку и выполнить тестовое задание.
Более подробно можно прочитать вот тут.
Летняя школа
Мастерская дата-журналистики от издания «Системный Блокъ»
Наша цель вдохновить вас на использование технологий анализа и визуализации данных в ваших исследованиях. Мы поможем освоить нужные навыки работы с базовыми инструментами по анализу данных и визуализации. Вы получите возможность реализовать проект на мастерской…
❤🔥31❤15🔥11👍4🎉3