Telegram Group Search
Как разработать LLM с нуля на обычном ноутбуке и использовать в качестве личного помощника

Как говорил известный физик Ричард Фейнман, «чего не могу воссоздать, того не понимаю».

В своей новой книге Себастьян Рашка, чьи бестселлеры «Python и машинное обучение» и «Машинное обучение с PyTorch и Scikit-Learn» уже знакомы как начинающим дата-сайентистам, так и опытным специалистам в Machine Learning & Deep Learning, предлагает читателю самостоятельно шаг за шагом создать большую языковую модель (GPT-like). От планирования и написания кода до обучения и тонкой настройки.

Каждый этап в «Создании большой языковой модели» («Build a Large Language Model (From Scratch)» объясняется понятным текстом, диаграммами и примерами.

С открытой частью ресурса можно ознакомиться в GitHub-репозитории.

#Gpt #llm #ai #чтопочитать #ресурсы
Новое заседание «Цифровой среды» – уже на следующей неделе

На этот раз на научном онлайн-семинаре Института цифровых гуманитарных исследований выступят сразу два спикера:

Борис Орехов
кандидат филологических наук, доцент Школы лингвистики НИУ «Высшая школа экономики», старший научный сотрудник Лаборатории цифровых исследований литературы и фольклора Института русской литературы (Пушкинский Дом) РАН, автор телеграм-канала и подкаста об университетах «Лига Айвы».

Даниил Скоринкин
кандидат филологических наук, исследователь и координатор DH-проектов в Университете Потсдама, главный редактор издания о цифровых технологиях в гуманитарных науках «Системный Блокъ».

Оба эксперта уже были гостями семинара по отдельности (вспоминаем выпуск с Борисом Валерьевичем о русском методе в стиховедении в контексте DH и выпуск с Даниилом Андреевичем о «взломе» стилометрии). А теперь нас ждет интересный разговор филологов из разных точек мира об использовании векторных семантических моделей в computational literary studies.

🕓 Встречаемся 27 ноября 2024, 14:00 (Москва) / 18:00 (Красноярск) / 12:00 (Потсдам)

🔜 Зарегистрироваться на семинар можно по ссылке

#цифроваясреда #смотреть #слушать #людиdh
Please open Telegram to view this post
VIEW IN TELEGRAM
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.

Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.

Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.

Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
Борис Орехов опубликовал новый датасет, в его основе геоданные, они отражают маршрут персонажа поэмы И. П. Мятлева «Сенсации и замечания госпожи Курдюковой за границею, дан л'этранже» (1840). Это очень любопытный текст, во многом построенный на перемещении в пространстве. В датасете это перемещение представлено в машиночитаемом виде, что согласуется с тенденцией пространственного поворота в гуманитарных науках. Ссылка на запрос, который позволяет получить подкорпус с поэмой в НКРЯ: https://ruscorpora.ru/s/eZjxR

Для цитирования: Орехов, Борис, 2024, "Маршрут путешествия в поэме И. П. Мятлева «Сенсации и замечания госпожи Курдюковой за границею, дан л'этранже»", https://doi.org/10.31860/openlit-2023.4-G003, Репозиторий открытых данных по русской литературе и фольклору, V1

Карта на основе данных: https://www.datawrapper.de/_/vKbBp/

Картинка для привлечения внимания — фото издания Мятлева с полки в Музее-квартире А. Блока в Петербурге.
Завершился первый сезон подкаста «Лига Айвы» Бориса Орехова про эстетику и атмосферу университетского пространства.

В гостях у Бориса Валерьевича побывало несколько заметных исследователей из числа работающих с цифрой гуманитариев. Предлагаем послушать выпуски, в которых приняли участие #людиDH, – авторы самых ярких блогов, статей, докладов о Digital Humanities, постоянные и будущие герои постов «Гуманитариев в цифре».

🔜Даниил Скоринкин
🔜Андрей Володин
🔜Елена Корчмина
🔜Анастасия Белоусова
🔜Полина Колозариди
🔜Антонина Пучковская

Ждем новых эпизодов «Лиги Айвы» в 2025 году 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел новый сезон в проекте Слово Толстого: Хроника жизни писателя: календарь, таймлайн и жизнь в картинках. Новое в этом сезоне - это тексты и их репрезентация. В проект добавлены тексты писем и дневников современников Толстого, прежде всего его жены Софьи Андреевны, его врача Душана Маковицкого, друга пианиста Александра Гольденвейзера и секретаря Николая Гусева. Даты всех документов синхронизированы с собственными дневниками и письмами Толстого и представлены в виде календаря, по которому очень удобно навигировать. Таймлайн - это ключевые события жизни и творчества Толстого, дополненные фотографиями и аудиокомменатриями исследователй.
Media is too big
VIEW IN TELEGRAM
«Мне кажется, это очень человеческий проект. Я просто зависала в этих текстах. Я пошла посмотреть, как оформляются сноски Гольденвейзера, как их перевести в формат цифровой разметки, и очнулась через два часа — просто дочитывая текст»

Живой разговор с Анастасией Бонч-Осмоловской, куратором лингвистической части «Слова Толстого», о том, как возникла идея проекта и почему он так интересен цифровым гуманитариям.
Дедлайн подачи заявок на главную DH конференцию продлен до 8 декабря. Digital Humanities 2025 пройдет в Португалии 18-18 июля.

https://dh2025.adho.org/call-for-proposals/
Круглый стол по созданию баз данных в социальных и гуманитарных науках

16 декабря прикладной центр машинного обучения, анализа данных и статистики совместно с образовательной программой  «Прикладной анализ данных» Европейского университета в Санкт-Петербурге приглашает всех желающих принять участие в круглом столе по созданию баз данных.

Исследователи и IT-специалисты представят доклады о разрабатываемых и уже существующих решениях для сбора и хранения данных.

🔜 Мероприятие состоится очно и онлайн в 13:00 (мск). Для участия в любом из этих форматов необходима предварительная регистрация.

🔜 Подробная информация
Please open Telegram to view this post
VIEW IN TELEGRAM
🤍Альянс цифровых гуманитарных проектов

К концу календарного года рассказываем о нашем новом долгосрочном деле — Альянсе цифровых гуманитарных проектов. Это инициатива с заделом на будущий год, да и вообще — на будущее.

Альянс — объединение специалистов, которые делают цифровые гуманитарные проекты.

Вместе мы будем:
> разрабатывать стандарты в индустрии;
> поддерживать существующие проекты;
> заниматься внедрением цифровых решений в институции.

🤍17 декабря с 14 до 19 часов в DH-центре ИТМО и в онлайне пройдёт первая встреча организаторов и участников Альянса.

В программе — доклады Анастасии Бонч-Осмоловской, Андрея Володина и Полины Колозариди — о ключевых вызовах и проблемах цифровых гуманитарных проектов, а потом — обсуждение конкретных задач, проблем и инициатив. Расписанием мы поделимся в ближайшее время, а пока сохраняйте дату себе в календарь.

В этот день мы будем рады гостям. Если вы хотите прийти послушать, а может быть, познакомиться или даже присоединиться со своим проектом к Альянсу, заполните форму по ссылке.

До встречи 🤍
Please open Telegram to view this post
VIEW IN TELEGRAM
Уже завтра!!!
🤍 Программа первой встречи Альянса цифровых гуманитарных проектов

Уже завтра, 17 декабря, в 14:00 по мск/спб мы встречаемся в DH-центре и онлайне на учредительном съезде Альянса. Подробности об этом новом проекте читайте в этом посте, а тут — делимся расписанием.

14:00–15:00
Открытие и доклады

> Устойчивость, внедрение, изменение: проблемы долгосрочного существования цифровых гуманитарных проектов и как его обеспечить (Полина Колозариди, ИТМО)
> Потребности, возможности и целесообразность единых подходов и стандартизации к инфраструктуре для реализации DH-проектов (Павел Лушников, РГБ)
> Incepta humaniores sub specie aeternitatis (Андрей Володин, МГУ)
> Осознаём ли мы все вызовы? (Анастасия Бонч-Осмоловская, ИРЯ РАН, CultTech)

15:10–16:20
Дискуссия

Обсудим ключевые вопросы о развитии цифровых гуманитарных проектов:
— нужно ли делать проекты с заделом на внедрение или внедрение — это отдельная работа?
— на какие технологические решения нам ориентироваться?
— какие из организаций могут обеспечить долгосрочное развитие: университеты/IT/культурные институции/архивы и госструктуры?
— какое место занимает новый Альянс среди других существующих подобных организаций, чем мы отличаемся от других?
— какие стандарты нужны для формирования устойчивости?

Если вы ещё не зарегистрировались в качестве слушателя, но планируете присоединиться, — до 20:00 сегодня заполните форму по ссылке.

🤍До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
Уже завтра состоится открытие Конференции, посвященной 20-летию Национального корпуса русского языка!

В течение двух дней участники мероприятия обсудят широкий круг вопросов – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса, от применения нейросетевых моделей в подготовке корпусных данных до использования НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.

Мероприятия пройдут очно в Инстиуте русского языка РАН по адресу: ул. Волхонка, 18/2.

Программу конференции можно найти на сайте института.

Предусмотрена онлайн-трансляция пленарных докладов по ссылке.
дайджест DH-центра ИТМО | 2024.pdf
5.5 MB
DH-дайджест 2024 → 2025

Как и принято к концу середины декабря — подводим итоги года. На этот раз начинаем с открытий, запусков, трендов и больших общих дел, о которых рассказываем в тематическом дайджесте.

Мы собрали важные события, что произошли в нашей сфере, а также материалы, статьи, проекты, которые появились в течение года и, как нам кажется, являются знаковыми вехами в мире цифровых гуманитарных исследований и проектов. Авторами дайджеста выступили команда и друзья DH-центра.

Внутри пять тематических блоков:

— интерфейсы
— юзеры
— оцифровка культурного наследия
— искусственный интеллект
— DН

В конце дайджеста — предсказания возможных трендов, а также наши большие и маленькие, общие и частные надежды на будущий год.

🤍 Надеемся, что дайджест окажется у вас в списке для неспешного чтения на каникулах, а также хотим верить, что такой формат станет ежегодной традицией.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙂 Премия Digital Humanities Awards 2024

До 26 января можно громко заявить о своем DH-проекте/ресурсе/статье или блоге, подав заявку на премию DH Awards 2024.

DH Awards – профессиональная общественная премия в Digital Humanities, действующая с 2012 года. Одна из идей международного конкурса – популяризация DH, привлечение внимания к деятельности талантливых представителей DH-сообщества.

Номинации премии:

- DH для развлечения
- DH-визуализация данных
- DH-провал года
- короткий DH-формат: блог, статья, видео
- DH-инструмент или набор инструментов
- DH-набор данных
- обучающие DH-материалы
- DH-ресурс: цифровое научное издание, архив, репозиторий

🔜 Важно, чтобы номинируемая работа была запущена/завершена/значительно обновлена в 2024 году.

🔜 Премия не привязана к географии, языку, организации или области гуманитарных наук. Поощряется номинирование проектов/ресурсов/статей коллег. Можно номинировать несколько достойных работ.

🔜 Подать заявку

#dhawards #dhawards2024 #DHRI
Please open Telegram to view this post
VIEW IN TELEGRAM
🙂 Семинар «Цифровые гуманитарные проекты: модели, проблемы, перспективы» стартует уже через час!

На площадках трех университетов (Президентская академия, ИТМО и СФУ) историки, филологи, философы, социальные исследователи представят актуальные проекты и обсудят:

• можно ли дать общее определение целей, контуров, типов цифровых гуманитарных проектов?

• какие существуют / торжествуют модели управления / выполнения / существования проектов?

• с какими основными проблемами встречаются команды проектов?

• как быть с сохранением / старением / обновлением проектов?

• проекты создаются для исследовательских целей или для презентации гуманитарного знания?

• кто аудитория цифровых гуманитарных проектов — ученые или «широкая общественность»?
Please open Telegram to view this post
VIEW IN TELEGRAM
«Кладя количест­венный учет и микроанализ в основу исследования, я только предлагаю сделать для литературоведения то, что полтораста лет тому назад сделал Лавуазье для химии, и не сомневаюсь, что результаты не заставят себя ждать»…

В «Системном Блоке» вышло посмертное «интервью» с пионером статистического литературоведения Б. И. Ярхо. Борис Ярхо — один из самых недооцененных филологов знаменитого поколения «русских формалистов» 1910-х — 1920-х. В отличие от куда более известных Проппа, Шкловского, Тынянова и Эйхенбаума, Ярхо оставался неизвестен на Западе и малоизвестен в России вплоть до начала XXI века, когда его пионерские работы по количественному литературоведению стали актуальны с приходом цифровых методов.

Переработав текст главного научного завещания Ярхо — книги «Методология точного литературоведения» — в формат диалога, авторы «интервью» попытались показать, каким ученый видел будущее литературоведения, какие принципы легли в основу его метода и как наука и жизнь оказались переплетены в его исследовательской практике. А еще из книги были извлечены и инкрустированы в текст интервью конкретные примеры количественных исследований и экспериментов Ярхо — как проделанных, так и только намеченных, но не осуществленных
Не только и не просто презентация проекта Пушкин Digital, но еще и важный разговор о чтении и восприятии в цифровой среде - такая социология пользователя цифровых продуктов. Присоединяйтесь!
картинка смешная, но рассказывать будем не про наш труд, а про то:

- что такое цифровая среда для гуманитарного проекта, почему некоторые проекты — цифровее других

- как институции воспроизводят читателей А. С. Пушкина и сколько тысяч выпускников гуманитарных направлений работают по специальности

- все ли читатели на самом деле читают, и что они делают вместо этого

- чем образ Пушкина отличается в медиа, науке и учебниках, и могут ли цифровые гуманитарные проекты могут изменить ситуацию (и хотят ли),

- и конечно, рассказы о том, как люди пользуются pushkin.digital, и что мы будем исследовать дальше.

можно прийти завтра в 13.00 в зум, а ещё можно почитать отчёт (немного черновой, зато большой). про это можно у меня в личке спросить.

https://www.group-telegram.com/pushkin_digital/62
2025/03/09 14:40:31
Back to Top
HTML Embed Code: