Telegram Group Search
«Системный Блокъ»: лучшее за 2024 год

По традиции 31 декабря «Системный Блокъ» публикует подборку лучших материалов уходящего года. 

Дата-исследование года

«Классное чтение» — исследование школьных программ по литературе с 1919 по 2022 годы. Мы выяснили, какие авторы и произведения входят в школьный литературный канон, как за сто лет изменилось изучение зарубежной и региональной литературы, и удостоверились, что Пушкин наше все во все времена (а еще Шекспир, Лев Толстой,  Горький и другие).

Интервью года

Игорь Мельчук о нетрадиционной лингвистике и машинном переводе. В 2024 году «Системный Блокъ» выпустил девять интервью. Наши собеседники рассказывали об оцифровке дневников, нейролингвистических исследованиях, истории интернета, клиодинамике, искусственном интеллекте. Но особенно мы гордимся интервью с лингвистом Игорем Мельчуком, одним из основоположников российской математической лингвистики и Московской семантической школы. Он рассказывает, как в 1950-е годы в Советском союзе начинался машинный перевод и как была создана теория «Смысл Текст».

Погружение года

На сайте «Системного Блока» появился раздел «DH: точка входа». На одной странице мы собрали все, что нужно знать начинающему цифровому гуманитарию: методы DH, основные понятия, список экспертов, полезное чтение и образовательные программы.

Филологическое исследование года

Как поймать всех животных в тексте? Пересказываем исследование Кирилла Маслинский, научного сотрудника Пушкинского дома, который на материале корпуса детской литературы изучил закономерности упоминания в текстах животных. Теперь мы знаем, в каких жанрах преобладают птицы, а в каких — обитатели подводного мира. 

Дайджест года 

Мы сделали регулярным дайджест новостей из мира нейросетей и искусственного интеллекта. С марта вышло 18 выпусков, в которых мы рассказываем о новых больших языковых моделях, продуктах и сервисах с использованием ИИ. 

Партнерство года

Вместе с благотворительной организацией «Ночлежка», Благотворительной больницей и платформой «Если быть точным» мы проанализировали, что влияет на причины смертности бездомных женщин и мужчин. 

Гайд года

Как сделать исследование с помощью Voyant Tools? Мы выпустили самый подробный гайд на русском языке по использованию популярного инструмента для корпусного анализа текстов Voyant Tools. Здесь в все - от подготовки корпуса до визуализации. 

Техноистория года

В материале о развитии перфокарт мы рассказывали, что общего у ткацкого станка и первых вычислительных машин, какой вклад гомеопатия внесла в историю технологий и какое наследие перфокарт сохранилось до сих пор. 

Тесты года 

Мы продолжаем делать для вас веселые и познавательные тесты. Например, угадывали птиц по фотографиям, изучали ругательства в НКРЯ и разбирались в значении эмодзи. Выбрать одного фаворита из этой рубрики слишком сложно!

Больше о наших главных материалах 2024 можно узнать из подробных итогов года на сайте, а если какие-то тексты особенно запомнились вам – расскажите о них в комментариях! 

С Новым годом 🎄

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест: Путин или ChatGPT? Угадайте, какое новогоднее обращение действительно принадлежит президенту, а какое сгенерировала нейросеть

Цифровые методы можно использовать с разными текстами: длинными и не очень, принадлежащими одному автору или нескольким, написанными за короткий срок или на протяжении длительного периода времени. Мы решили изучить цифровыми методами новогодние обращения Владимира Путина и заодно проверить, насколько хорошо справляются с написанием подобных речей современные языковые модели.

Для нового теста мы сделали тематическое моделирование корпуса текстов с помощью программы Mallet, построили кривые эмоциональной тональности текста с помощью Python и RuBERT и выяснили, как менялась длина новогодних обращений с 2000 по 2023 годы.

Проходите тест и узнаете, удалось ли ChatGPT сгенерировать предновогодние речи и какая лексика попала в облако слов новогодних обращений (спойлер: долг, испытание и дело вы там точно найдёте)

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое датасет?

Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.

Кратко: о чем статья?

Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.

Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).

Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.

Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.

Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое гражданская наука?

Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.

Первые энтузиасты

C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.

Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.

Цели и тенденции

Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня —  мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.

Примеры проектов

Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.

Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой.  Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.

Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)

Время чтения: 5,5 минут


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Думать или делать: исследуем глаголы в английской литературе

Что помогает нам лучше узнать персонажа – речь или действия? Что, если действия персонажа могут говорить даже больше, чем его слова и мысли, обычно находящиеся в центре повествования? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании глаголов в художественной литературе, которое дает ответы на эти (и не только) вопросы.

Кратко: что за исследование?

Недавно канадский профессор в области литературоведения и Digital Humanities Эндрю Пайпер решил изучить, чем заняты персонажи книг и как их действия помогают в создании цельного образа. Для этого он взял два датасета: CONLIT, состоящий из 2 754 текстов английской прозы (художественной и нехудожественной) в двенадцати разных жанрах, и HATHI1M, который содержит коллекцию из 1 671 370 случайно отобранных страниц английских текстов, опубликованных между 1800 и 2000 годами.

В качестве основного рабочего инструмента использовался инструмент BookNLP, который может находить упоминания персонажей, включая разные формы имени героев и связанные с ними местоимения.

Как обнаружилось, самые частые глаголы в характеристиках персонажей относятся к актам коммуникации, за ними следуют движение и познание. Причем в нехудожественных текстах больше когнитивных действий, а в художественных – физически воплощенных, телесных. Более того, тенденция к выражению личной агентности именно через тело (а не через сознание, как привычно считать) усиливается с течением времени. 

Узнать, как глаголы распределены по текстам разных жанров, как это исследование связано с Theory of Mind (теорией сознания) и понятием агентонсти, и каким еще выводам пришел Пайпер, можно из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
История диалоговых систем

Мы взаимодействуем с диалоговыми системами повсюду: когда бронируем столик в кафе, записываемся к врачу или звоним в поддержку. Все более похожие на человека чат-боты приобретают голос и эмоции, приносят пользу бизнесу и обычным пользователям. «Системный Блокъ» рассказывает, когда чат-боты стали повсеместными, как они учились и как воспроизводят естественный разговор.

Кратко: о чем статья?

Дизайн диалоговых интерфейсов — это индустрия создания систем, имитирующих человеческое общение. Одна из основных ее задач — сделать общение с ботом естественным, эффективным и не трудозатратным. Диалоговые системы понимают и устную, и письменную речь, а успешность их работы и распознавания напрямую зависит от доступных технологий.

История чат-ботов началась в 1952 году, когда американская корпорация создала Audrey — голосовой интерфейс, способный превратить голос в текст. Машина могла распознавать только цифры от 0 до 9 и заходила в тупик, слыша новый голос.

Создание в 1960-х годах в Массачусетском технологическом институте чат-бота ELIZA стало историческим. Она как бы исполняла роль психотерапевта, задавая вопросы из заранее составленного списка в ответ на текстовое сообщение. Например, если собеседник говорил, что ему грустно, Элиза уточняла: «Почему тебе грустно?»

В 1995 году была создана ALICE, вдохновленная Элизой. Она научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора.

Большой прорыв в диалоговых системах случился в 2011 году, когда Apple разработали Siri, в которой объединились голосовые команды и чат-бот-система. Siri стала первым виртуальным ассистентом, который можно взять с собой куда угодно, а список ее возможностей для своего времени был внушительным: найти ответ в Интернете, начать звонок, подсказать дорогу, отправить сообщение и т. д.

Хотя сегодня возможности диалоговых достигли небывалых высот, им есть куда стремиться. Чат-боты все еще вынуждают пользователей подстраиваться под себя, а многие диалоговые системы говорят только на английском.

Более подробно об истории создания чат-ботов и грани между людьми и говорящими машинами, читайте в полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Играем по-серьёзному: как Serious Games меняют подход к обучению

Идея геймификации образования восходит ещё к эпохе Ренессанса, однако совершенно новым подходом стали серьёзные игры. Их основная цель— решение конкретных задач из реальной жизни, а также обучение или развитие навыков, а не развлечение или веселье. Рассказываем об особенностях такого подхода к образованию и его эффективности.

Что за серьезные игры?

Внешне Serious Games напоминают классические: с соревновательностью, аналогичным игровым процессом и интерфейсом. Но при этом в них вшиты образовательные цели, которые как бы скрыты от пользователя. Кроме того, серьёзные игры отличаются научной обоснованностью: рецензируемый научный журнал The International Journal of Serious Games ежеквартально выпускает статьи, посвящённые теоретическим, экспериментальным и прикладным аспектам разработки, внедрения и оценки таких игр.

Серьёзные игры во многом эффективны потому, что их механика, нарратив и дизайн включают в себя конкретные задачи — обучать, вдохновлять и приводить к образовательным результатам. Кроме того, они позволяют моделировать ситуации, которые в реальной жизни требуют значительных ресурсов или времени.

Duolingo

Один из самых известных примеров таких игр — Duolingo. Чтобы мотивировать пользователей учить языки, приложение использует игровые механики: дерево навыков, очки опыта и виртуальную валюту.

Foldit

Foldit — игра-головоломка, которая предсказывает структуру белков. Это одна из самых сложных задач в биологии. Созданная Центром игровых наук и кафедрой биохимии Университета Вашингтона, игра привлекла внимание широкой публики благодаря своей инновационной концепции: исследователи анализируют полученные игроками лучшие решения и применяют их для изучения болезней, разработки новых лекарств и биологических технологий.

Evolution of Trust

Ещё один пример — The Evolution of Trust, созданная педагогом и гейм-дизайнером Ники Кейзом. Эта игра объясняет, как возникают и разрушаются доверительные отношения, а также почему это важно для общества и как мы можем «изменить правила игры» для улучшения взаимодействий. The Evolution of Trust моделирует простую ситуацию: два игрока принимают решения в рамках вариации дилеммы заключённого. Весь процесс прохождения занимает около 30 минут, что идеально подходит для образовательных целей или кратких тренингов.

Ещё больше примеров серьезных игр  в сферах экономики, менеджмента, культуры, политики и даже генетики, найдете в полной версии статьи. Из нее же можно узнать больше о преимуществах и недостатках этого метода обучения.

Время чтения: 17 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Больше, чем энциклопедия: Википедии 24 года!

Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии. 

🖥️ Утопия и реальность

В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.

⌨️ Три уровня свободы

Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.

👨🏻‍💻 Ресурс для больших корпораций

Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.

О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Цифровой гербарий МГУ в цифрах

9 миллионов просмотров, 16 тысяч книг и 284 волонтера. Доктор биологических наук Алексей Серегин рассказывает о Цифровом гербарии МГУ в новом тексте своего блога. Кстати, недавно мы уже писали о Гербарии МГУ, изучая особенности гражданской науки.

🌿 1 347 746 образцов

Число образцов – это число записей в базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке.

👁️ 9 650 126 просмотров

Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому точно известно, что с момента запуска портала осенью 2016 года в среднем набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту).

🤝 1 062 143 ответов в «Помогаторе»

Платформа «Помогатор» позволяет волонтерам участвовать в оцифровке метаданных образцов Цифрового гербария МГУ. Это и игровой модуль, и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем по 1–1,5 тыс. ответов в день.

📚 16 437 книг

Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после смерти ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся. 

🙋‍♂️ 284 помощника

Это число участников, которые, зарегистрировавшись в «Помогаторе», способствуют наполнению базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники.

Еще больше о Цифрового гербарии МГУ можно узнать из версии текста на сайте. Там вы найдете, например, информацию о том, сколько геопривязок можно найти на сайте проекта и как они распределились по стране и миру.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы

31 июля 1969 года в офисы нескольких американских газет поступили письма с примерно одинаковым содержанием. Анонимный автор писал, что берёт на себя ответственность за серию убийств, и угрожал продолжить убивать, если приложенные материалы не будут опубликованы. К каждому из писем прилагался лист со 136 символами.

Так начинается история о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, почему тексты Зодиака не могли дешифровать на протяжении 50 лет, как криптографам всё-таки удалось его раскусить и какие вообще бывают шифры. 

Как расшифровали первый текст?


После публикации зашифрованных писем в газетах супруги Дональд и Бетти Харден расшифровали криптограмму, которая станет известна как Z408 (по первой букве имени Zodiac и количеству использованных знаков). Убийца использовал один из шифров подстановки: каждой букве соответствовал один или несколько использованных в шифровке символов.

Что за подстановка?

Все способы симметричного шифрования (где для шифрования и расшифровывания используется один и тот же ключ) строятся на двух принципах: подстановке и перестановке. В шифрах подстановки элементы исходного текста в соответствии с неким правилом заменяются на другие, шифрующие, элементы. 

Почему не поймали Зодиака?

Следующие тексты убийцы расшифровать так же быстро не получилось. После ряда безуспешных попыток дешифровки криптографы заметили странность: в Z340 частота встречаемости биграмм практически соответствовала случайному распределению, в отличие от Z408. Это натолкнуло исследователей на мысль о возможном использовании перестановки.

А что за перестановка?

В шифрах перестановки элементы текста остаются неизменными, но переставляются в порядке, отличном от исходного. К таким можно отнести, например, анаграммы, в которых буквы исходного слова перемешиваются, образуя другое слово, — правда, без строгого следования какому-то алгоритму. 

И что было дальше?

Затем в дело вступили цифровые технологии. В 2006 году группа программистов создала софт ZKDecrypto, способный автоматически дешифровать Z408. На его основе Ян Ван Эйке в 2014 году создал AZdecrypt, решающий до двухсот подобных шифров в секунду.
 
AZdecrypt эффективно справлялся с решением шифров подстановки, позволяя быстро находить слова в последовательностях символов. Однако оставалась задача определения правильного порядка расположения этих символов. Решить её удалось только в 2020 году.

Исследователи отмечают, что шифр оставался неразгаданным столь долго из-за множества преднамеренных усложнений, внесённых Зодиаком. Среди них — разделение текста на секции и сложные перестановки с нарушением последовательности. Зодиак успешно применил принцип «безопасность через неясность» (security through obscurity), предполагающий, что сама трудность выявления метода шифрования служит его защитой.

Прочитать примерный перевод сообщения Зодиака, написанного с помощью Z430, узнать о шифрах Цезаря и Бофора, а также о том, почему Z13 и Z32, вероятно, никогда не будут расшифрованы, можно из полной версии статьи.

Время чтения: 16 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Прогулка по древней Москве: виртуальная реконструкция Белого города

Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.

Что такое Белый город?

Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.

Как проходила реконструкция?

Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.

Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.

Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.

Что получилось в итоге?

Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.

Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.

Время чтения: 6,5 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Театры и школы в текстах: анализируем именованные сущности

Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка. 

В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.

Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1

Рассказываем, что произошло в мире ИИ за последнее время.

Полтриллиона долларов на дата-центры

Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.

Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.

Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.

ИИ-агенты от OpenAI, ByteDance и Perplexity

Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.

В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.

Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.

ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.

Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.

DeepSeek R1 в открытом доступе

Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.

Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.

Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Zoom после 55: как устроено цифровое образование для старших возрастов

Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.

Кратко: о чем статья?

Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).

После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.

Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.

В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.

Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.

Время чтения: 15 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Коэволюция и кооперация: как биологи и лингвисты изучают эволюцию языка

Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.

От Сократа до санскрита

Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.

Мутации и дрейф (языковых) генов


Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.

Природа неправильных глаголов

Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.

Поиск языковых предков

Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер: лидирует гипотеза о том, что протоиндоевропейский язык мог возникнуть в Закавказье, откуда потом распространился севернее, в степи).

Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.

Время чтения: 13 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Языки программирования vs естественный язык: сходства и отличия

Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞

Что происходит под капотом компьютера?

Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:

BB 11 01 B9 0D 00 B4 0E 8A

Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂

Что же такое языки программирования?

Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.

Какие языки программирования особенно близки к человеческим?

Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).

В чем сходства языков программирования с естественными?

В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.

А в чем отличия?

Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.

Подробнее читайте в
блоге Бориса Орехова или смотрите его видео

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?

Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?

Кратко: о чем статья?

За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.

Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.

К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.

Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.

О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/02/03 20:10:20
Back to Top
HTML Embed Code: