Цифровой гербарий МГУ в цифрах
9 миллионов просмотров, 16 тысяч книг и 284 волонтера. Доктор биологических наук Алексей Серегин рассказывает о Цифровом гербарии МГУ в новом тексте своего блога. Кстати, недавно мы уже писали о Гербарии МГУ, изучая особенности гражданской науки.
🌿 1 347 746 образцов
Число образцов – это число записей в базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке.
👁️ 9 650 126 просмотров
Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому точно известно, что с момента запуска портала осенью 2016 года в среднем набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту).
🤝 1 062 143 ответов в «Помогаторе»
Платформа «Помогатор» позволяет волонтерам участвовать в оцифровке метаданных образцов Цифрового гербария МГУ. Это и игровой модуль, и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем по 1–1,5 тыс. ответов в день.
📚 16 437 книг
Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после смерти ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся.
🙋♂️ 284 помощника
Это число участников, которые, зарегистрировавшись в «Помогаторе», способствуют наполнению базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники.
Еще больше о Цифрового гербарии МГУ можно узнать из версии текста на сайте. Там вы найдете, например, информацию о том, сколько геопривязок можно найти на сайте проекта и как они распределились по стране и миру.
🤖 «Системный Блокъ» @sysblok
9 миллионов просмотров, 16 тысяч книг и 284 волонтера. Доктор биологических наук Алексей Серегин рассказывает о Цифровом гербарии МГУ в новом тексте своего блога. Кстати, недавно мы уже писали о Гербарии МГУ, изучая особенности гражданской науки.
🌿 1 347 746 образцов
Число образцов – это число записей в базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке.
👁️ 9 650 126 просмотров
Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому точно известно, что с момента запуска портала осенью 2016 года в среднем набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту).
🤝 1 062 143 ответов в «Помогаторе»
Платформа «Помогатор» позволяет волонтерам участвовать в оцифровке метаданных образцов Цифрового гербария МГУ. Это и игровой модуль, и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем по 1–1,5 тыс. ответов в день.
📚 16 437 книг
Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после смерти ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся.
🙋♂️ 284 помощника
Это число участников, которые, зарегистрировавшись в «Помогаторе», способствуют наполнению базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники.
Еще больше о Цифрового гербарии МГУ можно узнать из версии текста на сайте. Там вы найдете, например, информацию о том, сколько геопривязок можно найти на сайте проекта и как они распределились по стране и миру.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Цифровой гербарий МГУ в пятнадцати цифрах - Системный Блокъ
Цифровой гербарий МГУ — это более 1.3 млн отсканированных образцов растений, из которых почти миллион уже снабжены машиночитаемой геопривязкой, а 650 тысяч имеют расшифрованную этикетку. С расшифровкой и геокодированием помогают более 290 волонтеров в системе…
Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы
31 июля 1969 года в офисы нескольких американских газет поступили письма с примерно одинаковым содержанием. Анонимный автор писал, что берёт на себя ответственность за серию убийств, и угрожал продолжить убивать, если приложенные материалы не будут опубликованы. К каждому из писем прилагался лист со 136 символами.
Так начинается история о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, почему тексты Зодиака не могли дешифровать на протяжении 50 лет, как криптографам всё-таки удалось его раскусить и какие вообще бывают шифры.
Как расшифровали первый текст?
После публикации зашифрованных писем в газетах супруги Дональд и Бетти Харден расшифровали криптограмму, которая станет известна как Z408 (по первой букве имени Zodiac и количеству использованных знаков). Убийца использовал один из шифров подстановки: каждой букве соответствовал один или несколько использованных в шифровке символов.
Что за подстановка?
Все способы симметричного шифрования (где для шифрования и расшифровывания используется один и тот же ключ) строятся на двух принципах: подстановке и перестановке. В шифрах подстановки элементы исходного текста в соответствии с неким правилом заменяются на другие, шифрующие, элементы.
Почему не поймали Зодиака?
Следующие тексты убийцы расшифровать так же быстро не получилось. После ряда безуспешных попыток дешифровки криптографы заметили странность: в Z340 частота встречаемости биграмм практически соответствовала случайному распределению, в отличие от Z408. Это натолкнуло исследователей на мысль о возможном использовании перестановки.
А что за перестановка?
В шифрах перестановки элементы текста остаются неизменными, но переставляются в порядке, отличном от исходного. К таким можно отнести, например, анаграммы, в которых буквы исходного слова перемешиваются, образуя другое слово, — правда, без строгого следования какому-то алгоритму.
И что было дальше?
Затем в дело вступили цифровые технологии. В 2006 году группа программистов создала софт ZKDecrypto, способный автоматически дешифровать Z408. На его основе Ян Ван Эйке в 2014 году создал AZdecrypt, решающий до двухсот подобных шифров в секунду.
AZdecrypt эффективно справлялся с решением шифров подстановки, позволяя быстро находить слова в последовательностях символов. Однако оставалась задача определения правильного порядка расположения этих символов. Решить её удалось только в 2020 году.
Исследователи отмечают, что шифр оставался неразгаданным столь долго из-за множества преднамеренных усложнений, внесённых Зодиаком. Среди них — разделение текста на секции и сложные перестановки с нарушением последовательности. Зодиак успешно применил принцип «безопасность через неясность» (security through obscurity), предполагающий, что сама трудность выявления метода шифрования служит его защитой.
Прочитать примерный перевод сообщения Зодиака, написанного с помощью Z430, узнать о шифрах Цезаря и Бофора, а также о том, почему Z13 и Z32, вероятно, никогда не будут расшифрованы, можно из полной версии статьи.
Время чтения: 16 минут
🤖 «Системный Блокъ» @sysblok
31 июля 1969 года в офисы нескольких американских газет поступили письма с примерно одинаковым содержанием. Анонимный автор писал, что берёт на себя ответственность за серию убийств, и угрожал продолжить убивать, если приложенные материалы не будут опубликованы. К каждому из писем прилагался лист со 136 символами.
Так начинается история о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, почему тексты Зодиака не могли дешифровать на протяжении 50 лет, как криптографам всё-таки удалось его раскусить и какие вообще бывают шифры.
Как расшифровали первый текст?
После публикации зашифрованных писем в газетах супруги Дональд и Бетти Харден расшифровали криптограмму, которая станет известна как Z408 (по первой букве имени Zodiac и количеству использованных знаков). Убийца использовал один из шифров подстановки: каждой букве соответствовал один или несколько использованных в шифровке символов.
Что за подстановка?
Все способы симметричного шифрования (где для шифрования и расшифровывания используется один и тот же ключ) строятся на двух принципах: подстановке и перестановке. В шифрах подстановки элементы исходного текста в соответствии с неким правилом заменяются на другие, шифрующие, элементы.
Почему не поймали Зодиака?
Следующие тексты убийцы расшифровать так же быстро не получилось. После ряда безуспешных попыток дешифровки криптографы заметили странность: в Z340 частота встречаемости биграмм практически соответствовала случайному распределению, в отличие от Z408. Это натолкнуло исследователей на мысль о возможном использовании перестановки.
А что за перестановка?
В шифрах перестановки элементы текста остаются неизменными, но переставляются в порядке, отличном от исходного. К таким можно отнести, например, анаграммы, в которых буквы исходного слова перемешиваются, образуя другое слово, — правда, без строгого следования какому-то алгоритму.
И что было дальше?
Затем в дело вступили цифровые технологии. В 2006 году группа программистов создала софт ZKDecrypto, способный автоматически дешифровать Z408. На его основе Ян Ван Эйке в 2014 году создал AZdecrypt, решающий до двухсот подобных шифров в секунду.
AZdecrypt эффективно справлялся с решением шифров подстановки, позволяя быстро находить слова в последовательностях символов. Однако оставалась задача определения правильного порядка расположения этих символов. Решить её удалось только в 2020 году.
Исследователи отмечают, что шифр оставался неразгаданным столь долго из-за множества преднамеренных усложнений, внесённых Зодиаком. Среди них — разделение текста на секции и сложные перестановки с нарушением последовательности. Зодиак успешно применил принцип «безопасность через неясность» (security through obscurity), предполагающий, что сама трудность выявления метода шифрования служит его защитой.
Прочитать примерный перевод сообщения Зодиака, написанного с помощью Z430, узнать о шифрах Цезаря и Бофора, а также о том, почему Z13 и Z32, вероятно, никогда не будут расшифрованы, можно из полной версии статьи.
Время чтения: 16 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Шифр убийцы: история, методы и современные способы дешифровки
Как был разгадан шифр серийного убийцы Зодиака? Какие технологии и методы помогли при его расшифровке? И почему загадочные послания оставались нераскрытыми десятилетиями? Ответы на эти и другие вопросы ищите в материале «Системного Блока».
Прогулка по древней Москве: виртуальная реконструкция Белого города
Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.
Что такое Белый город?
Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.
Как проходила реконструкция?
Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.
Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.
Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.
Что получилось в итоге?
Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.
Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.
Время чтения: 6,5 минут
🤖 «Системный Блокъ» @sysblok
Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.
Что такое Белый город?
Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.
Как проходила реконструкция?
Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.
Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.
Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.
Что получилось в итоге?
Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.
Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.
Время чтения: 6,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Прогулка по древней Москве: виртуальная реконструкция Белого города
Как реконструировать исторический облик города, который постоянно меняется? Виртуальная экскурсия по Белому городу Москвы XVI–XVIII веков.
Театры и школы в текстах: анализируем именованные сущности
Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка.
В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.
Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.
🤖 «Системный Блокъ» @sysblok
Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка.
В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.
Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Digital Humanities, или Цифровые методы в гуманитарных науках: точка входа - Системный Блокъ
Что такое DH? Digital Humanities (DH) — это направление исследований, предполагающее использование цифровых методов для приобретения новых знаний в
Как думаете, к какой категории в разметке CONLL/OntoNotes принадлежат «школа», «музей», «театр» или «библиотека»?
Anonymous Quiz
17%
LOC — это локации, то есть названия мест. В школе уж точно много всего происходит!
29%
ORG — организации. И в театре, и в музее наверняка есть своя структура.
53%
FAC — от слова facility, потому что это не просто какие-то места, а учреждения, построенные людьми.
Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1
Рассказываем, что произошло в мире ИИ за последнее время.
Полтриллиона долларов на дата-центры
Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.
Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.
Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.
ИИ-агенты от OpenAI, ByteDance и Perplexity
Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.
В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.
Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.
ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.
Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.
DeepSeek R1 в открытом доступе
Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.
Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.
Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
Полтриллиона долларов на дата-центры
Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.
Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.
Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.
ИИ-агенты от OpenAI, ByteDance и Perplexity
Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.
В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.
Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.
ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.
Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.
DeepSeek R1 в открытом доступе
Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.
Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.
Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.
Please open Telegram to view this post
VIEW IN TELEGRAM
Zoom после 55: как устроено цифровое образование для старших возрастов
Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.
Кратко: о чем статья?
Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).
После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.
Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.
В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.
Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.
Время чтения: 15 минут
🤖 «Системный Блокъ» @sysblok
Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.
Кратко: о чем статья?
Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).
После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.
Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.
В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.
Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.
Время чтения: 15 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Курсы для пенсионеров бесплатно, но с регистрацией: как устроено образование для самых старших
«Системный Блокъ» рассказывает, как устроено цифровое образование для пенсионеров. Рассматриваем проекты «Московское долголетие», «Активное долголетие» и многие другие.
Коэволюция и кооперация: как биологи и лингвисты изучают эволюцию языка
Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.
От Сократа до санскрита
Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.
Мутации и дрейф (языковых) генов
Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.
Природа неправильных глаголов
Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.
Поиск языковых предков
Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер: лидирует гипотеза о том, что протоиндоевропейский язык мог возникнуть в Закавказье, откуда потом распространился севернее, в степи ).
Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.
Время чтения: 13 минут
🤖 «Системный Блокъ» @sysblok
Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.
От Сократа до санскрита
Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.
Мутации и дрейф (языковых) генов
Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.
Природа неправильных глаголов
Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.
Поиск языковых предков
Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер:
Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.
Время чтения: 13 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как биологи и лингвисты вместе изучают эволюцию языков
Язык распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Рассказываем, как с его помощью реконструировать эволюцию человечества и какой вклад в языкознание внес Чарльз Дарвин.
Языки программирования vs естественный язык: сходства и отличия
Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞
Что происходит под капотом компьютера?
Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:
Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂
Что же такое языки программирования?
Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.
Какие языки программирования особенно близки к человеческим?
Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).
В чем сходства языков программирования с естественными?
В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.
А в чем отличия?
Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.
Подробнее читайте в блоге Бориса Орехова или смотрите его видео
🤖 «Системный Блокъ» @sysblok
Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞
Что происходит под капотом компьютера?
Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:
BB 11 01 B9 0D 00 B4 0E 8A
Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂
Что же такое языки программирования?
Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.
Какие языки программирования особенно близки к человеческим?
Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).
В чем сходства языков программирования с естественными?
В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.
А в чем отличия?
Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.
Подробнее читайте в блоге Бориса Орехова или смотрите его видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Языки машин и людей - Системный Блокъ
Языки программирования и естественные языки — и те и другие языки? И что будет, если их сравнить? И те и другие облегчают коммуникацию, но у них разные выразительные возможности. Разбираемся, какие.
Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?
Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?
Кратко: о чем статья?
За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.
Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.
К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.
Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.
О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?
Кратко: о чем статья?
За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.
Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.
К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.
Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.
О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.
Время чтения: 10 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Адаптация арабского письма: цифровые инструменты для правосторонних шрифтов
Как оптимизировать использование языков справа налево в программировании? С какими сложностями может столкнуться пользователь, используя арабскую письменность вместе с латиницей? Ответы на эти вопросы ищите в материале «Системного Блока».
«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
«Методология точного литературоведения». Научное завещание Бориса Ярхо
Борис Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Ярхо оставался неизвестен на Западе и малоизвестен в России вплоть до начала XXI века, когда его пионерские работы по количественному…
«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?
В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.
Что и как исследовали?
Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.
Что с английским корпусом?
Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.
А что с немецким?
Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.
А есть ли различия?
Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.
Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.
Время чтения: 8,5 минут
🤖 «Системный Блокъ» @sysblok
В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.
Что и как исследовали?
Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.
Что с английским корпусом?
Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.
А что с немецким?
Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.
А есть ли различия?
Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.
Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.
Время чтения: 8,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Насколько позитивна детская зарубежная литература?
Как «принцип Поллианны» проявляется в зарубежной литературе для детей и подростков? Рассказываем, как при помощи сентимент-анализа и векторных моделей проверяли эту теорию.
Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google
Рассказываем, что произошло в мире ИИ за последнее время.
Шум вокруг DeepSeek
Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT.
Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.
Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.
На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.
Автономный исследователь от OpenAI
OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.
Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.
Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.
Google обновила модель Gemini
Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:
1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.
2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).
3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.
Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.
Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.
🤖 «Системный Блокъ» @sysblok
*Meta признана в РФ экстремистской организацией
Рассказываем, что произошло в мире ИИ за последнее время.
Шум вокруг DeepSeek
Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT.
Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.
Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.
На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.
Автономный исследователь от OpenAI
OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.
Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.
Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.
Google обновила модель Gemini
Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:
1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.
2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).
3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.
Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.
Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.
*Meta признана в РФ экстремистской организацией
Please open Telegram to view this post
VIEW IN TELEGRAM
Как можно улучшить ответы языковых моделей? Гайд по промтам
Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.
👌🏻 Zero-shot prompting
Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).
✌🏻 One/few shot prompting
Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.
🙌🏻 Chain-of-Thought
Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.
Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.
👌🏻 Zero-shot prompting
Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).
✌🏻 One/few shot prompting
Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.
🙌🏻 Chain-of-Thought
Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.
Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Промты для нейросетей: как писать идеальные запросы к LLM
Рассказываем в нашем гайде про промт-инжиниринг и о том, как писать промты для нейросетей (LLM). Можно ли повысить качество ответов языковых моделей с помощью промтов? Как сделать так, чтобы их ответы следовали определенному формату? Как заставить модели…
Их Римская империя: жизнь и связи древних римлян в просопографических базах данных
Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать
Кратко: о чем статья?
Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.
Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.
Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.
Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.
Время чтения: 12 минут.
🤖 «Системный Блокъ» @sysblok
Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать
Кратко: о чем статья?
Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.
Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.
Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.
Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.
Время чтения: 12 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Жизнь и связи древних римлян: о чем могут рассказать просопографические базы данных?
Просопография занимается тем, что собирает данные о жизни и связях людей прошлого. Оцифрованные просопографические базы могут много рассказать о круге общения или перемещениях целых социальных групп или классов. На примере проекта Romans One by One рассказываем…
Какие языковые модели (LLM) хорошо пересказывают истории
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.
🤖 «Системный Блокъ» @sysblok
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как большие языковые модели справляются с суммаризацией художественных произведений?
Может ли искусственный интеллект составить саммари произведения? Насколько точен пересказ, сделанный ChatGPT, и чем может быть полезен ИИ для писателей?
Пушкин цифровой: два века работы в одном интерактивном издании
Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
🤖 «Системный Блокъ» @sysblok
Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Пушкин цифровой: два века работы в одном интерактивном издании
Возможно ли собрать двухсотлетнее наследие Пушкина и пушкинистики в единую систему? Ответ — в статье. Рассказываем о проекте, который сэкономит фанатам поэта 58 лет чтения.
DeepSeek-V3: коротко о главном
Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.
DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.
Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.
Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.
🤖 «Системный Блокъ» @sysblok
Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.
DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.
Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.
Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейролингвистика и Альцгеймер: ИИ учится диагностировать болезнь по речи
Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.
Кратко: о чем статья?
Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.
При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.
Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации — 97,18% — продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.
И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры.
Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.
Кратко: о чем статья?
Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.
При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.
Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации — 97,18% — продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.
И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры.
Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Анализ речи: как ИИ выявляет ранние признаки болезни Альцгеймера
Как искусственный интеллект помогает в ранней диагностике болезни Альцгеймера? Может ли анализ речи выявить первые симптомы нейродегенеративных заболеваний? И какие цифровые инструменты улучшат точность диагностики? Ответы на эти и другие вопросы ищите в…