Telegram Group Search
Позвони мне, позвони: как мобильные данные помогают изучать неравенство

У социального неравенства в разных странах есть множество причин и особенностей. Как есть и множество инструментов — в том числе цифровых — для изучения этой проблемы. Ученые из Сингапура, например, измерили городскую сегрегацию с помощью мобильных данных. Рассказываем о том, как социально-экономические группы оказались разделены не только в физическом, но и виртуальном пространстве города.

Кратко: о чём статья?

Обычно сегрегацию измеряют по месту жительства (residential segregation), высчитывая различные индексы сегрегации: самые популярные это индекс непохожести (index of dissimilarity), индекс энтропии (Theil’s entropy index) и индекс изоляции (isolation index). Для этого используют перепись населения и социально-экономические показатели, такие как уровень дохода.

Однако исследователи из MIT решили учесть не только место жительства, но и те места, которые люди посещают ежедневно, обратившись к мобильным данным. Они разделили город на более и менее дорогие ареалы вокруг каждого пользователя мобильной связи и распределили людей по категориям в зависимости от их места жительства: сделали шкалу из статусных кластеров. После этого ученые подсчитали индекс коммуникационной сегрегации для каждого пользователя сотовой сети. 

Это позволило убедиться, что люди с самым лучшим социально-экономическим положением являются самой сегрегированной частью населения и общаются в основном с себе подобными.
 
Помимо этого ученые измерили индекс физической сегрегации, который в зависимости от времени суток показывает, насколько активно человек взаимодействует с людьми из других статусных кластеров (спойлер: центр города становится более интегрированным во время обеда).

Узнать больше о городской сегрегаци, результатах исследования и посмотреть на (очень эффектную) карту коммуникаций Сингапура можно в статье на сайте.

Время чтения: 6,5 минут.
ChatGPT — 2 года!

Два года назад состоялся релиз ChatGPT — модели, о которой вы точно слышали, даже если не интересуетесь нейросетями и никогда не читали наши дайджесты новостей из мира искусственного интеллекта. А если всё-таки не слышали — загляните в наш каталог, где мы ультракратко просуммировали главную информацию. Вспоминаем наши материалы о чат-боте и разбираемся, как он изменил нашу жизнь (если вообще изменил).

ChatGPT и писатели


В 2023 году мы провели эксперимент, чтобы разобраться, как и чем будут различаться тексты ChatGPT и реального писателя по одному запросу (спойлер: тексты модели намного более консервативны). А ещё выяснили, что нейросети неплохо подражают стилю разных авторов, но допускают грамматические ошибки.

Пока мы писали эти материалы и общались с нейросетью, японская писательница Риэ Кудан не только написала роман с помощью ChatGPT, но и получила за него престижную литературную премию. Если вы тоже так хотите, мы собрали для вас инструкцию!

ChatGPT и фантазии

Ещё одна проблема ChatGPT – галлюцинации. Модель легко приписывает Толстому роман «Отцы и дети» и убеждает пользователя, что в фильме «Любовь и голуби» сыграла Эмили Блант. И хотя на английском бот отвечает чуть точнее, ошибок и выдумок всё равно много.

ChatGPT и новые версии

Модель периодически обновляется, но пользователи не всегда остаются довольны новыми версиями. О том, как улучшения показателей в некоторых типах задач могут помешать качественному выполнению привычных функций, мы рассказали здесь.


ChatGPT и вы

А что о ChatGPT думаете вы? Пользуетесь ли им ежедневно или никогда не взаимодействовали с нейросетью? Голосуйте в нашем опросе или расскажите о своем опыте работы с чат-ботом в комментариях под этим постом!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый журнал про цифровые гуманитарные науки на русском языке

В Институте русской литературы РАН будет дважды в год выходить журнал «Цифровые гуманитарные исследования». В ноябре 2024 года вышел его первый номер. Кроме научных статей, в журнале будут публиковать рецензии, обзоры конференций и дискуссионные статьи.

Исследования, представленные в первом номере, посвящены стилометрии древнегреческих текстов, поэтике романа «Что делать?» и цифровым коллекциям культурно-значимых данных. В номере также опубликована дискуссионная статья Бориса Орехова и Андрея Володина, которая является ответом на «некролог» российским Digital Humanities от Даниила Скоринкина (Digital Humanities in Russia Was Forever, Until It Was No More: The Story of Russian Digital Humanities in 2011–2022), опубликованный весной 2023 года.

Кроме того, журнал акцентирует внимание на ключевых событиях и значимых публикациях в области цифровых гуманитарных исследований. Среди материалов — статья Динары Гагариной с обзором круглого стола «Digital Humanities в Центральной Азии» и рецензия Дарьи Артемьевой на монографию Джулии Томпсон Кляйн, где освещается проблема разграничения областей знания в Digital Humanities.

Учредителем и издателем журнала является Институт русской литературы (Пушкинский Дом) РАН. Его главный редактор — Борис Орехов. Ознакомиться с первым номером, как и с последующими, можно бесплатно на сайте Пушкинского Дома. Там же можно узнать про условия отправки материалов.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Косинусная близость: как компьютер сравнивает объекты

Рассказываем, как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, маркетплейсы — какой похожий товар предложить, а интернет-поисковики находят темы, которые отвечают теме запроса. И всё это — с помощью косинуса угла между векторами.

Кратко: о чем статья?

Прежде чем сравнивать объекты, компьютер должен представить их в виде векторов — упорядоченных наборов чисел, которые формализуют свойства каждого объекта. Каждое число вектора характеризует какой-то признак объекта, например, цвет и размер товара, тональность текста, жанр и длительность фильма. Чем больше признаков у объекта, тем больше чисел в векторе (эти числа называют координатами вектора).

Между двумя векторами можно измерять расстояние и угол. Чтобы не измерять угол в градусах, его удобнее выражать через косинус. Косинус — это одна из тригонометрических функций, которая на вход принимает угол и сопоставляет ему число из диапазона от -1 до 1. Чем меньше угол между векторами, тем более схожи соответствующие объекты, и наоборот. Поэтому косинус между векторами также называют косинусной близостью.

Например, объекты, у которых соответствующие им векторы направлены одинаково (угол между ними 0 градусов), имеют с точки зрения косинуса максимальную близость, равную единице. A объекты, векторы которых указывают в противоположные направления (угол между ними 180 градусов), максимально удалены — у них косинус равен -1. Так, если на плоскости изобразить векторы, соответствующие трем рюкзакам (при этом их объем и количество отделений будут координатами по горизонтали и вертикали соответственно), то при подсчете косинусной близости между ними выяснится, что рюкзак объемом 2 литра с 6 отделениями более схож с рюкзаком объемом 1 литр и с 2 отделениями, нежели чем с рюкзаком, объем которого — 4 литра, а количество отделений — 2 штуки.

Чтобы узнать о том, как рассчитать косинус с помощью математических формул или компьютера, а также найти ссылку на проект в Google Colab, где вы можете попробовать рассчитать косинусную близость между разными словами, читайте полную версию статьи.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Новинки от OpenAI, новая LLM от Google, модель для генерации изображений от лаборатории Маска

Рассказываем, что произошло в мире ИИ за последнее время.

Адвент-календарь от OpenAI

С 5 декабря OpenAI ежедневно по будням анонсирует новые разработки и обновления своих продуктов.

Первым стал анонс подписки ChatGPT Pro стоимостью $200 в месяц. Она предоставляет неограниченный доступ ко всем языковым моделям компании, включая o1-pro (версия модели o1, которая рассуждает больше обычной версии), а также содержит все опции базовой подписки ChatGPT Plus за $20 в месяц.

Наиболее значимым событием стал публичный запуск Sora — модели для генерации видео (мы писали о ней ранее). Пользователи с подпиской Plus могут создавать до 50 видео в разрешении 480p или меньшее количество в 720p. Владельцам Pro-подписки доступно в 10 раз больше генераций.

Стала доступна интеграция ChatGPT с Apple Intelligence — системой искусственного интеллекта в последней версии iOS. Когда встроенный ассистент Siri не может ответить на запрос пользователя, система предлагает перенаправить его в ChatGPT.

OpenAI также представила возможность дообучать модель o1 на собственных данных, пока эта функция доступна ограниченному кругу пользователей.

Остальные обновления касаются сервисов компании:

- представлен новый режим Canvas для эффективной совместной работы над текстовыми документами и программным кодом. ChatGPT может предлагать правки, изменять стиль текста, комментировать код и помогать находить ошибки;

- в классическом интерфейсе ChatGPT добавлена возможность создавать проекты (папки) для группировки тематически связанных диалогов с общим контекстом;

- добавлена поддержка работы с видеопотоками: пользователи могут транслировать видео с камеры телефона и одновременно обсуждать происходящее с GPT голосом.

Крупное обновление языковой модели Google

Корпорация Google представила обновлённую версию своей языковой модели — Gemini 2 Flash. По результатам основных тестов новая модель превосходит предыдущую флагманскую версию и работает в полтора раза быстрее.

Gemini 2 Flash способна не только обрабатывать аудио, видео и изображения, но и генерировать их в качестве ответа. Например, при игре в крестики-нолики пользователь может отправить фотографию своего хода, а нейросеть ответит, добавив свой ход прямо на полученное изображение, то есть ответом будет не текст, а изображение.

В обновлении особое внимание уделено развитию агентных способностей модели — возможности выполнять различные задачи в разных средах (например, забронировать столик в ресторане или работать с компьютерными программами). Gemini 2 Flash демонстрирует улучшенные навыки планирования действий и запоминания истории взаимодействий. Кроме того, модель может эффективно работать с внешними инструментами, такими как Google Поиск и Google Maps.

Нейросеть для генерации изображений от xAI

Лаборатория xAI, принадлежащая Илону Маску, представила новую модель Aurora для генерации изображений на основе текстовых описаний.

В отличие от существующих решений, таких как Midjourney, Stable Diffusion и DALL-E, Aurora использует принципиально иной подход к созданию изображений. Она работает подобно языковым моделям, в то время как механизм генерации других систем построен совершенно иначе: как именно, можно прочитать в нашем материале.

Благодаря схожести с языковыми моделями, Aurora может использовать все существующие методы их оптимизации, однако уже для ускорения генерации изображений. Кроме того, модель демонстрирует более высокое качество работы с текстом, особенно при редактировании существующих изображений на основе текстовых инструкций.

Aurora доступна для тестирования в социальной сети X, но только для пользователей из ограниченного числа стран.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Бешеный принтер 2020–2022: как плодятся «чрезвычайные» законы

Чрезвычайные события, такие как пандемия или военные действия, порождают ограничительные законы. При этом многие законодательные изменения, изначально принимавшиеся как «чрезвычайные», оказываются долгосрочными и становятся нормой. Рассказываем, как статистика законотворчества позволяет проследить за этим трендом на примере массива законопроектов, рассматривавшихся и принимавшихся Государственной Думой в период весенней сессии 2020, 2021 и 2022 гг.

Кратко: что выяснилось?

Первое, что мы увидели – повышение так называемой «законотворческой эффективности» парламента во время кризиса. При сравнительно одинаковом количестве внесённых на рассмотрение законопроектов увеличивается число принятых законов и скорость их рассмотрения.

Помимо тренда на ускорение законотворческого процесса в РФ, заметна «регионализация» — расширение полномочий глав субъектов РФ. Для преодоления чрезвычайных ситуаций также создаются отдельные координационные структуры внутри государственной машины.  Например, в период пандемии ключевым органомом принятия решений стал Координационный совет при Правительстве РФ, чьи решения определяли основные ограничительные меры.

Наконец, исследование показало, что структуры, создаваемые для «ручного контроля» за чрезвычайными ситуациями, стремятся к превращению в регулярно действующие. Для них окончание действия чрезвычайной ситуации означает их собственное исчезновение. 

Узнать подробнее о тенденциях, связанных с «чрезвычайными» законами последних лет, можно из полной версии статьи.

Время чтения: 6,5 минут


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
От Роулинг до Лермонтова: как провести анализ тональности текста

Анализ тональности текста (Sentiment Analysis) — это процесс автоматического определения эмоциональной окраски содержания текста. Но как зафиксировать тонкие и динамичные изменения не в коммуникации, а в больших произведениях? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Рассказываем в нашем новом материале!

📕 К истории сентимент-анализа

Первые задачи анализа тональности решались с использованием заранее размеченных словарей, например, таких как kartaslovsent, где каждому слову соответствовала определённая эмоциональная оценка. С развитием технологий нейронных сетей появились более точные методы, основанные на эмбеддингах. Современные модели используют предобученные нейросети-энкодеры, такие как BERT, которые способны учитывать контекст и взаимосвязь между словами.

📗 Гарри Поттер и кривая эмоциональной тональности

Эндрю Рейган и его коллеги из Вермонтского университета создали одну из первых работ, описывающих изменение эмоциональной тональности на практике. Их исследование было посвящено книге «Гарри Поттер и Дары Смерти», самая счастливая точка которой приходится на первую четверть книги.

📘 Герой нашего времени

Мы решили повторить эксперимент Рейгана, но на примере романа М. Ю. Лермонтова. Для этого мы обратились к нейросети RuBERT и разбили текст на атомарные единицы. В случае книг для этого лучше всего использовать предложения – они  достаточно маленькие по размеру, но выражают законченную мысль.

Высшей точкой нашей кривой эмоциональной тональности оказалась глава о княжне Мэри, а низшей – дуэль с Грушницким. Правда, путь к красивому графику оказался тернистым. 

Если вы хотите узнать о сложностях, с которыми мы столкнулись, визуализируя эмоции в тексте Лермонтова, или изучить, как меняется эмоциональная окраска в вашем любимом (или нелюбимом!) тексте, переходите к нашему гайду.

Время чтения: 13 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Пробей крепостную стену: как понять науку через симуляторы

Хотите смоделировать процесс эволюции или работу человеческого глаза? Не можете разобраться в баллистике? Тогда воспользуйтесь интерактивным симулятором. Мы собрали самые интересные и рассказали, как они делают науку понятней и ближе.

👾 Что за симуляторы?

Интерактивные симуляторы — это цифровые инструменты, моделирующие реальные научные ситуации. Например, вы хотите провести эксперимент и увидеть, как двигаются молекулы и атомы, или какое воздействие на вещество оказывает тепло, но у вас нет лаборатории и инструментов. В таком случае используются виртуальные симуляторы. 

Интерактивные симуляторы возникли вместе с развитием систем электронного обучения. Со временем они стали доступны не только в виде программного обеспечения, но и в браузерах, а сегодня можно делиться ими в соцсетях и встраивать в собственные сайты.

🕺🏻 Травольтаж

Все желающие разобраться в физических законах могут изучить электростатику и электрическое напряжение в симуляторе «Травольтаж» (John Travoltage). Для этого совсем необязательно разбираться в физике — симуляторы очень понятны и наглядны, поэтому, играя, вы одновременно понимаете сложные вещи. В «Травольтаже», например, можно наэлектризовать об ковёр ногу Джона Траволты (отсюда и название: соединение английского voltage и фамилии актёра) и увидеть, как электрический заряд передается металлической дверной ручке.

🦎 Эволюция: 10,000

Если вас интересует вопрос, почему в ходе эволюции одни виды выжили, а другие нет, обратитесь к симулятору Evolution: 10,000, с помощью которого можно проследить эволюцию вымышленной популяции за 10 тыс. лет. После каждой тысячи лет ресурс будет сообщать о произошедших изменениях.

👁️ Наследственность: цвет глаз и ушные раковины

Чтобы узнать, почему у вас один цвет глаз, а у вашего знакомого другой, смоделируйте наследственность в симуляторе Heredity IV: Eye Color and Pinna. Вы можете тестировать один признак за раз или оба — цвет глаз и наличие ушной раковины. В последнем случае можно смоделировать дигибридное скрещивание.

О других симуляторах, которые помогают лучше понять физику, химию, биологию и другие науки — в том числе создавая собственные метательные аппараты и пробивая крепостные стены — мы рассказали в полной версии статьи.

Время чтения: 16 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Возраст несчастья: когда он наступает?

В новом материале «Системный Блокъ» рассказывает о состоянии несчастья с опорой на исследование Unhappiness and age. Изучаем компоненты неблагополучия, исследуем график невзгод и, конечно, показываем статистику, которая поможет разобраться в особенностях этого состояния.

Кратко: о чем статья?


Несчастье — это особое состояние человека, которое противопоставляется состоянию счастья и считается в первую очередь проблемой, связанной с ментальным здоровьем. Исследователь по фамилии Бланчфлауэр вывел переменные несчастья, которые можно разделить на четыре группы: связанные с психическим здоровьем, социальным взаимодействием, физическим самочувствием и национальным благополучием.

Изучение этих факторов показало, что кривая неблагополучия всегда представляет собой холм с пиком в возрасте 45–54 лет в среднем. По всему миру люди 45–54 лет чаще других испытывают тревогу и проблемы со сном, начинают жаловаться на хронические боли. Во многих странах на этот же возраст приходится максимальное количество самоубийств и смертей от передозировки наркотическими веществами или злоупотребления алкоголем.

Исследование Unhappiness and age дополняет другую работу, Is happiness U-shaped everywhere?, про уровень счастья и его график. Оказалось, что кривые счастья и несчастья зеркально отражают друг друга. Их минимум и максимум приходятся на промежуток 45–50 лет соответственно.

Посмотреть на визуализацию статистики и увидеть, на какой возраст приходится пик счастья и в какой момент графики сходятся в одной точке, можно благодаря полной версии статьи.

Время чтения: 6,5 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросети и доисторические рисунки: как исследовать петроглифы с оленями

Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. Помимо интерпретации сюжетов, дающих нам представление о быте и поверьях северных охотников, о способах ловли оленей и медведей, ученых интересует атрибуция: когда и какими культурами были оставлены эти изображения. Рассказываем, как можно классифицировать произведения древних людей при помощи нейросети.

Кратко: о чем статья?

Признаки доисторических изображений делят на содержательные, отвечающие на вопрос «что изображено?», и стилистические — «как изображено?». Именно стиль позволяет объединять изображения по «манере», «школе» и атрибутировать их. 

Особенно удобно изучать особенности стиля, сравнивая, как нарисованы одни и те же объекты. Например, Н.Н. Диков в 1971-м году предложил целую классификацию для сотен оленей, высеченных на скалах у чукотской реки Пегтымель древними жителями этих берегов (обязательно на них взгляните!). Диков выделял более реалистичных и схематичных оленей по пропорциям и стилю изображения 

Сегодня на помощь исследователям приходят нейросети. В 2017 году Йельский центр Digital Humanities создал открытый инструмент Pixplot для классификации и визуализации больших массивов изображений. А в 2020-2021 студенты магистратуры Digital Humanities в Вышке кластеризовали с его помощью петроглифы с чукотскими оленями. 

Полученная благодаря нейросетям визуализация отразила распределение петроглифов по технике исполнения: грубая и редкая или плавная и полная. Этот признак был связан с инструментом нанесения рисунка. Изображения, выполненные камнем, отличаются грубым исполнением, а сделанные с помощью металлического орудия — более четкими очертаниями. Причем и те, и другие кластеры изображений включали в себя как реалистичные, так и схематичные рисунки, так что деление, предложенное в 1970-е оказалось скорее субъективным и потому не вполне актуальным.

Узнать больше о кластеризации петроглифов и о том, какие промежуточные этапы предполагало исследование, сможете благодаря полной версии статьи.

Время чтения: 15 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Визуализируя воспоминания: как AR и VR-технологии погружают в прошлое

История памяти изучает, как в обществе возникают, живут и передаются знания о прошлом. История памяти — не о фактах и датах, а о восприятии и образах событий прошлого, бытовавших у людей. Сегодня изучать их помогают цифровые технологии, включая элементы виртуальной реальности. Рассказываем подробнее в новой статье.

Монологи «детей войны»

Пример такого использования AR (augmented reality, дополненная реальность) – немецкий проект 2018 года War Children: Using AR in a Documentary Context. Его создатели разработали приложение, которое знакомило пользователей с личными историями трех женщин из разных стран — России, Великобритании, Германии. Контент, дополненный различными визуальными элементами (искрами, снегом, дымом, самолетами), был привязан к среде пользователя. Повествование также дополнялось архивными фото и видеоматериалами. 

Память о Холокосте

Одна из постоянных экспозиций Иллинойского музея Холокоста (США), The Journey Back, использует технологии виртуальной реальности (VR). Помимо VR-фильмов, рассказывающих истории переживших холокост, в музее действует голографический театр. Посетителей встречают голограммы, которые могут вести диалог с аудиторией, создавая эффект живого общения благодаря технологии распознавания голоса.

Узнать об этих проектах больше можно из полной версии статьи.

Время чтения: 7 минут
Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Рассказываем, что произошло в мире ИИ за последнее время.

Вторая версия модели o1

OpenAI представила обновление языковой модели o1, которая способна выстраивать логические рассуждения перед ответом. Новая версия получила название o3, поскольку название o2 уже используется британским оператором связи.

o3 превосходит все существующие модели в тестах на программирование и решение математических задач. В одном из самых сложных математических тестов предыдущая лучшая модель решила лишь 2% задач, тогда как o3 справилась с 25%. Кроме того, o3 стала первой моделью, сумевшей решить большую часть задач из бенчмарка ARC-AGI, который проверяет способность находить закономерности в данных, отсутствовавших в обучающей выборке. В этом тесте o3 решила 75,7% задач (против 53,6% у предыдущего лучшего метода), а при использовании более длинных цепочек рассуждений результат достиг 87,5%. Для сравнения: GPT-3 не способна решить ни одной задачи, а GPT-4 справляется лишь с 5%.

В «экономном» режиме на решение одной задачи o3 расходует вычислительные ресурсы стоимостью около 20 долларов, а при использовании более длинных рассуждений требуется примерно в 172 раза больше вычислительных ресурсов.

Авторы ARC-AGI отметили, что, несмотря на высокий результат, модель всё ещё не может решить множество простых задач. Вторая, более сложная версия бенчмарка должна выйти в следующем году.

Обновление пока не доступно для публичного использования.

Google выпустила первую рассуждающую модель

Корпорация Google представила модель Gemini 2.0 Flash Thinking. Эта версия является модификацией недавно выпущенной Gemini 2.0 Flash и в отличие от базовой версии способна генерировать рассуждения, что повышает качество ответов и позволяет модели решать более сложные задачи.

Новая модель заняла первое место в рейтинге Chatbot Arena, основанном на оценках пользователей. Предыдущим лидером была GPT-4o. Модель уже доступна для использования через API.

Всё больше лабораторий и компаний выпускают рассуждающие модели. В частности, мы также рассказывали об открытых моделях QwQ и DeepSeek-R1.

DeepSeek 3 – новый открытый конкурент лучших LLM

Китайская компания DeepSeek представила третью версию своей языковой модели. DeepSeek 3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос: DeepSeek 3 задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6LLama 3 и Qwen2.5. На обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

DeepSeek 3 и техническая документация по её разработке находятся в открытом доступе. Модель также доступна через API.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
«Системный Блокъ»: лучшее за 2024 год

По традиции 31 декабря «Системный Блокъ» публикует подборку лучших материалов уходящего года. 

Дата-исследование года

«Классное чтение» — исследование школьных программ по литературе с 1919 по 2022 годы. Мы выяснили, какие авторы и произведения входят в школьный литературный канон, как за сто лет изменилось изучение зарубежной и региональной литературы, и удостоверились, что Пушкин наше все во все времена (а еще Шекспир, Лев Толстой,  Горький и другие).

Интервью года

Игорь Мельчук о нетрадиционной лингвистике и машинном переводе. В 2024 году «Системный Блокъ» выпустил девять интервью. Наши собеседники рассказывали об оцифровке дневников, нейролингвистических исследованиях, истории интернета, клиодинамике, искусственном интеллекте. Но особенно мы гордимся интервью с лингвистом Игорем Мельчуком, одним из основоположников российской математической лингвистики и Московской семантической школы. Он рассказывает, как в 1950-е годы в Советском союзе начинался машинный перевод и как была создана теория «Смысл Текст».

Погружение года

На сайте «Системного Блока» появился раздел «DH: точка входа». На одной странице мы собрали все, что нужно знать начинающему цифровому гуманитарию: методы DH, основные понятия, список экспертов, полезное чтение и образовательные программы.

Филологическое исследование года

Как поймать всех животных в тексте? Пересказываем исследование Кирилла Маслинский, научного сотрудника Пушкинского дома, который на материале корпуса детской литературы изучил закономерности упоминания в текстах животных. Теперь мы знаем, в каких жанрах преобладают птицы, а в каких — обитатели подводного мира. 

Дайджест года 

Мы сделали регулярным дайджест новостей из мира нейросетей и искусственного интеллекта. С марта вышло 18 выпусков, в которых мы рассказываем о новых больших языковых моделях, продуктах и сервисах с использованием ИИ. 

Партнерство года

Вместе с благотворительной организацией «Ночлежка», Благотворительной больницей и платформой «Если быть точным» мы проанализировали, что влияет на причины смертности бездомных женщин и мужчин. 

Гайд года

Как сделать исследование с помощью Voyant Tools? Мы выпустили самый подробный гайд на русском языке по использованию популярного инструмента для корпусного анализа текстов Voyant Tools. Здесь в все - от подготовки корпуса до визуализации. 

Техноистория года

В материале о развитии перфокарт мы рассказывали, что общего у ткацкого станка и первых вычислительных машин, какой вклад гомеопатия внесла в историю технологий и какое наследие перфокарт сохранилось до сих пор. 

Тесты года 

Мы продолжаем делать для вас веселые и познавательные тесты. Например, угадывали птиц по фотографиям, изучали ругательства в НКРЯ и разбирались в значении эмодзи. Выбрать одного фаворита из этой рубрики слишком сложно!

Больше о наших главных материалах 2024 можно узнать из подробных итогов года на сайте, а если какие-то тексты особенно запомнились вам – расскажите о них в комментариях! 

С Новым годом 🎄

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест: Путин или ChatGPT? Угадайте, какое новогоднее обращение действительно принадлежит президенту, а какое сгенерировала нейросеть

Цифровые методы можно использовать с разными текстами: длинными и не очень, принадлежащими одному автору или нескольким, написанными за короткий срок или на протяжении длительного периода времени. Мы решили изучить цифровыми методами новогодние обращения Владимира Путина и заодно проверить, насколько хорошо справляются с написанием подобных речей современные языковые модели.

Для нового теста мы сделали тематическое моделирование корпуса текстов с помощью программы Mallet, построили кривые эмоциональной тональности текста с помощью Python и RuBERT и выяснили, как менялась длина новогодних обращений с 2000 по 2023 годы.

Проходите тест и узнаете, удалось ли ChatGPT сгенерировать предновогодние речи и какая лексика попала в облако слов новогодних обращений (спойлер: долг, испытание и дело вы там точно найдёте)

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое датасет?

Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.

Кратко: о чем статья?

Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.

Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).

Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.

Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.

Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое гражданская наука?

Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.

Первые энтузиасты

C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.

Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.

Цели и тенденции

Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня —  мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.

Примеры проектов

Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.

Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой.  Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.

Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)

Время чтения: 5,5 минут


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/09 01:03:08
Back to Top
HTML Embed Code: