📚Aluffi, Paolo. Algebra. Chapter 0
Мне как практикующему математику сразу понравилось, каким образом Aluffi вводит теорию категорий уже в начале в главе «Preliminaries: set theory and categories» он делает это очень естественно, без громоздких формальностей, но с пониманием, зачем этот язык важен. Я вижу, насколько удобно это для тех, кто хочет дальше углубляться в гомологическую алгебру и современные направления.
Вторая глава «Groups, first encounter» не просто повторение стандартных фактов, а введение через точки зрения объектов и морфизмов, с инсайтами о групповых объектах в категориях, что делает изучение более осмысленным. Далее глава о кольцах и модулях важнейший фундамент, где сразу после базовых определений появляются цепочки, комплексы и лемма «змея» замечательный штрих к систематизации знаний. Во второй главе про группы мы переходим к классическим теоремам (Силова, Джордан–Хёльдер), но уже обогащённым предысторией, и видим, как они укладываются в категориальный контекст. Глава о факторизации в интегральных доменах красивая комбинация цепных условий и многочленов, заканчивающаяся доказательством теоремы Ферма о суммах двух квадратов.
Раздел о линейной алгебре в первой части охватывает всё от канонических форм до групп Эйлера и понятия Grothendieck‑группы. Далее, «reprise» линейной алгебры вводит тензоры, Tor и Ext с точки зрения пределы и копределы именно тот уровень понимания, к которому стремятся современные специалисты.
Завершает всё глава о гомологической алгебре, где мы проходим через абелевы категории, двойные комплексы, длинные точные последовательности и даже спектральные последовательности - это настоящий вызов, но изящно обрамлённый.
Я ценю, что автор тонко расставляет акценты юмор придаёт лёгкости (например, шуточное определение группы через groupoid с одним объектом), а советы о важности упражнений и errata делают чтение интересным. Книга идеальна тем, что соединяет глубокую категориальную теорию с практикой через упражнения.
В общем, рекомендую всем, кто готов к постепенному, но основательному погружению в современную алгебру. Особенно если интересуют гомологические методы и категориальная перспектива - это ваш путь. Только не забудьте скачать актуальную таблицу errata и не пропускайте упражнения они ключ к мастерству.
#AbstractAlgebra
#CategoryTheory
#HomologicalAlgebra
#ModernAlgebra
Мне как практикующему математику сразу понравилось, каким образом Aluffi вводит теорию категорий уже в начале в главе «Preliminaries: set theory and categories» он делает это очень естественно, без громоздких формальностей, но с пониманием, зачем этот язык важен. Я вижу, насколько удобно это для тех, кто хочет дальше углубляться в гомологическую алгебру и современные направления.
Вторая глава «Groups, first encounter» не просто повторение стандартных фактов, а введение через точки зрения объектов и морфизмов, с инсайтами о групповых объектах в категориях, что делает изучение более осмысленным. Далее глава о кольцах и модулях важнейший фундамент, где сразу после базовых определений появляются цепочки, комплексы и лемма «змея» замечательный штрих к систематизации знаний. Во второй главе про группы мы переходим к классическим теоремам (Силова, Джордан–Хёльдер), но уже обогащённым предысторией, и видим, как они укладываются в категориальный контекст. Глава о факторизации в интегральных доменах красивая комбинация цепных условий и многочленов, заканчивающаяся доказательством теоремы Ферма о суммах двух квадратов.
Раздел о линейной алгебре в первой части охватывает всё от канонических форм до групп Эйлера и понятия Grothendieck‑группы. Далее, «reprise» линейной алгебры вводит тензоры, Tor и Ext с точки зрения пределы и копределы именно тот уровень понимания, к которому стремятся современные специалисты.
Завершает всё глава о гомологической алгебре, где мы проходим через абелевы категории, двойные комплексы, длинные точные последовательности и даже спектральные последовательности - это настоящий вызов, но изящно обрамлённый.
Я ценю, что автор тонко расставляет акценты юмор придаёт лёгкости (например, шуточное определение группы через groupoid с одним объектом), а советы о важности упражнений и errata делают чтение интересным. Книга идеальна тем, что соединяет глубокую категориальную теорию с практикой через упражнения.
В общем, рекомендую всем, кто готов к постепенному, но основательному погружению в современную алгебру. Особенно если интересуют гомологические методы и категориальная перспектива - это ваш путь. Только не забудьте скачать актуальную таблицу errata и не пропускайте упражнения они ключ к мастерству.
#AbstractAlgebra
#CategoryTheory
#HomologicalAlgebra
#ModernAlgebra
Сегодня — начистоту, о теме, актуальность которой сложно переоценить тем, кто занимается академической научной деятельностью.
Вам ведь так или иначе доводилось сталкиваться с написанием эссе о чём-либо связанном с вашей деятельностью? Этот формат имеет свои особенности, умолчать о которых было бы не очень хорошо. Так родилась идея создать пост на тему написания подобных работ.
Некоторое время назад, ещё до попадания в число редакторов Ёжика, я занимался переводом всевозможных околонаучных инфографиков, и совсем недавно наткнулся на один из таких переводов. Полагаю, он сильно заинтересует тех, кому сложно продумывать своё эссе наперёд!
Общий план по написанию академического эссе, которому удобно следовать как готовой методичке, таков:
1. Общие данные
1.1. Предметная область
1.2. Тема эссе
1.3. Предмет исследования
2. Вступление (от 10% до 15% объёма всего эссе)
2.1. Представьте предмет, область, контекст и тему: почему данная тема представляет интерес для предмета? Насколько и почему она интересна вам как автору?
2.2. Раскройте текущее состояние темы: упомяните относящиеся к ней дискурсы, задачи, хронологические и географические рамки темы.
2.3. Обозначьте структуру аргументации: представьте читателю последовательность разделов вашего эссе.
2.4. Укажите основной аргумент: приведите вывод о предмете исследования, к которому привело исследование, проведённое в эссе.
3. Основная часть (около 80% объёма всего эссе; состоит в основном из доводов, которыми подкрепляется основной аргумент)
3.1. Раскройте контекст: дайте краткую теоретическую справку, коротко осветите факты, имеющие отношение к делу. В вашу пользу скажет оснащение предоставленной справки ссылками на достоверную литературу и авторитетные научные издания вашей предметной области.
3.2. Приведите первый довод: уделите несколько абзацев анализу и обоснованию первого довода, свидетельствующего в пользу основного аргумента.
3.3. Приведите второй довод: уделите несколько абзацев анализу и обоснованию второго довода, свидетельствующего в пользу основного аргумента.
3.4. Приведите третий довод: уделите несколько абзацев анализу и обоснованию третьего довода, свидетельствующего в пользу основного аргумента.
Больше трёх доводов приводить не рекомендуется, чтобы не затягивать эссе. В качестве доводов могут использоваться выводы из мнений других исследователей со ссылками на их работы, собственные результаты, достоверность которых может быть проверена, и т. п.
4. Заключение (от 5% до 10% объёма всего эссе)
4.1. Подытожьте аргументацию: сведите воедино сделанные выводы по каждому из доводов.
4.2. Приведите личные выводы: расскажите о сделанных вами выводах, мыслях и направлениях дальнейшего исследования.
4.3. Упомяните о последствиях вашего исследования: предположите, какой эффект окажет ваша работа на предмет исследования.
Попробуйте применить эту схему построения академического эссе в вашей следующей работе: вполне уверен, что результат вас не разочарует!
#ёжик_пишет
Вам ведь так или иначе доводилось сталкиваться с написанием эссе о чём-либо связанном с вашей деятельностью? Этот формат имеет свои особенности, умолчать о которых было бы не очень хорошо. Так родилась идея создать пост на тему написания подобных работ.
Некоторое время назад, ещё до попадания в число редакторов Ёжика, я занимался переводом всевозможных околонаучных инфографиков, и совсем недавно наткнулся на один из таких переводов. Полагаю, он сильно заинтересует тех, кому сложно продумывать своё эссе наперёд!
Общий план по написанию академического эссе, которому удобно следовать как готовой методичке, таков:
1. Общие данные
1.1. Предметная область
1.2. Тема эссе
1.3. Предмет исследования
2. Вступление (от 10% до 15% объёма всего эссе)
2.1. Представьте предмет, область, контекст и тему: почему данная тема представляет интерес для предмета? Насколько и почему она интересна вам как автору?
2.2. Раскройте текущее состояние темы: упомяните относящиеся к ней дискурсы, задачи, хронологические и географические рамки темы.
2.3. Обозначьте структуру аргументации: представьте читателю последовательность разделов вашего эссе.
2.4. Укажите основной аргумент: приведите вывод о предмете исследования, к которому привело исследование, проведённое в эссе.
3. Основная часть (около 80% объёма всего эссе; состоит в основном из доводов, которыми подкрепляется основной аргумент)
3.1. Раскройте контекст: дайте краткую теоретическую справку, коротко осветите факты, имеющие отношение к делу. В вашу пользу скажет оснащение предоставленной справки ссылками на достоверную литературу и авторитетные научные издания вашей предметной области.
3.2. Приведите первый довод: уделите несколько абзацев анализу и обоснованию первого довода, свидетельствующего в пользу основного аргумента.
3.3. Приведите второй довод: уделите несколько абзацев анализу и обоснованию второго довода, свидетельствующего в пользу основного аргумента.
3.4. Приведите третий довод: уделите несколько абзацев анализу и обоснованию третьего довода, свидетельствующего в пользу основного аргумента.
Больше трёх доводов приводить не рекомендуется, чтобы не затягивать эссе. В качестве доводов могут использоваться выводы из мнений других исследователей со ссылками на их работы, собственные результаты, достоверность которых может быть проверена, и т. п.
4. Заключение (от 5% до 10% объёма всего эссе)
4.1. Подытожьте аргументацию: сведите воедино сделанные выводы по каждому из доводов.
4.2. Приведите личные выводы: расскажите о сделанных вами выводах, мыслях и направлениях дальнейшего исследования.
4.3. Упомяните о последствиях вашего исследования: предположите, какой эффект окажет ваша работа на предмет исследования.
Попробуйте применить эту схему построения академического эссе в вашей следующей работе: вполне уверен, что результат вас не разочарует!
#ёжик_пишет
Дорогие коллеги!
Недавно я наткнулся на небольшую заметку «Как я стал математиком» известного немецкого математика, специалиста по теории чисел, Курта Малера. Думая, что данный вопрос мог быть интересен многим участникам нашего паблика, я сделал перевод этой статьи и короткую биографическую заметку про её автора.
К сожалению, после прочтения данного текста присутствует некоторое ощущение недосказанности. До автобиографических произведений Норберта Винера («Бывший вундеркинд» и «Я — математик») ему явно далековато, но я надеюсь, что этот текст всё равно будет вам любопытен, и, если найдутся желающие, я буду время от времени стараться переводить что-то интересное.
Сама статья тут:
vk.com/@mathhedgehog-kak-ya-stal-matematikom
#ёжик_пишет
#ЖЗМ
Недавно я наткнулся на небольшую заметку «Как я стал математиком» известного немецкого математика, специалиста по теории чисел, Курта Малера. Думая, что данный вопрос мог быть интересен многим участникам нашего паблика, я сделал перевод этой статьи и короткую биографическую заметку про её автора.
К сожалению, после прочтения данного текста присутствует некоторое ощущение недосказанности. До автобиографических произведений Норберта Винера («Бывший вундеркинд» и «Я — математик») ему явно далековато, но я надеюсь, что этот текст всё равно будет вам любопытен, и, если найдутся желающие, я буду время от времени стараться переводить что-то интересное.
Сама статья тут:
vk.com/@mathhedgehog-kak-ya-stal-matematikom
#ёжик_пишет
#ЖЗМ
VK
О Курте Малере и его математическом наследии
Курт Малер (1903–1988) — выдающийся математик XX века, чьи работы оказали глубокое влияние на теорию чисел, геометрию чисел и математичес..
Дорогие коллеги!
Когда-то среда была днём задач на Ёжике! И, несмотря на то, что времена изменились, мы всё равно стараемся, ближе к середине недели, выкладывать задачки для того, чтобы желающие могли размять свои булки!
Любопытная задачка из темы "Функции многих переменных" 😊
#ёжик_предлагает_подумать
#математический_анализ_I
Когда-то среда была днём задач на Ёжике! И, несмотря на то, что времена изменились, мы всё равно стараемся, ближе к середине недели, выкладывать задачки для того, чтобы желающие могли размять свои булки!
Любопытная задачка из темы "Функции многих переменных" 😊
#ёжик_предлагает_подумать
#математический_анализ_I
Дорогие коллеги!
В пятницу, на прошлой неделе, к нам в видеостудию опять приходил [id384890381|Андрей Пучинин], который записал ещё две своих лекции по головоломках, основанных на кубике Рубика!
Ниже вы сможете прочитать его текст по этому поводу, а мы от себя попросим вас поддержать нашего дорогого коллегу просмотрами/комментариями/реакциями!
Лекция 1: https://vk.com/video-186208863_456244156
Лекция 2: https://vk.com/video-186208863_456244172
------------------------------------------------------
Всем привет, на связи Андрей Кубик!
Ответьте честно: сколько разных головоломок по типу кубика Рубика вы знаете? А сколько из них умеете собирать? А что, если я вам скажу, что, чтобы научиться собирать великое множество /-разных-/ паззлов, достаточно научиться всего 1?..
В этом выпуске мы рассмотрим разные головоломки, посмотрим, в чем их схожести и различия, а также подготовимся для полномасштабного внедрения в сборку разных головоломок минимальным числом формул (для многих из них хватит пальцев всего одной руки!).
Если не видели предыдущий ролик — обязательно посмотрите по ссылке в «Ёжике в матане»:
https://vk.com/mathhedgehog?w=wall-186208863_53726
Также посещайте мои личные каналы, которые я веду уже овер 6 лет, но публики незаслуженно мало:
AndyKybik, YouTube: https://www.youtube.com/@AndyKybik
AndyKybik, тг: https://www.group-telegram.com/AndyKybik
ЗелРубКуб (Зеленоград): https://vk.com/progresscubezelenograd
Пишите комментарии, что бы вы хотели услышать еще и что осталось непонятным!
#ёжик_помогает_коллегам
В пятницу, на прошлой неделе, к нам в видеостудию опять приходил [id384890381|Андрей Пучинин], который записал ещё две своих лекции по головоломках, основанных на кубике Рубика!
Ниже вы сможете прочитать его текст по этому поводу, а мы от себя попросим вас поддержать нашего дорогого коллегу просмотрами/комментариями/реакциями!
Лекция 1: https://vk.com/video-186208863_456244156
Лекция 2: https://vk.com/video-186208863_456244172
------------------------------------------------------
Всем привет, на связи Андрей Кубик!
Ответьте честно: сколько разных головоломок по типу кубика Рубика вы знаете? А сколько из них умеете собирать? А что, если я вам скажу, что, чтобы научиться собирать великое множество /-разных-/ паззлов, достаточно научиться всего 1?..
В этом выпуске мы рассмотрим разные головоломки, посмотрим, в чем их схожести и различия, а также подготовимся для полномасштабного внедрения в сборку разных головоломок минимальным числом формул (для многих из них хватит пальцев всего одной руки!).
Если не видели предыдущий ролик — обязательно посмотрите по ссылке в «Ёжике в матане»:
https://vk.com/mathhedgehog?w=wall-186208863_53726
Также посещайте мои личные каналы, которые я веду уже овер 6 лет, но публики незаслуженно мало:
AndyKybik, YouTube: https://www.youtube.com/@AndyKybik
AndyKybik, тг: https://www.group-telegram.com/AndyKybik
ЗелРубКуб (Зеленоград): https://vk.com/progresscubezelenograd
Пишите комментарии, что бы вы хотели услышать еще и что осталось непонятным!
#ёжик_помогает_коллегам
VK Видео
Андрей Кубик у Ежика в матане_1 ролик
Watch Андрей Кубик у Ежика в матане_1 ролик 37 min 9 s from 22 May 2025 online in HD for free in the VK catalog without signing up! Views: 12965. Likes: 92.
Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.
Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. О том, как определить эти границы, написано в [https://vk.com/wall-186208863_54388|предыдущей заметке].
Сами выбросы рисуют за усами в виде точек.
В русскоязычной научной среде более корректно использовать название диаграмма размаха.
-------
Диаграмма размаха.
Внешний вид диаграммы размаха сообщает несколько важных вещей. Она показывает:
- диапазон изменения значений,
- положение медианы — центра данных,
- симметричность распределения.
Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются. Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.
Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)
А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.
-------
Семиточечная статистика
Для повышения точности изображения распределения данных вместо пятиточечной иногда используют семиточечную статистику.
Для проверки данных на нормальность рисуют диаграмму размаха с дополнительными отметками, расположенными в следующих местах:
2% — 8% — 25% — 50% — 75% — 92% — 97%
Когда данные распределены нормально, интервалы между всеми отметками будут (почти точно) одинаковыми.
Семиточечная статистика Джона Тьюки состоит из несколько иных отметок:
0% — 12,5% — 25% — 50% — 75% — 87,5% — 100%.
Для ее построения интервалы между первым и третьим квартилями делят пополам. По аналогии таким же способом строят девятиточечную, одиннадцатиточечную и прочие статистики.
-------
Недостаток диаграммы размаха.
Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных. Об этом была [https://vk.com/wall-186208863_52426|похожая заметка].
Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.
#ёжик_пишет #математическая_статистика
Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. О том, как определить эти границы, написано в [https://vk.com/wall-186208863_54388|предыдущей заметке].
Сами выбросы рисуют за усами в виде точек.
В русскоязычной научной среде более корректно использовать название диаграмма размаха.
-------
Диаграмма размаха.
Внешний вид диаграммы размаха сообщает несколько важных вещей. Она показывает:
- диапазон изменения значений,
- положение медианы — центра данных,
- симметричность распределения.
Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются. Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.
Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)
А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.
-------
Семиточечная статистика
Для повышения точности изображения распределения данных вместо пятиточечной иногда используют семиточечную статистику.
Для проверки данных на нормальность рисуют диаграмму размаха с дополнительными отметками, расположенными в следующих местах:
2% — 8% — 25% — 50% — 75% — 92% — 97%
Когда данные распределены нормально, интервалы между всеми отметками будут (почти точно) одинаковыми.
Семиточечная статистика Джона Тьюки состоит из несколько иных отметок:
0% — 12,5% — 25% — 50% — 75% — 87,5% — 100%.
Для ее построения интервалы между первым и третьим квартилями делят пополам. По аналогии таким же способом строят девятиточечную, одиннадцатиточечную и прочие статистики.
-------
Недостаток диаграммы размаха.
Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных. Об этом была [https://vk.com/wall-186208863_52426|похожая заметка].
Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.
#ёжик_пишет #математическая_статистика
От точечного графика к ящику с усами.
Часть 1 из N.
[https://vk.com/wall-186208863_54388|В прошлый раз] мы искали выбросы в данных — в скоростях проезжающих автомобилей. Мы определяли экстремально большие или маленькие скорости, которые служили сигналом для включения светофора на перекрестке.
В это раз рассмотрим способы компактного изображения всего набора данных, которые позволяют увидеть его распределение.
Мы будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.
Начнем с простого точечного графика.
-------
Точечный график (Dot plot).
На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.
Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.
-------
График диапазона (Range bar chart).
График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.
Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.
Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).
-------
График диапазона с медианой и квартилями.
Мери Спир считается американским пионером визуализации данных. Она издала две книги: "Charting statistics" в 1952 году и "Practical Charting Techniques" в 1969. В них она подробно описала способы построения и оформления различных статистических графиков.
На странице 166 книги "Charting statistics" она:
- добавила на график диапазона рисочку, показывающую положение среднего значения;
- предложила вместо среднего показывать положение медианы и двух квартилей.
Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как "ящик с усами".
Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.
-------
Пятиточеная статистика (five-number summary).
Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:
- минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;
- первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;
- медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;
- третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;
- максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.
Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.
Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.
Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась диаграмма размаха.
-------
А откуда взялся ящик с усами (box plot)?
Часть 1 из N.
[https://vk.com/wall-186208863_54388|В прошлый раз] мы искали выбросы в данных — в скоростях проезжающих автомобилей. Мы определяли экстремально большие или маленькие скорости, которые служили сигналом для включения светофора на перекрестке.
В это раз рассмотрим способы компактного изображения всего набора данных, которые позволяют увидеть его распределение.
Мы будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.
Начнем с простого точечного графика.
-------
Точечный график (Dot plot).
На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.
Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.
-------
График диапазона (Range bar chart).
График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.
Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.
Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).
-------
График диапазона с медианой и квартилями.
Мери Спир считается американским пионером визуализации данных. Она издала две книги: "Charting statistics" в 1952 году и "Practical Charting Techniques" в 1969. В них она подробно описала способы построения и оформления различных статистических графиков.
На странице 166 книги "Charting statistics" она:
- добавила на график диапазона рисочку, показывающую положение среднего значения;
- предложила вместо среднего показывать положение медианы и двух квартилей.
Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как "ящик с усами".
Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.
-------
Пятиточеная статистика (five-number summary).
Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:
- минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;
- первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;
- медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;
- третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;
- максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.
Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.
Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.
Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась диаграмма размаха.
-------
А откуда взялся ящик с усами (box plot)?