Telegram Group Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Viz Collective + Geo-Computation

Мы уже видели отличные визуализации, которые Aditya Dahiya делает на R, выполненные на основе ggplot2.

Сейчас он также ведет еще один интересный блог-проект по гео-вычислениям, в котором, в частности, проходит упражнения из известной книги Geocomputation with R. К слову, отмечу еще одну книгу, связанную с пространственными данными: GeoComputation and Spatial Analysis practicals
Вот так задачка! 🙈

Поскольку не так давно мы отметили день математика, отмечу забавный твит, в котором Luis Batalha обнаружил, что Серж Ленг в книге по комплексному анализу предложил в качестве упражнения... доказать гипотезу Римана!

Напомню, гипотеза Римана - это одна из нерешенных (так называемых The Millennium Prize Problem) проблем математики, за решение которой Clay Mathematics Institute предложил выплатить 1 млн USD.

Серж Ленг был в свое время довольно известным математиком и выдающимся педагогом, который написал множество книг по самым различным темам как для младшекурсников, так и серьезных книг для аспирантов. Интересно что он путешествовал с пишущей машинкой и не любил компьютеры, а его бабушка была русской. Когда я был в один из визитов в MPIfM он подарил мне свою книжку и подписал ее. Так вот Серж Ленг был известным оригиналом, например, к "упражнению выше" по гипотезе Римана он приписал: "вы можете спросить совета по решению этой задачи у своего профессора". 😀

Всем хороших выходных! 👋
posit::conf(2025)

Открылась регистрация на конференцию posit::conf(2025), которая пройдет в Атланте, США с 16 по 18 сентября 2025.

Один день будет посвящен воркшопам (которые уже понемногу анонсируются), а последующие два дня будут наполнены докладами и выступлениями.
Hello geoviz 🗺️

JavaScript-библиотека geoviz возможно не столь известна, однако, на мой взгляд, является одной из лучших для создания интерактивных тематических карт. Библиотека совместима с синтаксисом D3 и встраивается в ноутбуки Observable, а, следовательно, теоретически и в Quarto.

📦 страница библиотеки

🔥 страница с примерами

Однозначно нужно пробовать!
Fundamentals of Numerical Computation (Tobin A. Driscoll & Richard J. Braun)

Несомненно, MATLAB оставался лидером в качестве основной среды в исследования численных вычислений, и сейчас он занимает определенную нишу, однако современный ландшафт меняется и сейчас существуют полнофункциональные open source альтернативы MATLAB, например, NumPy языка Python. Помимо Python, язык Julia был разработан с целью отдать приоритет быстрым численным научным вычислениям.

Книга Fundamentals of Numerical Computation изначально была написана для MATLAB, а затем переведена на Julia. Издание интересно как математическим введением в предмет, так и подробным сопровождением кода, начиная от классических тем (линейная алгебра, корни нелинейных уравнений) до уравнений в частных производных.

В R можно посмотреть список ресурсов Numerical Mathematics (Hans W. Borchers, Robin Hankin, Serguei Sokol).
Top 40 New CRAN Packages 4️⃣0️⃣ 🆕 📦

Некоторое время тому назад R Views публиковали список 40 лучших библиотек за месяц, однако с какого-то времени эта практика прекратилась. Оказывается, теперь эти отличные подборки можно почитать на R Works.

Также, еженедельный список интересных R-находок публикуют на R Weekly и можно подписаться на различные рассылки, например, Blaze Data Science with R.
Data Science Learning Community

Девиз Data Science Learning Community (ex R4DS Online Learning Community) - Учимся вместе!

Напомню о том, что сообщество DSLC проводит регулярные онлайн-встречи, организуя "книжные клубы" по прохождению различных книг для R и Python по Data Science и ML.

Записи онлайн-встреч доступны на YouTube. Также у сообщества есть собственный сайт, где представлены ссылки на видео с семинарами по книгам с поддержкой в Slack и календарь событий. Безусловно, можно подписаться и на их Bluesky.
Explainers

Мне нравится интерактивная подача материала и иллюстрации по таким сложным вопросам как искуственные нейронные сети и машинное обучение. Примеры можно посмотреть в известной статье Generative AI exists because of the transformer (FT), The Illustrated Machine Learning или LLM Visualization.

Вот еще один класс "объяснялок" от Polo Club of Data Science:

🔸 CNN Explainer

🔹 Transformer Explainer

🔸 Diffusion Explainer
This media is not supported in your browser
VIEW IN TELEGRAM
Как создать "крутяк"? 🤘

ThePudding объясняет идеи, которые у всех на слуху и обсуждаются в (масс-)культуре с помощью небольших визуальных эссе, они выбирают темы, в которых визуальные эффекты информируют и развлекают. Если вам нравятся визуальные представления - это вам точно понравится.

Роясь в бездне ссылок я наткнулся на забавный набор статей, который выпустила команда ThePudding (а точнее - Ilia Blinderman), эдакий трехсерийный сериал, призванный помочь ознакомиться с инструментами, используемыми для создания визуальных историй, основанных на данных.

Part 1: Working with Data

Part 2: Design

Part 3: Storytelling

Отличные статьи, читайте, отдыхайте. Одним словом, всем хороших выходных! 👋
This media is not supported in your browser
VIEW IN TELEGRAM
How To Craft A Blazingly Fast Graphics Device 🐅

На сколько мы знаем, библиотека {gganimate} делает анимации достаточно медленно, каждый кадр отрисовывается как отдельный ggplot2-объект, а потом эти графики объединяются в один gif. Кроме того, пока не существует кроссплатформенных графических устройств, что тоже вносит определенные трудности в создание анимаций в R.

Hiroaki Yutani сделал доклад на Japan.R (увы, по-японски и записи не было) по созданию анимаций, графическим устройствам, API, а также vellogd: A GPU-powered Interactive Graphics Device for R. Презентация (на английском) доступна в сети, пока это эксперимент, но результат уже сейчас представляет интерес.
How Dense are the World's Biggest Cities? 🏘️

Интересный подход к рассмотрению плотности населения продемонстрировал Jonathan Nolan на семинаре nyhackr, который ведет Jared Lander (Chief Data Scientist of Lander Analytics a New York data science firm).

В частности, Shiny-сайт citydensity.com позволяет сравнивать различные города по плотности заселенности в зависимости от расстояния от центра. В докладе Jonathan поделился идеями и техническими деталями по анализу данных такого рода.
Finding Your Way To R 🏃‍♂️‍➡️

Помимо прочих ресурсов по изучению языка R, можно вспомнить про дорожную карту от RStudio (теперь Posit). Путь к познанию R разделен на три направления, от начинающих до экспертов.

Пусть эти материалы в некоторых моментах требуют обновления, но в целом они могут помочь идейно сориентировать в навигации по экосистеме R.
{tidyplots}

Большое спасибо Александру за ссылку на сайт библиотеки {tidyplots} для создания готовых к публикации графиков для научных статей, автор которого Jan Broder Engler. По мнению автора библиотека:

🕊️ Бесплатная и с открытым исходным кодом
🚀 Простая, интуитивно понятная и быстрая
💾 Содержит демонстрационные наборы данных
🏆 Использует лучшие практики
🌈 Красивая

Галерея графиков tidyplots выглядит неплохо, очень напоминает {ggpubr}, которым я активно пользуюсь, и BBC Visual and Data Journalism cookbook for R graphics.
{statquotes}

Известный нам статистик и самый дружелюбный историк визуальных представлений данных Michael Friendly является автором книг и библиотек R, одна из которых - {statquotes} мне особенно понравилась. Она отображает случайно выбранную цитату по темам, связанным со статистикой, визуализацией данных и Data Science.

Более того, такой цитатник я вставил в Quarto-страницу (подойдет и markdown или LaTeX). Также можно создавать облако слов на основе поиска в базе данных цитат.
On bubbles and trees 💫

Teun van den Brand делает просто волшебные дополнения к ggplot2, в частности, библиотека {legendry} теперь позволяет делать пузырьковые легенды для графиков.


library(legendry)

gapminder::gapminder |>
dplyr::filter(year == max(year)) |>
ggplot(aes(gdpPercap, lifeExp, size = pop,
fill = continent)) +
geom_point(pch = 21, alpha = 0.8) +
scale_size_area(
limits = c(0, NA), max_size = 20,
breaks = c(0, 100, 500, 1000)*1e6,
labels = c(0, "100M", "500M", "1B"),
guide = guide_circles(vjust = 1)
) +
scale_fill_discrete(guide =
guide_legend(override.aes =
list(size = 4, alpha = 0.8))) +
scale_x_log10() +
labs(
x = "ВВП на душу населения",
y = "Ожидаемая продолжительность жизни",
fill = "Континент",
size = "Население"
)


Это должно быть по умолчанию в {ggplot2}!
Introduction to Environmental Data Science (Jerry Davis, SFSU Institute for Geographic Information Science)

Книга Introduction to Environmental Data Science посвящена исследованию окружающей среды на основе языка программирования R, в первую очередь, на основе измерения различных показателей в пространственной и временной областях.

Следует отметить, что в книге присутствует пространственный анализ данных и моделирование: начиная от растрового анализа данных до анализа спутниковых изображений, которые включают в себя диапазон электромагнитного спектра от видимого до коротковолнового инфракрасного, что представляет особый интерес. Environmental Data Science book or EDS book - аналогичный ресурс на Python.
30DayMapChallenge 2024 completed! 🗺️

Cédric Vidonne (Information Management Officer at UNHCR - Data visualization, maps and R) поделился своими роскошными картами, которые он сделал для челленджа 30DayMapChallenge, а также кодом. Все выполнено на R!

Вот еще ряд примеров на R, которые сделал Matt Malishev.
Educational Data Analytics Using R 👨‍🎓

Louis Rocconi, Joshua Rosenberg, Sarah Narvaiz (The University of Tennessee, Knoxville) создали небольшой курс на Shiny по анализу образовательных данных. Вот его основные разделы:

1. Введение в R

2. Базовые навыки

3. Основы языка R (типы данных, структуры данных)

4. Обработка данных

5. Tidy Data

6. Описательная статистика

Также вы можете попробовать Shiny-приложение для иллюстрации центральной предельной теоремы (автор James Balamuta) и почитать книгу A Portable Introduction to Data Analysis как несложное введение в статистику.
Ну что товарищи, а вы уже готовитесь встрече Нового Года? 🎄

Всем хороших выходных! 👋
2024/12/23 00:22:19
Back to Top
HTML Embed Code: