Telegram Group Search
Advanced R Programming

Курс Advanced R Programming предназначен для углубленного изучения языка R с точки зрения программирования, а не использования его как инструмента анализа данных.

Курс ставит целью познакомить с основами программирования R, включая функциональное и объектно-ориентированное программирование в применении к R.

Главный экзаменатор курса - Rob J Hyndman, автор книг по временным рядам в применении к R, Professor of Statistics Department of Econometrics & Business Statistics, Monash University, Australia.

На сайте курса можно найти презентации лекций и ресурсы к занятиям.
data.table vs. base vs. dplyr

Vincent Arel-Bundock - автор таких замечательных проектов как {marginaleffects}, {modelsummary} и {tinytable}, опубликовал параллельное сравнение самых распространенных операций обработки данных в R в трех идиомах: data.table, base и dplyr.

Здесь представлены как базовые операции, так и более сложные, связанные с реорганизацией формы данных, операциями с наборами данных и объединением таблиц.
Introduction to Robotics and Perception ⚙️

Сегодня на обзоре онлайн-книга «Introduction to Robotics and Perception» (2023). Книга не совсем обычная, однако текст будет представлять особый интерес для студентов и преподавателей высших технических учебных заведений.

Это введение в робототехнику с использованием кода на Python. Здесь рассмотрены самые разнообразные модели, начиная от роботов-сортировщиков мусора и роботов-пылесосов в 2D, до сложных представлений трехмерной сцены, которое необходимо для автономных БПЛА, помогая им планировать движение, избегать препятствий или моделировать полеты.
Небольшой "географический дайджест" 🌏

▫️ Dewey Dunnington рассказал о новом большом релизе GeoArrow 0.2, первая версия которого вышла в 2023 году. С тех пор разработчики работали с сообществом над реализацией концепции, согласно которой передача пространственных данных из одной библиотеки в другую должна быть быстрой, простой и обеспечивать сохранение важных пространственных свойств, таких как CRS. GeoArrow был адаптирован для GeoPandas, GDAL, Apache Sedona, DuckDB, Lonboard, Kepler и улучшена поддержка в Rust, C/C++, R (через {geoarrow}) и Python. Появились новые тестовые данные.

▫️ Также была опубликована версия 0.4 библиотеки Geo Arrow Rust, которая была полностью переписана с нуля, имеет гораздо более стабильное ядро и поддерживает все спецификации GeoArrow 0.2.

▫️ Коллеги из Спутник ДЗЗ не так давно рассказывали про набор климатических данных CHELSA для земной поверхности с высоким разрешением. Оказывается, существует способ, используя библиотеку {terra}, для извлечения пространственного подмножества данных, что существенно уменьшает объем и могут ускорить ваш анализ. Также, тем, кто занимается эффективной обработкой больших наборов растровых данных на основе ДЗЗ, - обратите внимание на библиотеку {vrtility}.

▫️ После публикации постера по машинному обучению в применении к пространственным данным Jakub Nowosad, Jan Linnenbrink и Hanna Meyer решили развить тему и выпустить серию статей Spatial machine learning with R для различных фреймвоков: caret, tidymodels и mlr3. Уже вышли отдельные статьи по {caret} и {tidymodels}, также будет публикация по {mlr3}. Тема интересная и, безусловно, полезная в прикладных исследованиях. Напомню, что на CRAN появился отдельный раздел Machine learning of spatial data по пространственному машинному обучению в Analysis of Spatial Data, хотя кое-что пока там отсутствует (например {sits}).
Жила-была принцесса... ну а дальше вы поняли. Надеюсь, что все у нее закончится хорошо.

Всем хороших выходных! 👋
Отпуск ☀️

Уважаемые читатели! Мы вместе с каналом уходим в отпуск 🏄. Тем не менее, я по-прежнему буду на связи и следить за любопытными находками и решениями.

Каналу Наука и данные почти два года 💫 и почти 2 000 человек подписалось на него. Для меня это удивительно — так много подписчиков! Надеюсь, что информация, которая публикуется тут, для вас полезна.

👉 Не забудьте заглянуть в подборку Rесурсы по Data Science — она может вам пригодиться.

Хороших продуктивных летних каникул! 👋
R Medicine 2025 🩺

С 9 по 13 июня прошла виртуальная конференция R Medicine 2025, записи которой уже доступны. Конференция R/Medicine предоставляет собой форум для обмена подходами и инструментами на основе R, используемыми для анализа и получения информации из данных о состоянии здоровья. Доклады на конференции сопровождаются демонстрациями и довольно обстоятельны - есть доклады почти на 3 часа!

Плейлист докладов уже доступен на YouTube. Повестка очень(!) интересная, причем не только для тех, кто занимается клиническими исследованиями: например, Joe Cheng сделал доклад Demystifying LLMs with Ellmer. Осталось только найти время все это посмотреть!
MIRIAD (как выглядит медицинская Вселенная?)

Завтра в РФ празднуется День медицинского работника, в связи с этим можно упомянуть про любопытный проект MIRIAD (Medical Instruction and Retrieval Dataset), который представляет собой крупномасштабный корпус из 5 821 948 пар «вопрос-ответ» на основе рецензируемой медицинской литературы с использованием полуавтоматического конвейера, объединяющего генерацию LLM, фильтрацию, обоснование и аннотацию человеком.

В проекте также представлен MIRIAD-Atlas - это интерактивная семантическая карта, которая охватывает 56 медицинских дисциплин. Вот его я рекомендую посмотреть, визуально выглядит очень масштабно!
Немного красивой математики на канале Наука и данные. Поскольку я хорошо знаком со всеми авторами этой замечательной статьи, мне очень приятно сделать forward публикации из канала Непрерывное математическое образование.
это не картинка по выходным, а название статьи https://arxiv.org/pdf/math/0506466 про формулу Бриона для сумм по целым точкам многогранников и всё такое (Matthias Beck, Christian Haase, Frank Sottile)
Хороший подарок к моему дню рождения: накануне мне присвоили ученое звание доцента по научной специальности Управление в организационных системах.
Foundations of Computer Vision 👓

Книга по компьютерному зрению Foundations of Computer Vision охватывает большое количество тем, начиная от формирования изображения, до реконструкции структуры трехмерного мира из двухмерных изображений или как системы зрения могут поддерживать языковые системы.

Область компьютерного зрения очень велика, книга писалась очень долго, некоторые из ранних идей были забыты из-за популярности новых подходов с учетом революции в компьютерном зрении за последнее десятилетие, но со временем многие из них вернулись.

Здесь нет кода, но наглядно показаны физические основы, описан математический аппарат процессов и алгоритмы. Это действительно фундаментальный труд, сосредоточенный на важных концепциях.

P.S. Уже после того, как был написан этот обзор на книгу, также вышли независимые обзоры на каналах Машиннное обучение и Data Portal
ggplot2 Layer Explorer

June Choe создал небольшое приложение на Shiny (приготовьтесь к тому, что оно будет загружаться ощутимое время), которое "демистифицирует" внутренние компоненты ggplot2 и дает интерактивный контроль над процессом создания графиков. Приложение написано на основе ранее выходившей серии статей и наглядно демонстрирует фундаментальную идею {ggplot2}: каждый слой имеет соответствующее табличное представление данных, которое претерпевает постепенные изменения во внутренних компонентах.

Также June завел небольшой микроблог в стиле "коротко и по делу".

Тем временем ggplot2 недавно отметил свое "совершеннолетие" - 18-ю годовщину и уже готовится к релизу 4.0 (по крайней мере обновления сопутствующих библиотек говорят об этом).
Dynamic Reproducible Documents for Public Policy with Quarto

Материалы небольшого семинара по Quarto, который недавно проводила Julia Silge на мероприятии CIPPCD 2025 помогут разобраться с тем, как с помощью достаточно простых инструментов создавать различные типы публикаций, включая веб-страницы, блоги, презентации, информационные панели, книги, и многое другое.

Семинар ориентирован на пользователей Python и Positron (теперь в Posit так заведено 😗), однако является универсальным с точки зрения языков программирования (R/Python/Julia). Презентации содержат в основном общеизвестный материал по Quarto, но также объясняют некоторые интересные особенности.

Отметим, Mine Çetinkaya-Rundel (Professor of the Practice at Duke University and Developer Educator at Posit) выпустила видео на тему Quarto Dashboards: from zero to publish in one hour.

👉 Кстати, для тех, кому интересны интерактивные Python-ноутбуки, обратите внимание на страницу marimo + quarto.
Rust for R Developers 🦀

Josiah Parry (Senior Product Engineer, Esri) - автор интересного блога I make R go fast. Недавно он опубликовал заметки по взаимодействию R и Rust: Rust for R Developers. Надеемся что это сможет вырасти в полноценную книгу.

Отметим что Hiroaki Yutani периодически делится записями по R и Rust в своем блоге + см. также его проект Savvy.
С разрешения Татьяны Игоревны Балтыжаковой (автора курса) публикую на канале заметки ее курса Пространственный анализ урбанизированных территорий
Forwarded from Geodatamess
Материалы курса "Пространственный анализ урбанизированных территорий"

В течение семестра получилось наконец-то сделать наиболее полную версию своего курса с презентациями лекций на двух языках: английском и русском, и практической частью на базе QGIS и GeoDa.

Несмотря на фигурирующее в названии словосочетание "урбанизированные территории" курс скорее общий о пространственном анализе с захватом пары смежных тем.

Все материалы по ссылке https://baltti.github.io/spatial-analysis/
Сегодня на кратком обзоре две книги, относящиеся к интеллектуальному анализу данных:

◽️Learning analytics methods and tutorials. A practical guide using R

◽️Advanced learning analytics methods. AI, Precision and Complexity

В первой книге автор включили основы языка программирования R и рассмотрели некоторые современные методы, такие как анализ последовательностей, сетевой анализ и психометрический анализ.

Вторая книга знакомит нас с основными принципами искусственного интеллекта, большими языковыми моделями, дает введение в современные сетевые методы, сложные динамические системы, а также идиографические (внутриличностные) методы анализа.

Обе книги написаны с применением языка R, представляют большой коллектив авторов и демонстрируют масштабные методы моделирования.
Немного про LLMs

В дополнении к тому, что недавно писал Илья: на мой взгляд вот прекрасная статья, на которую ссылается мудрый классик Hadley Wickham.

Также хочу отметить, что на этой неделе из практических применений LLM в контексте R мне запомнились:

🔹 пример взаимодействия с данными в виде чат-бота, реализованного с помощью библиотеки {querychat}, описанный в блоге Posit

🔹 презентация No-nonsense LLMs with R and ellmer (автор Hadley Wickham)

Хороших выходных! 👋
Deep Learning with R, Third Edition 🔥

Отличная новость - в издательстве Manning выходит третье издание книги Deep Learning with R!

Напомню, что основным автором книги является Франсуа Шолле - создатель Keras. Второе издание, соавторами которого являются Т. Калиновски и Дж. Дж. Аллер, переведено на русский язык, книгу можно приобрести на официальном сайте издательства ДМК Пресс.

В этом расширенном третьем издании (авторы Франсуа Шолле и Томаш Калиновский) содержательная часть увеличена на 30%, здесь рассмотрены новейшие функции Keras 3, добавлены библиотеки JAX и PyTorch, включены новые главы об архитектуре трансформеров, создании собственной большой языковой модели, подобной GPT, а также генерации изображений с помощью диффузионных моделей.

Что замечательно в Manning - весь текст (правда в зашифрованном виде) доступен на сайте издательства, все картинки и код доступны. Код для книги можно найти отдельно в репозитории.
2025/07/01 06:57:52
Back to Top
HTML Embed Code: