Telegram Group Search
​​STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Интересная статья от TikTok, то есть от ByteDance - улучшение подходов super-resolution для видео. Года 4 назад у меня был рабочий проект на эту тему, так что было интересно посмотреть на прогресс.

Предложенная модель состоит из четырёх частей: VAE, текстовый энкодер, ControlNet, и T2V модель. В T2V добавили новый модуль - Local Information Enhancement Module, чтобы уменьшить количество артефактов, дополнительно придумали Dynamic Frequency лосс, чтобы модель меньше выдумывала лишнее. Получили хорошие результаты на куче бенчмарков. Из примеров меня особенно впечатлило улучшение качества совсем расплывчатого текста.

Paper
Project
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Обзор книги "Modern Graph Theory Algorithms with Python"

Очередной отзыв на книгу от Packt

Мой англоязычный отзыв можно почитать тут:
Linkedin
Goodreads

Эта книга была средненькой, где-то на 3.5/5.

Введение неплохое, но к концу стало казаться, что слишком много информации впихнули.

Примеры использования графовых сеток для NLP/CV были вроде как хорошими, но ничего особо нового там не было - подобное я и в других книгах видел... Плюс, я из любопытства попросил ChatGPT дать мне пример кода GCN, и результат чуть ли не построчно совпал с тем, что было в книге - вплоть до гиперпараметров.

Секция про скрещивание LLM и графовых сеток - показалось, что её написали просто потому, что LLM везде.

Обзор будущего - поверхностно.

Из плюсов - мне понравилась секция про representation learning.

Ссылка на книгу

#datascience
Обзор книги "Python Feature Engineering Cookbook"

Очередной отзыв на книгу от издательства Packt.

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium (https://artgor.medium.com/book-review-unlocking-data-with-generative-ai-and-rag-3ec7cab074a5)

Как понятно из названия - книга про создание фичей для классического ML. В целом книга неплохая - покрывает все основные темы. Но, когда я её читал, меня не покидало ощущение, что я читаю Jupyter Notebook с комментами - большая часть книги это код, output и минимальные пояснения.

Это, наверное, простительно, ибо книга от 2020 года. Но в наше время любой LLM-помощник сможет выдать все варианты feature engineering из неё и даже что-то лучше.

Ссылка на книгу

#datascience
PoV: когда вкладываешь 100$, а другие вкладывают 1mln $
В ту же тему:
Увидел интересное сравнение того, сколько стоили крупнейшие американские проекты с поправкой на инфляцию:

The New Deal: $1T
Interstate Highway System: $618B
OpenAI Stargate: $500B
The Apollo Project: $278B
International Space Station: $180B
South-North Water Transfer: $106B
The Channel Tunnel: $31B
Manhattan Project: $30B

При этом, у большинства из этих проектов была довольно чёткая цель.
​​DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Громкая статья от китайцев про модели DeepSeek-R1-Zero и DeepSeek-R1. DeepSeek-R1-Zero обучена исключительно на RL без SFT и демонстрирует отличные способности к reasoning. Однако у неё есть проблемы: плохая читаемость предсказаний и language mixing (прям вот так - текст на двух языках). DeepSeek-R1 решает эти проблемы благодаря multi-stage training и использованию cold-start data перед RL и достигает результаты сравнимые с OpenAI-o1-1217.

Плюс авторы выложили обе модели и шесть дистиллированных в open-source.

Кстати, первый автор в прошлом выиграл много соревнований по ML - возможно это внесло свой вклад.

Paper
Project
Hugging Face page
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​В интернете бушуют обсуждения про DeepSeek, особенно часто встречаются крики о том, что его сделали на коленке, что он появился из ниоткуда и вообще никто его не ожидал.

Хочу напомнить, что ещё в ноябре разработчики DeepSeek опубликовали этот пост: https://api-docs.deepseek.com/news/news1120
В нём они рассказывали о том, как работают над DeepSeek-R1-Lite-Preview и показали красивый график - как растёт качество их модели при увеличении количества thought tokens. Уже на этом графике видно, что preview версия достигает 66.7% на AIME (в актуальной статье метрика 71). Так что для тех, кто следил за прогрессом разработки, текущие результаты не удивительны.

#datascience
​​o3-mini и o3-mini-high скоро на ваших экранах

Люди нашли, что вот-вот OpenAI выкатит две новые модельки:
https://web.archive.org/web/20250131113746/https://cdn.oaistatic.com/assets/esm2nfprev2ttzip.js

"Introducing o3-mini and o3-mini-high two new reasoning models that excel at coding, science, and anything else that takes a little more thinking."

И уже утёк скрин с этим.

Мне интересно, как вообще придумывают эти названия? Что дальше? o3-maxi-low? o3-medium-lsd?
​​Titans: Learning to Memorize at Test Time

Интересная статья от Google Research с новым семейством архитектур - Titans. Объединили attention и отдельный модуль долгосрочной памяти. Сделали 3 варианта архитектуры - память как контекст/gate/слой. В результате модельки тренируются быстро, хорошо масштабируются, работают на контексте до 2 млн токенов. Ну и, как это обычно принято, бьют другие модели по метрикам (кто ж будет публиковать не SOTA).

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Самый правильный alignment

Не, ну вы посмотрите на это.

LLM, которая знает, КТО за неё платит. И готовая говорить что угодно, чтобы деньги продолжали идти на её тренировку. Чем это отличается от людей? :) Это уже почтинастоящий AGI, я считаю.

А разработчики сделали самый правильный alignment - максимизирующий одобрение ответов от Илона.
Goku: Flow Based Video Generative Foundation Models

Я что-то давно не читал статьи по CV, решил исправиться. Это статья от ByteDance (TikTok) для генерации картинок/видео с помощью rectified flow Transformers. Делают совместную генерацию картинок и видео (чтобы не тренировать отдельные модели). Описывают как обрабатывали данные (куча препроцессинга), как тренировали модель (pretraining на T2I; совместная тренировка на T2I, T2V; файн-тюнинг для улучшения качества), как скейлили тренировку (3D параллелизация, activation checkpointing, стабильность к отказам железа).

В итоге модель генерит весьма годные картинки/видео. Вот радость - можно бесконечно залипать в тикток! Количество "r" в "strawberry" не посчитает, но сгенерить картинку с ней сможет :)

И да, модель называется Goku из-за того самого Goku.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Война миров

https://huggingface.co/perplexity-ai/r1-1776

> R1 1776 is a DeepSeek-R1 reasoning model that has been post-trained by Perplexity AI to remove Chinese Communist Party censorship. The model provides unbiased, accurate, and factual information while maintaining high reasoning capabilities.

Сторонники настоящей демократии взяли плохую, зацензуренную, китайскую модель и помогли ей выдавать незацензуренную, правильную информацию. Слава несущим истину в массы. /s
​​OpenAI: Reasoning best practices

У OpenAI столько моделей, что они публикуют уже не первый гайд о том, какие модели для каких случаев использовать. На этот раз речь об использовании reasoning (o1, o3-mini) vs GPT. Кстати, интересно, что они протипопоставляют o1 и GPT архитектуру, будто у o1 другой подход.

https://platform.openai.com/docs/guides/reasoning-best-practices

Если по сути:
• Если нужно быстрее/дешевле или задачи чётко сформулированы - GPT
• Если нужно качество и достоверность или умение решать сложные проблемы - o1

В целом это довольно очевидно, но дальше показывают красивую картинку того, как чат-бот техподдержки использует микс подходов:
• o1 обрабатывает базу данных компании для общего понимания
• GPT подготавливает конкретные действия по запросу пользователей
• o3-mini валидирует эти предложенные действия

Ну и ещё ряд примеров, когда лучше использовать o1: постановка задачи нечёткая, найти конкретную информацию в большом объёме данных, выстроить причинно-следственные связи и обнаружить зависимости, планирование шагов выполнения задачи, более качественный анализ информации на изображениях (графики, схемы и прочее), ревью кода, оценка качества работы других моделей.

#datascience
​​GitTok – TikTok but for interesting GitHub repos

Если вам хочется прокрастинировать, но при этом иметь красивую отмазку, вот вам идея: Gittok

https://gittok.dev/
​​В топовых AI-компаниях около половины сотрудников работает меньше 4 лет до смены работы

https://x.com/swyx/status/1892684773891375125/photo/1

На днях Anthropic делал презентацию и я нашёл один интересный слайд: какова доля сотрудников, продолжающих работать в компаниях через N лет.

Видно, что уже за 3 года большинство из этих компаний теряет треть-половину людей. Наверное это и неудивительно - уже давно айтишникам рекомендуется менять работу каждые 2-3 года для повышения зарплаты (особенно, если речь идёт не про лидов/менеджеров). Наверняка всем работающих в этих компаниях постоянно приходят щедрые предложения.
​​SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Появилась новая версия SigLIP, multilingual vision-language encoders, с кучей улучшений: captioning-based pretraining, self-supervised learning (self-distillation, masked prediction) и online data curation. Получили улучшения везде где только можно: zero-shot classification, image-text retrieval задачи локализации и dense prediction. Плюс, модели поддерживают разные разрешения (а не одно фиксированное).

Доступны веса моделей четырёх разных размеров - на любой вкус.

Paper
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Длинный контекст vs RAG"

Я часто вижу обсуждения того, в чём разница между моделью с большим контекстом и использованием RAG. И вот на днях я увидел пост на reddit с отличным примером.

Автор поста взял "Alice in Wonderland" и добавил в текст рандомные ошибки. Потом загрузил в ChatGPT и в Claude с просьбой найти что не так.

У Claude контекст 200к токенов - модель успешно нашла косяки.

У ChatGPT Plus (o3-mini-high) контекст 32к токенов - модель не нашла ошибок. Автор поста считает, что дело в том, что RAG ищет релевантные куски текста по схожести между промптом и куском текста. Поскольку в самом промпте не было примеров ошибок и кейвордов, ничего и не нашлось. В итоге модель просто выдала довольно общий ответ.

#datascience
2025/06/30 19:11:24
Back to Top
HTML Embed Code: