Telegram Group Search
​​gpt-o1 - thinking for seconds, minutes, hours, weeks...

Уже все рассказали про новую модель от openai, лично меня заинтересовал их пойнт о том, что текущая версия модели думает секунды (хотя я уже видел скриншоты с размышлениями на 90+ секунд), но будущие версии могут думать часами и неделями.

https://x.com/polynoamial/status/1834280969786065278

Идея интересная во многих планах - смогут ли они гарантировать, что предсказание не прервётся по техническим причинам? Можно ли будет делать чекпойнты для просмотра промежуточных результатов и продолжения с них? Может ли вообще это работать?

Ну и пока концепция "дать модели много времени подумать и будет счастье" звучит как мечты. Или как замечательная машина, ответившая "42". С другой стороны, прогресс не остановить - как знать, чего человечество достигнет.

#datascience
​​GameGen-O: Open-world Video Game Generation

GameGen-O: the first diffusion transformer model tailored for the generation of open-world video games

https://gamegen-o.github.io/
​​Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Китайские стажёры выкатили новую модель для генерации говорящих/поющих лиц. End-to-end audio-only conditioned video diffusion. Модель использует inter- и intra-clip temporal modules, а также audio-to-latents module, чтобы эффективно извлекать long-term motion information и делать движения лица более релевантными звуку. Судя по метрикам - людям нравится. Выглядит и звучит весьма круто. Мне особенно понравилось как картина в классическом китайском стиле задорно поёт "Katy Perry - E.T.".

Paper link

Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🚀 @SBERLOGASCI webinar on mathematics and data science:
👨‍🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time

Add to Google Calendar

Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).

The talk is based on a recent paper: https://arxiv.org/abs/2408.15332

О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://www.group-telegram.com/sberlogasci/19688 - subscribe !

Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
​​Обзор книги "Modern Graph Theory Algorithms with Python"

Очередной отзыв на книгу от Packt

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium

В отличие от прошлой книги, эта мне совершенно не понравилась - я её даже не дочитал.

Первое, что сразу убило интерес - огромное количество сгенерированных картинок, которые не несут никакой смысловой нагрузки. Например, автор пишет, что вот есть класс со студентами и мы будем работать с этими данными... и втыкает на полстраницы сгенеренную картинку класса детей. И подобных картинок полно.

Книга типа для начинающих, но автор накидывает кучу терминов (susceptible-infected-resistant (SIR) model, Christofides algorithm, Fiedler value, Holt–Winters models, Forman-Ricci curvature centrality, и многие другие) и не всегда поясняет их. При этом он ещё часто прыгает с одной темы на другую.

И бывает так, что нам даётся слишком high-level код без достаточных объяснений. Типа "вот сейчас мы запилим нейроночку с SAGEConv".

Я не хотел постить отзыв, но люди из Packt попросили максимально смягчить мои слова, что я и сделал.

Ссылка на книгу

#datascience
​​Training Language Models to Self-Correct via Reinforcement Learning

Интересная статья от Deepmind, в чём-то похожая на то, что недавно сделали openai в серии моделей o1.

SCoRe — это новый подход для улучшения способности моделей LLM к self-correction с использованием multi-turn reinforcement learning и данных, сгенерированных самими моделями. Авторы показывают, что использовать supervised fine-tuning недостаточо из-за distribution mismatch между тренировочными данными и тем, что выдаёт модель; плюс модели могут "запомнить" только один способ коррекции, который может быть не достаточно эффективен при инференсе.

SCoRe решает эти проблемы - модель обучается на self-generated correction traces и добавляет регуляризацию для повышения эффективности самокоррекции на этапе тестирования. В результате, SCoRe улучшает self-correction моделей Gemini 1.0 Pro и 1.5 Flash на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Статистика: вероятность болезни 1.96% или 95%?

В твиттере пару дней назад завирусился тредик. Топикстартер утверждает, что врачи глупые и не понимают статистику. В качестве примера приводит такую задачку:

Есть редкое заболевание (1/1000). Мы делаем тест с false positive rate 5%. Какая вероятность того, что тест показывает наличие болезни и она действительно есть?
Мол, только 20% врачей ответили правильно.

"if a test to detect a disease whose prevalence is 1/1000 has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming that you know nothing else about the person's symptoms or signs?"

И пошло весёлое обсуждение. В целом есть три точки зрения:
• 1000 кейсов, 49 FP, 1 TP -> 2%
• Bayes: (1 x 0.001) / ((1 x 0.001) + (0.05 x 0.999)) -> 1.96%
• Утверждается, что вся соль в формулировке: в тексте спрашивается не про рандомного человека и не про популяцию в целом, а только про тех, кто получил позитивный результат теста. А нам известно, что false positive rate 5% -> 95%

А вы как думаете?

#datascience
​​В ChatGPT подписчикам начали выкатывать advanced voice mode - я уже получил.
Новые голоса нравятся, но особого изменения качества пока не заметил.
​​Говорят, что достали системный промпт Advanced Voice Mode

https://www.reddit.com/r/OpenAI/comments/1fp1fes/the_system_prompt_of_advanced_voice_mode_it_can/
Kaggle: badges and awards

На каггл завезли обновление... новые значки для сбора.

Awards - 28 ачивок за разные активности типа организации соревнований, победы в аналитических соревнованиях, достижения высоких мест в рейтинге и так далее.

Badged - 54 ачивки за активности типа залогиниться N дней вподряд, сделать сабмиты в разные типы соревнований, создать ноутбук и так далее.

Пользы особой нет, но красиво.

Gotta Catch 'Em All?
Обзор книги "Unlocking Data with Generative AI and RAG"

Очередной отзыв на книгу от издательства Packt.

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium

Книга от кофаундера и CTO Ragas - поэтому не удивительно, что книга отличная. Вначале автор даёт обзор того как работает RAG, потом лезет в детали, причём весьма хорошо. Покрывает темы безопасности и red team, детали векторизации, поиска и прочего. Рассказывает о query enrichment, valuation, agents и многом другом. Крутая и прикладная книга. Рекомендую.

Ссылка на книгу

#datascience
​​Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Новая модель от Apple - zero-shot metric monocular depth estimation. Может генерить карты глубины в высоком разрешении с качественными деталями без использования метаданных. Для генерации карты глубины на 2.25 megapixel требуется всего 0.3 секунды на V100.

Модель использует multi-scale vision transformer, комбинирует реальные и синтетические данные для обучения и делает SOTA focal length estimation c одной картинки.

Выглядит впечатляюще.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.

Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."

То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.

Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда

Так что считаю, что это хороший бенчмарк :)

https://arxiv.org/abs/2410.07095v1

#datascience
​​Вечер пятницы, поэтому нестандартное.

Вот так выглядит обновление профиля CEO, получившего 7.5 лет тюрьмы за финансовое мошенничество

https://www.linkedin.com/in/ryansalame/
​​Differential Transformer

Diff Transformer от Microsoft. Идея до неприличного простая - мы считаем два attention и вычитаем один из другого с весами. Таким образом убирается шум по маловажным токенам. Эксперименты показывают, что Diff Transformer превосходит стандартный Transformer в таких задачах как long-context моделирование, key information retrieval, снижение галлюцинаций, in-context learning.

Выглядит круто.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
2025/06/27 19:15:12
Back to Top
HTML Embed Code: