gpt-o1 - thinking for seconds, minutes, hours, weeks...
Уже все рассказали про новую модель от openai, лично меня заинтересовал их пойнт о том, что текущая версия модели думает секунды (хотя я уже видел скриншоты с размышлениями на 90+ секунд), но будущие версии могут думать часами и неделями.
https://x.com/polynoamial/status/1834280969786065278
Идея интересная во многих планах - смогут ли они гарантировать, что предсказание не прервётся по техническим причинам? Можно ли будет делать чекпойнты для просмотра промежуточных результатов и продолжения с них? Может ли вообще это работать?
Ну и пока концепция "дать модели много времени подумать и будет счастье" звучит как мечты. Или как замечательная машина, ответившая "42". С другой стороны, прогресс не остановить - как знать, чего человечество достигнет.
#datascience
Уже все рассказали про новую модель от openai, лично меня заинтересовал их пойнт о том, что текущая версия модели думает секунды (хотя я уже видел скриншоты с размышлениями на 90+ секунд), но будущие версии могут думать часами и неделями.
https://x.com/polynoamial/status/1834280969786065278
Идея интересная во многих планах - смогут ли они гарантировать, что предсказание не прервётся по техническим причинам? Можно ли будет делать чекпойнты для просмотра промежуточных результатов и продолжения с них? Может ли вообще это работать?
Ну и пока концепция "дать модели много времени подумать и будет счастье" звучит как мечты. Или как замечательная машина, ответившая "42". С другой стороны, прогресс не остановить - как знать, чего человечество достигнет.
#datascience
GameGen-O: Open-world Video Game Generation
GameGen-O: the first diffusion transformer model tailored for the generation of open-world video games
https://gamegen-o.github.io/
GameGen-O: the first diffusion transformer model tailored for the generation of open-world video games
https://gamegen-o.github.io/
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
Китайские стажёры выкатили новую модель для генерации говорящих/поющих лиц. End-to-end audio-only conditioned video diffusion. Модель использует inter- и intra-clip temporal modules, а также audio-to-latents module, чтобы эффективно извлекать long-term motion information и делать движения лица более релевантными звуку. Судя по метрикам - людям нравится. Выглядит и звучит весьма круто. Мне особенно понравилось как картина в классическом китайском стиле задорно поёт "Katy Perry - E.T.".
Paper link
Project link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Китайские стажёры выкатили новую модель для генерации говорящих/поющих лиц. End-to-end audio-only conditioned video diffusion. Модель использует inter- и intra-clip temporal modules, а также audio-to-latents module, чтобы эффективно извлекать long-term motion information и делать движения лица более релевантными звуку. Судя по метрикам - людям нравится. Выглядит и звучит весьма круто. Мне особенно понравилось как картина в классическом китайском стиле задорно поёт "Katy Perry - E.T.".
Paper link
Project link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on mathematics and data science:
👨🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time
Add to Google Calendar
Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).
The talk is based on a recent paper: https://arxiv.org/abs/2408.15332
О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://www.group-telegram.com/sberlogasci/19688 - subscribe !
Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
👨🔬 Sergei Gukov "What makes math problems hard for reinforcement learning: a case study"
⌚️ 19 September, Thursday 19.00 Moscow time
Add to Google Calendar
Can AI solve hard and interesting research-level math problems? While there is no mathematical definition of what makes a mathematical problem hard or interesting, we can provisionally define such problems as those that are well known to an average professional mathematician and have remained open for N years. The larger the value of N, the harder the problem. Using examples from combinatorial group theory and low-dimensional topology, in this talk I will explain that solving such hard long-standing math problems holds enormous potential for AI algorithm development, providing a natural path toward Artificial General Intelligence (AGI).
The talk is based on a recent paper: https://arxiv.org/abs/2408.15332
О докладчике: Сергей Гуков - профессор КалТех, выпускник МФТИ и Принстона, один из наиболее известных специалистов по теории струн и математической физике, в последние годы занимающийся применением методов Reinforcement Leaning к задачам математики и физики.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga and in telegram: https://www.group-telegram.com/sberlogasci/19688 - subscribe !
Анонс на твиттер:
https://x.com/sberloga/status/1835702457260765359
Ваши лайки и репосты - очень welcome !
Обзор книги "Modern Graph Theory Algorithms with Python"
Очередной отзыв на книгу от Packt
Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium
В отличие от прошлой книги, эта мне совершенно не понравилась - я её даже не дочитал.
Первое, что сразу убило интерес - огромное количество сгенерированных картинок, которые не несут никакой смысловой нагрузки. Например, автор пишет, что вот есть класс со студентами и мы будем работать с этими данными... и втыкает на полстраницы сгенеренную картинку класса детей. И подобных картинок полно.
Книга типа для начинающих, но автор накидывает кучу терминов (susceptible-infected-resistant (SIR) model, Christofides algorithm, Fiedler value, Holt–Winters models, Forman-Ricci curvature centrality, и многие другие) и не всегда поясняет их. При этом он ещё часто прыгает с одной темы на другую.
И бывает так, что нам даётся слишком high-level код без достаточных объяснений. Типа "вот сейчас мы запилим нейроночку с SAGEConv".
Я не хотел постить отзыв, но люди из Packt попросили максимально смягчить мои слова, что я и сделал.
Ссылка на книгу
#datascience
Очередной отзыв на книгу от Packt
Мой англоязычный отзыв можно почитать тут:
Medium
В отличие от прошлой книги, эта мне совершенно не понравилась - я её даже не дочитал.
Первое, что сразу убило интерес - огромное количество сгенерированных картинок, которые не несут никакой смысловой нагрузки. Например, автор пишет, что вот есть класс со студентами и мы будем работать с этими данными... и втыкает на полстраницы сгенеренную картинку класса детей. И подобных картинок полно.
Книга типа для начинающих, но автор накидывает кучу терминов (susceptible-infected-resistant (SIR) model, Christofides algorithm, Fiedler value, Holt–Winters models, Forman-Ricci curvature centrality, и многие другие) и не всегда поясняет их. При этом он ещё часто прыгает с одной темы на другую.
И бывает так, что нам даётся слишком high-level код без достаточных объяснений. Типа "вот сейчас мы запилим нейроночку с SAGEConv".
Я не хотел постить отзыв, но люди из Packt попросили максимально смягчить мои слова, что я и сделал.
Ссылка на книгу
#datascience
Training Language Models to Self-Correct via Reinforcement Learning
Интересная статья от Deepmind, в чём-то похожая на то, что недавно сделали openai в серии моделей o1.
SCoRe — это новый подход для улучшения способности моделей LLM к self-correction с использованием multi-turn reinforcement learning и данных, сгенерированных самими моделями. Авторы показывают, что использовать supervised fine-tuning недостаточо из-за distribution mismatch между тренировочными данными и тем, что выдаёт модель; плюс модели могут "запомнить" только один способ коррекции, который может быть не достаточно эффективен при инференсе.
SCoRe решает эти проблемы - модель обучается на self-generated correction traces и добавляет регуляризацию для повышения эффективности самокоррекции на этапе тестирования. В результате, SCoRe улучшает self-correction моделей Gemini 1.0 Pro и 1.5 Flash на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Интересная статья от Deepmind, в чём-то похожая на то, что недавно сделали openai в серии моделей o1.
SCoRe — это новый подход для улучшения способности моделей LLM к self-correction с использованием multi-turn reinforcement learning и данных, сгенерированных самими моделями. Авторы показывают, что использовать supervised fine-tuning недостаточо из-за distribution mismatch между тренировочными данными и тем, что выдаёт модель; плюс модели могут "запомнить" только один способ коррекции, который может быть не достаточно эффективен при инференсе.
SCoRe решает эти проблемы - модель обучается на self-generated correction traces и добавляет регуляризацию для повышения эффективности самокоррекции на этапе тестирования. В результате, SCoRe улучшает self-correction моделей Gemini 1.0 Pro и 1.5 Flash на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Статистика: вероятность болезни 1.96% или 95%?
В твиттере пару дней назад завирусился тредик. Топикстартер утверждает, что врачи глупые и не понимают статистику. В качестве примера приводит такую задачку:
Есть редкое заболевание (1/1000). Мы делаем тест с false positive rate 5%. Какая вероятность того, что тест показывает наличие болезни и она действительно есть?
Мол, только 20% врачей ответили правильно.
"if a test to detect a disease whose prevalence is 1/1000 has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming that you know nothing else about the person's symptoms or signs?"
И пошло весёлое обсуждение. В целом есть три точки зрения:
• 1000 кейсов, 49 FP, 1 TP -> 2%
• Bayes: (1 x 0.001) / ((1 x 0.001) + (0.05 x 0.999)) -> 1.96%
• Утверждается, что вся соль в формулировке: в тексте спрашивается не про рандомного человека и не про популяцию в целом, а только про тех, кто получил позитивный результат теста. А нам известно, что false positive rate 5% -> 95%
А вы как думаете?
#datascience
В твиттере пару дней назад завирусился тредик. Топикстартер утверждает, что врачи глупые и не понимают статистику. В качестве примера приводит такую задачку:
Есть редкое заболевание (1/1000). Мы делаем тест с false positive rate 5%. Какая вероятность того, что тест показывает наличие болезни и она действительно есть?
Мол, только 20% врачей ответили правильно.
"if a test to detect a disease whose prevalence is 1/1000 has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming that you know nothing else about the person's symptoms or signs?"
И пошло весёлое обсуждение. В целом есть три точки зрения:
• 1000 кейсов, 49 FP, 1 TP -> 2%
• Bayes: (1 x 0.001) / ((1 x 0.001) + (0.05 x 0.999)) -> 1.96%
• Утверждается, что вся соль в формулировке: в тексте спрашивается не про рандомного человека и не про популяцию в целом, а только про тех, кто получил позитивный результат теста. А нам известно, что false positive rate 5% -> 95%
А вы как думаете?
#datascience
X (formerly Twitter)
Jeremy Kauffman 🦔🌲🌕 (@jeremykauffman) on X
4 out of 5 doctors can't answer an introductory statistics question
Doctors are midwits maintaining a medieval guild system, not geniuses
Doctors are midwits maintaining a medieval guild system, not geniuses
В ChatGPT подписчикам начали выкатывать advanced voice mode - я уже получил.
Новые голоса нравятся, но особого изменения качества пока не заметил.
Новые голоса нравятся, но особого изменения качества пока не заметил.
Говорят, что достали системный промпт Advanced Voice Mode
https://www.reddit.com/r/OpenAI/comments/1fp1fes/the_system_prompt_of_advanced_voice_mode_it_can/
https://www.reddit.com/r/OpenAI/comments/1fp1fes/the_system_prompt_of_advanced_voice_mode_it_can/
Kaggle: badges and awards
На каггл завезли обновление... новые значки для сбора.
Awards - 28 ачивок за разные активности типа организации соревнований, победы в аналитических соревнованиях, достижения высоких мест в рейтинге и так далее.
Badged - 54 ачивки за активности типа залогиниться N дней вподряд, сделать сабмиты в разные типы соревнований, создать ноутбук и так далее.
Пользы особой нет, но красиво.
Gotta Catch 'Em All?
На каггл завезли обновление... новые значки для сбора.
Awards - 28 ачивок за разные активности типа организации соревнований, победы в аналитических соревнованиях, достижения высоких мест в рейтинге и так далее.
Badged - 54 ачивки за активности типа залогиниться N дней вподряд, сделать сабмиты в разные типы соревнований, создать ноутбук и так далее.
Пользы особой нет, но красиво.
Gotta Catch 'Em All?
Обзор книги "Unlocking Data with Generative AI and RAG"
Очередной отзыв на книгу от издательства Packt.
Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium
Книга от кофаундера и CTO Ragas - поэтому не удивительно, что книга отличная. Вначале автор даёт обзор того как работает RAG, потом лезет в детали, причём весьма хорошо. Покрывает темы безопасности и red team, детали векторизации, поиска и прочего. Рассказывает о query enrichment, valuation, agents и многом другом. Крутая и прикладная книга. Рекомендую.
Ссылка на книгу
#datascience
Очередной отзыв на книгу от издательства Packt.
Мой англоязычный отзыв можно почитать тут:
Medium
Книга от кофаундера и CTO Ragas - поэтому не удивительно, что книга отличная. Вначале автор даёт обзор того как работает RAG, потом лезет в детали, причём весьма хорошо. Покрывает темы безопасности и red team, детали векторизации, поиска и прочего. Рассказывает о query enrichment, valuation, agents и многом другом. Крутая и прикладная книга. Рекомендую.
Ссылка на книгу
#datascience
Linkedin
My review of the book "Unlocking Data with Generative AI and RAG" | Andrey Lukyanenko
My review of the book "Unlocking Data with Generative AI and RAG"
https://lnkd.in/dUFnR7s4
I was offered to read this book in exchange for an honest review.
This is a great book. I appreciate how the author starts with a general overview, presents some…
https://lnkd.in/dUFnR7s4
I was offered to read this book in exchange for an honest review.
This is a great book. I appreciate how the author starts with a general overview, presents some…
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Новая модель от Apple - zero-shot metric monocular depth estimation. Может генерить карты глубины в высоком разрешении с качественными деталями без использования метаданных. Для генерации карты глубины на 2.25 megapixel требуется всего 0.3 секунды на V100.
Модель использует multi-scale vision transformer, комбинирует реальные и синтетические данные для обучения и делает SOTA focal length estimation c одной картинки.
Выглядит впечатляюще.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Новая модель от Apple - zero-shot metric monocular depth estimation. Может генерить карты глубины в высоком разрешении с качественными деталями без использования метаданных. Для генерации карты глубины на 2.25 megapixel требуется всего 0.3 секунды на V100.
Модель использует multi-scale vision transformer, комбинирует реальные и синтетические данные для обучения и делает SOTA focal length estimation c одной картинки.
Выглядит впечатляюще.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.
Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."
То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.
Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда
Так что считаю, что это хороший бенчмарк :)
https://arxiv.org/abs/2410.07095v1
#datascience
Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.
Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."
То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.
Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда
Так что считаю, что это хороший бенчмарк :)
https://arxiv.org/abs/2410.07095v1
#datascience
arXiv.org
MLE-bench: Evaluating Machine Learning Agents on Machine Learning...
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a...
Вечер пятницы, поэтому нестандартное.
Вот так выглядит обновление профиля CEO, получившего 7.5 лет тюрьмы за финансовое мошенничество
https://www.linkedin.com/in/ryansalame/
Вот так выглядит обновление профиля CEO, получившего 7.5 лет тюрьмы за финансовое мошенничество
https://www.linkedin.com/in/ryansalame/
Differential Transformer
Diff Transformer от Microsoft. Идея до неприличного простая - мы считаем два attention и вычитаем один из другого с весами. Таким образом убирается шум по маловажным токенам. Эксперименты показывают, что Diff Transformer превосходит стандартный Transformer в таких задачах как long-context моделирование, key information retrieval, снижение галлюцинаций, in-context learning.
Выглядит круто.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Diff Transformer от Microsoft. Идея до неприличного простая - мы считаем два attention и вычитаем один из другого с весами. Таким образом убирается шум по маловажным токенам. Эксперименты показывают, что Diff Transformer превосходит стандартный Transformer в таких задачах как long-context моделирование, key information retrieval, снижение галлюцинаций, in-context learning.
Выглядит круто.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview