Telegram Group Search
The AI Scientist: Fully Automated Scientific Discovery или буллшит

Несколько дней назад была опубликована громкая статья The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, в которой авторы уверяют, что создали решение для автоматической генерации новых идей, написания кода, визуализации результатов и так далее.

В репозитории лежат 10 сгенеренных статей с кодом для них. Я решил прочитать их и сравнить с полноценными статьями, которые я читал ранее. Результаты не особо позитивные.

У меня есть три основных пункта критики:
• Все эти статьи сводятся к оптимизации гиперпараметров или архитектуры
• Предложенные подходы сравниваются только с бейзлайном - нет сравнения с подходами других авторов
• Пункт, связанный с предыдущим, - у всех этих статей список литературы состоит из 6-11 пунктов

Теперь сами статьи:
1. Accelerating Mathematical Insight: Boosting Grokking Through Strategic Data Augmentation Учат модель складывать, вычитать и делить числа. Экспериментируют с аугментациями типа вместо a + b сделать b + a или слегка изменить значения a, b = (self.p - a) % self.p, (self.p - b) % self.p

2. Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length Та же самая задача (складывать, вычитать и делить числа), добавили ещё датасет с пермутациями.
Хотят проверить когда может начаться grokking - идея в том, что он внезапно происходит при определенном MDL. По факту тренируют трансформер, вклад статьи - новая метрика: количество ненулевых весов модели после применения pruning threshold. И замеряют как эта метрика меняется во время тренировки.

3. Grokking Accelerated: Layer-wise Learning Rates for Transformer Generalization "Оказывается", если разным слоям трансформера поставить разный learning rate, это может улучшить метрики. На Kaggle, помнится, такие подходы использовали годы назад.

4. Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models Сравнение стандартных подходов к инициализации весов сетки.

5. Adaptive Learning Rates for Transformers via Q-Learning Обновляют lr с помощью q-learning на основе валидационного лосса. Ну хоть датасеты взяли поинтереснее - shakespeare char, enwik8, text8.

6. StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models Единственная статья, которая мне показалась интересной. Авторы хотят сделать стиль сгенерированного текста консистентным - чтобы он не менялся для разных кусков текста. Суть - просто после каждого слоя трансформера добавляют новый модуль и к обычному лоссу добавляют ошибку классификации стиля. Но по факту это подбор архитектуры. И вполне возможно, что в существующих статьях что-то подобное пробовали.

7. DualDiff: Enhancing Mode Capture in Low-dimensional Diffusion Models via Dual-expert Denoising Запускают эксперименты на 2D датасетах по генерации circle, moon, line - это прям несерьёзно (данные генерятся на sklearn). Это точно статья по подбору архитектуры - вместо тренировки одной диффузионной модели берут две (обе MLP + residual) и добавляют gating mechanism.

8. GAN-Enhanced Diffusion: Boosting Sample Quality and Diversity Если честно, не понял, что это было. Берут модель diffusion и добавляют GAN - типа тренируют на reconstruction + adversarial loss. Тот же синтетический датасет, что из прошлой статьи.

9. Multi-scale Grid Noise Adaptation: Enhancing Diffusion Models For Low-dimensional Data Экспериментируют с вариантами добавления шума - размерами 5х5 и 20х20.

10. DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models По факту - добавили "local branch" - типа residual внутри сетки: мини-сетка, которая работает с upscaled images.

В общем, я ожидал хоть один серьёзный пример в сгенеренных статьях - и не увидел ни одного.
Справедливости ради стоит признать, что эксперименты с оптимизацией архитектуры - это тема многих статей. Но в них, хотя бы, сравнивают с другими подходами и используют нормальные датасеты.

#paperreview #datascience
​​Winning Amazon KDD Cup24

В этот раз не совсем статья - это техническое описание победившего решения в соревновании от Amazon. Команда Kaggle грандмастеров от NVIDIA заняла в нём первое место. Надо было создать ассистента для онлайн-шоппинга с использованием LLM. Участникам предлагалось решить 57 задач 5 типов, разделённых на 4 трека.

Авторы использовали модель Qwen2-72B-Instruct, которую дообучили на собственном датасете, созданном с помощью публичных данных и синтетической генерации. Для борьбы с distribution shifts применили wise-ft; использовали несколько LoRA адаптеров, добавили Logits Processors для ограничения вывода модели. Для инференса сделали 4-bit quantization и использовали vLLM - ибо были ограничения на размер моделей и на продолжительности инференса.

Мне было любопытно, что сейчас используют в соревнованиях для подобных задач. В целом получилось ожидаемо - собрали огромный датасет (500к), усреднили 4 fine-tuned модели (кстати, тренировали 1 день на 8 A100), добавили постпроценнинг и прочие трюки и получили SOTA.

Paper link

Competition link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​On the speed of ViTs and CNNs

Lucas Beyer опубликовал блогпост на тему сравнения скорости инференса ViT и CNN. Обсуждение в твиттере тут. Обычно говорят, что из-за attention трансформеры работают медленно, и он хотел показать, что это нет так. Код выложен. Кстати, он на PyTorch.

Сравнивал ConvNeXt-B, NFNet-F0, NFNet-F1 и ViT-B/16 из timm на рандомно сгенеренных тензорах.
Выводы: скорость вполне хорошая минимум до разрешения 1024х1024 (дальше не проверялось), а иногда ViT даже быстрее CNN.

Правда есть нюанс - Ross Wightman прокомментировал, что это во многом благодаря fused F.sdpa / flash attn - без этого скорость была бы намного ниже.

#datascience
​​https://x.com/Altimor/status/1825659507617460439

Эпичный пример фейла чат-ботов:
У компании нет видео-туториалов своего продукта.
Юзеры просят чат-бота дать ссылку на видео-туториал.
Чат-бот высылает ссылку на rickroll
Reddit thread: I Automated Leetcode using Claude’s 3.5 Sonnet API and Python. The script completed 633 problems in 24 hours, completely autonomously. It had a 86% success rate, and cost $9 in API credits.

https://www.reddit.com/r/leetcode/comments/1ex7a1k/i_automated_leetcode_using_claudes_35_sonnet_api/
​​Секреты профессионалов
Обзор книги "Building Data-Driven Applications with LlamaIndex"

Недавно мне написали из Packt и предложили почитать книгу и опубликовать отзыв.

Мой англоязычный отзыв можно почитать тут:
Linkedin
Medium

Неофициально скажу, что книга годная. Автор даёт обзор LLM в целом, описывает актуальные подходы к разработке чат-ботов и других решений, и подробно рассказывает о том, как использовать LlamaIndex. Я раньше использовал только LangChain, поэтому было интересно сравнить. Во многом похоже, но в LlamaIndex больше возможностей контроля происходящего.

Ссылка на книгу

#datascience
​​Notion: блокировка для российских пользователей

Сегодня стало известно, что с 9 сентября Notion вводит ограничения для российских пользователей.

 U.S. government has introduced restrictions prohibiting access to certain software products and services to any person in Russia. Due to these restrictions, on September 9, 2024, Notion will no longer provide users located in Russia access to the platform. This includes:

Terminating all Notion workspaces identified as being located in Russia.

Preventing users from within Russia from accessing Notion’s services.

Impacted users will be able to access their workspaces through September 8, 2024. On September 9, 2024, the workspaces will no longer be accessible and users located in Russia will no longer be able to access Notion’s services.


Пока точно не понятно, как именно определяется то, что пользователь из России - то ли по почте/карте, то ли по другим критериям. По идее, если аккаунт будет заблокирован, то прийдёт уведомление на почту.

В связи с этим subreddit Notion выглядит так:

Астрологи объявили неделю Obsidian, приток пользователей с Notion удваивается.
​​Прогресс в инструментах для OCR для практики иностранных языков

Прогресс часто приходит незаметно, но если вспомнить как было раньше - он явно заметен. Но всё равно до совершенства далеко.

Например, читаю мангу на японском (по фану и для практики), вижу незнакомое слово - хочу перевести. Вопрос - как это сделать?

Классический вариант - искать слово по словарям. Медленно, но надежно. Плюс, для иероглифических языков это сложнее.

Следующий вариант - есть отличный сайт, где можно от руки (или курсором) нарисовать иероглиф, и найти наиболее подходящий на нарисованное. Минусы - если иероглиф сложный, фиг его нарисуешь нормально. Ну и не будешь же целые предложения так по символам составлять.

Другой вариант — использовать Google Translate на телефоне: он переводит всё, что видит на фото или в режиме камеры. Но водить телефоном по экрану ноутбука/телефона не очень удобно.

В японских сообществах по изучению японского есть много разных инструментов для OCR и перевода, но большинство из них под Windows, а для Mac найти что-то подходящее сложнее.

Наконец, я решил банально попробовать ChatGPT - посылаешь в него скриншот страницы манги, просишь распознать - он выдаст и японский текст, и перевод. Казалось бы - офигеть, очень круто. Я составил красивый системный промпт и начал использовать. Но довольно быстро стало понятно, что всё не так уж и хорошо. То куски текста пропускает, то выдаёт текст, которого на страничке вообще нет. Глаз да глаз за ним нужен. И это происходит несмотря на то, что в системном промпте прям про это написано, например "Extract ALL the text from the manga page, making sure not to miss any characters or words.". Но пока это остаётся самым лучшим инструментом. Остаётся надеяться, что в будущих версиях ChatGPT результат будет надёжнее.

#languages
​​О помощи людям... и о последствиях

Мне регулярно (пусть и не часто) пишут люди с вопросами о DS, карьере и всём связанном с этим. Я стараюсь помогать им. Но иногда это заканчивается очень неожиданно...
​​Agentic Retrieval-Augmented Generation for Time Series Analysis

Новая подход для анализа временных рядов использует агентную RAG архитектуру, где главный агент координирует специализированных подагентов. Они используют небольшие, pre-trained language models (SLMs), которые адаптированы под конкретные задачи временных рядов через instruction tuning и DPPO. Они извлекают релевантные промпты из пула знаний для улучшения прогнозов на новых данных.

Статья вызвала смешанные впечатления. С одной стороны, идея крутая. С другой стороны, примеров промптов нет, кода нет, так что такие успехи выглядят слегка сомнительно.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Internet Archive loses appeal

https://x.com/PublishersWkly/status/1831357570365497379

In a swift decision, a three-judge panel of the Second Circuit Court of Appeals has unanimously affirmed a March 2023 lower court decision finding the Internet Archive's program to scan and lend print library books is copyright infringement.


Это реально грустно. Сколько угодно можно говорить о важности прогресса LLM и о копирайте... но когда LLM "имеют право" парсить, что угодно и компании получают от этого выгоду, а Internet Archive не имеет права сохранять знания - это не то будущее, о котором я мечтал.
​​DataFest Yerevan

Я завтра выступаю на DataFest Yerevan с рассказом про применение face recognition для выявления множественных аккаунтов одного человека. Блогпост про это я уже публиковал.

По идее при регистрации на сайте https://datafest.am/2024 должна быть доступна трансляция. И потом доклады выложат в открытый доступ.

Вчера бродили с несколькими другими докладчиками по Еревану - город очень красивый! ❤️

#datascience
​​DataFest Yerevan 2024 закончился

Это было прекрасное мероприятие, очень интересное и организация была отличной. Кстати, это было первое мероприятие, где меня пригласили и оплатили билеты, отель, такси и прочее.

Я провёл в городе 4 дня (неполных). В первый день мы с другими спикерами (впятером) пошли гулять по городу, поднялись пешком по Каскаду и дошли до монумента "Мать-Армения". Город красивый - зелёный, атмосферный, с историей.

В пятницу и субботу было само мероприятие. Полно крутых спикеров с интересными докладами. Не могу перечислить всех, назову только несколько:

• Augustin Žídek - Accurate structure prediction of biomolecular interactions with AlphaFold 3. Интересный рассказ о том, как разрабатывали AlphaFold 2. Из любопытного - в версии AlphaFold 2 было много хаков, и на докладе спикера спросили, почему бы не использовать diffusion? Тогда спикер ответил "no comments", ибо это не казалось релевантным. А в текущей версии как раз используется diffusion подход - оказалось, что если модель достаточно сильная, то можно обойтись без хаков. В конце доклада он давал советы о том, как в целом организовывать процесс исследования и экспериментов - это было очень похоже на то, как работают крутые команды на Kaggle.
• Théo Moutakanni - Scaling Self-Supervised Learning: Engineering, Data, and Application. Рассказ о DINOv2. Статью я читал (и даже обзор писал), но было интересно послушать из первых уст.
• Nensi Hakobjanyan, Stefan Christoph - Unlocking the Power of LLMs: Next generation recommender systems. Они рассказывали о том, как можно использовать LLM для рекомендаций. Основная суть была в предсказании следующего токена/айтема. В конце доклада я задал вопрос о том, насколько хорошо это всё работает на практике и какую роль играет в рекомендационных системах в целом (retrieval, ranking или что-то другое). Получил ответ, что пока всё же лучше использовать "обычные" рекомендательные системы.
• Grigory Sapunov - Not only Transformers. Отличный обзор современных архитектур отличных от трансформеров.

Было ещё много интересных докладов, но все перечислить не могу. С большинством спикеров обращались в кулуарах - интересные и вдохновляющие люди. И было на удивление много докладов на тему биомедицины, как и слушателей занимающихся этой темой.

#life #datascience
Stanford запустил форум для обсуждения статей с arxiv

https://www.alphaxiv.org/

Кажется, что подобные инициативы уже были. Посмотрим как будут успехи с этой.
​​LinkedIn - customized text went wrong

Какое-то время назад на LinkedIn появилась фича с возможностью генерить тексты почти на любых страницах соцсети. Одно из самых распространённых применений - генерация персонализированных текстов для обращения к людям. В теории это круто, но на практике... Хочу поделиться парой примеров того, что видел. Выглядит либо смешно, либо просто как WTF.
​​Вот он какой - секрет достижения AGI

God-approved superalignment
2025/06/28 14:57:08
Back to Top
HTML Embed Code: