Telegram Group Search
​​Bojan Tunguz в своём репертуаре :)
​​When Duolingo characters break 4th wall

#languages
​​How to use AI to write articles about how to use AI as a product manager for your AI app on your journey to being replaced by an AI product manager

Andrew Ng опубликовал мини-блог пост AI Product Management. К сожалению, текст настолько generic, что его очень красочно описали на ycombinator
​​Byte Latent Transformer: Patches Scale Better Than Tokens

Новая статья от META - Byte Latent Transformer. Пробуют новый подход к токенизации - вместо фиксированного словаря используют динамические patches, размер которых определяется по энтропии следующего байта. Модель успешно масштабировали до 8B параметров и 4T байтов, при этом с лучшим качеством. Плюс эффективность и тренировки, и инференса лучше. Каких-то особых недостатков подхода авторы не описали. Ждём Llama 4 на байтах? :)

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Falcon 3

Институт в Абу-Даби выпустил новую версию своей модели, блогпост на huggingface тут.

Модели размером от 1B до 10B. Одна из моделей - Mamba. Уверяют, что модель на 3B лучше, чем Llama 3.1-8B

#datascience
О насущном: состояние дел в индустрии
​​Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Новая версия всем известного BERT. Авторы обновили архитектуру, добавили модные трюки для оптимизации тренировки, досыпали данных. Получили SOTA на большинстве бенчмарков.

Было интересно почитать какие изменения появились за 6 лет. В конце статьи авторы ещё подробно описывали эксперименты и мысли. Из забавного: "проблема первого мира" - если в батче 500к-1млн семплов, то дефолтный семплер в Pytorch плохо рандомит. Авторам пришлось взять ссемплер из Numpy.

А ещё интересное - один из авторов недавно взял соло золото в соревновании на каггле и занял 4-е место в общем рейтинге соревнований.

Paper
Code
Weights
Blogpost

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Data, Stories and Languages
​​DataFest Yerevan Я завтра выступаю на DataFest Yerevan с рассказом про применение face recognition для выявления множественных аккаунтов одного человека. Блогпост про это я уже публиковал. По идее при регистрации на сайте https://datafest.am/2024 должна…
И вот доклады выложили на youtube!
https://www.youtube.com/watch?v=hieJhU9J3e0&list=PLvwlJZXG6IkVRkSDyJsPmcBXw25Nm7_yt&index=16

По ссылке можно посмотреть как мой доклад, так и остальные. Из забавного: с 17:40 на протяжении шести минут я отвечал на вопросы одного очень любознательного человека. Надеюсь, что это был не один из фродстеров :) И надеюсь, что я не сказал ничего лишнего 👀

#datascience
🤖 Папка ИИ

Под конец этого года коллеги из «ГОС ИТ Богатырёва» собрали нейрокрутую папку с каналами про ИИ и технологии, в которую включили и меня. Актуальные новости, советы по работе с LLM и многое другое.

Добавляйте папку и делитесь со своими друзьями.
​​И снова о том, как современные LLM увеличивают разницу между экспертами и новичками

Уже давно идут бурные обсуждения того, что благодаря LLM разница между сеньорами и джунами всё растёт и растёт - ибо опытные люди знают что и как спросить, могут поймать ошибки, могут подтолкнуть ботов в нужную сторону.

Сегодня я наткнулся на тредик на реддите. Автор жалуется, что o1 pro (который за 200$) бесполезен для написания кода.

Самый топовый ответ - "Type out a very detailed document that explains exactly what you want from your code - it could be several pages in length. Then feed that whole document into o1-pro and just let it do its thing. Afterwards, you can switch to 4o if you want to do minor adjustments using Canvas."

То есть предлагается написать полноценное детальное техзадание, которое бот сможет выполнить по шагам.
В том, насколько такое вообще работает я не уверен - не пробовал. Но если это действительно так, то это, опять же лишь "упрощает" работу сеньоров. Написать качественное детальное тз - это серьёзная задача, не все это могут.

Интересно наблюдать за тем, как индустрия безумно быстро двигается в некоторых направлениях.

#datascience
12 лет использования Anki для изучения иностранных языков

Я тут осознал, что уже 12 лет использую Anki для изучения иностранных языков. Решил подсобрать статистику и поделиться опытом.

Во-первых, если смотреть на график количества просмотров карточек, можно очень наглядно увидеть, как менялись интересы и жизнь. Есть несколько пиков, когда было активное изучение языков, есть несколько сильных падений - особенно когда перекатился в data science.

В настоящий момент Anki показывает, что у меня 36к карточек. Из них 15.8к - испанский, 9.7к японский и 8.8к немецкий.

В основном я сам создаю колоды - создаю карточки во время чтения, иногда использую готовые колоды.

Несколько советов на основе моего опыта:
• Карточки должны быть максимально чёткими - чтобы ответ был однозначным
• Зубрить слова в вакууме - не особо полезно и интересно, нужны предложения с примерами
• Не надо пытаться выучить все неизвестные слова - мы в родном-то языке не все слова знаем

Подробнее можно почитать в моём блогпосте.

#languages
​​Я не знаю, что это такое, но мне это прислал один из "неизвестных поклонников" то ли из Индии, то ли из Пакистана.

С Новым Годом, товарищи!
​​Training Large Language Models to Reason in a Continuous Latent Space

Новая статья от META - про кокосик! То есть Coconut (Chain of Continuous Thought).

Авторы предлагают изменить подход к reasoning в LLM, перемещая процесс из "language space" в "latent space". По сути, модель думает не токенами, а с использованием hidden state. Это позволяет делать breadth-first search и избегать преждевременных решений при выборе неоптимального пути. Coconut превосходит CoT в задачах логического мышления с необходимостью сложного планирования и backtracking.

Подобные идеи уже пробовали в других работах, но у META получилось довольно красиво. Кстати, в качестве базовой модели используют старый добрый GPT-2.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Оказывается, 200$ на openai pro - слишком дешево

Ждём 1-2к$?

https://x.com/sama/status/1876104315296968813
Albumentations 2.0.0 and Segmentation Models 0.4.0

Думаю, что подавляющее большинство DS, заставших времена ODS (👴) помнят эти две замечательные библиотеки для Computer Vision.

Сегодня обе обновились (интересное совпадение).

В Albumentations завезли прикольную аугментацию ConstrainedCoarseDropout и сделали много рефакторинга.

В Segmentation Models появились Segformer, UperNet и новые энкодеры.

#datascience
​​STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Интересная статья от TikTok, то есть от ByteDance - улучшение подходов super-resolution для видео. Года 4 назад у меня был рабочий проект на эту тему, так что было интересно посмотреть на прогресс.

Предложенная модель состоит из четырёх частей: VAE, текстовый энкодер, ControlNet, и T2V модель. В T2V добавили новый модуль - Local Information Enhancement Module, чтобы уменьшить количество артефактов, дополнительно придумали Dynamic Frequency лосс, чтобы модель меньше выдумывала лишнее. Получили хорошие результаты на куче бенчмарков. Из примеров меня особенно впечатлило улучшение качества совсем расплывчатого текста.

Paper
Project
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Обзор книги "Modern Graph Theory Algorithms with Python"

Очередной отзыв на книгу от Packt

Мой англоязычный отзыв можно почитать тут:
Linkedin
Goodreads

Эта книга была средненькой, где-то на 3.5/5.

Введение неплохое, но к концу стало казаться, что слишком много информации впихнули.

Примеры использования графовых сеток для NLP/CV были вроде как хорошими, но ничего особо нового там не было - подобное я и в других книгах видел... Плюс, я из любопытства попросил ChatGPT дать мне пример кода GCN, и результат чуть ли не построчно совпал с тем, что было в книге - вплоть до гиперпараметров.

Секция про скрещивание LLM и графовых сеток - показалось, что её написали просто потому, что LLM везде.

Обзор будущего - поверхностно.

Из плюсов - мне понравилась секция про representation learning.

Ссылка на книгу

#datascience
2025/01/16 06:27:07
Back to Top
HTML Embed Code: