Telegram Group Search
​​Alternative AGI timeline
​​Baidu: ERNIE 4.5 & X1. Веса в открытом доступе в июне

Когда-то давно, в 2019 года (прям седая древность по меркам современного NLP, ага) вышла первая версия ERNIE.

А теперь китайцы заявили о самой новой версии. Ernie 4.5 работает на уровне ChatGPT 4.5. Причём в чате бесплатно, а по API в 100 раз дешевле, чем chatgpt 🙈

А самое главное - к 30 июня обещают выложить веса в открытый доступ.

#datascience
​​Чувствуешь себя старым, когда видишь новое поколение "AI-щиков", которые не знают о модели BERT 🙈👴

https://www.reddit.com/r/singularity/comments/1jcbpnk/baidu_releases_ernie_45_x1_half_the_price_of/
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Audio Flamingo 2 - статья от NVIDIA о новой SOTA Audio-Language модели. Сделали свою архитектуру с кастомным CLAP, тренировку в 3 этапа и натренировали на специально собранном большом датасете. Моделька работает прям значительно лучше, чем предыдущие топовые модели. И всего на размере в 3B. Выглядит как годная работа. Особенно интересно то, что по образу и подобию R1, o1 и прочих reasoning моделей, датасет как раз собран так, чтобы заставить модель думать - похоже это первое такое для audio-language моделей.

Из грустного - на одном из графиков видно, что разницы в качестве между 3B и 7B практически нет. Похоже, что скейлинг для такого подхода не работает. Или нужно что-то другое.

Paper
Code
Project

Мои обзоры:
Personal blog: https://andlukyane.com/blog/paper-review-audio-flamingo-2
Medium
Linkedin Pulse

#paperreview
OpenAI vs the gorilla dataset

Какие только "издевательства" над чат-ботами я не видел. И вот подвезли ещё одно.

Есть один интересный датасет с данными по полу, BMI и количеству пройденных шагов в день. Этот датасет показали двум группам студентов. Одним предложили подумать о данных и дали три вопроса для затравки, другим просто предложили подумать о данных. Оказалось, что вторая группа со значительной вероятностью находила изюминку в данных... то, что график данных представлял из себя гориллу!

Так вот, один любопытный человек попробовал повторить эксперимент с ChatGPT. Дал ему данные и попросил проанализировать. Бот даже выдал график с гориллой, но не осознал, что с графиком что-то необычное.
Наводящие вопросы немного помогли, но не совсем.

Забавный эксперимент.
У меня лишь два вопроса: какой датасет использовал автор блогпоста (ибо про датасет есть статья, но сам датасет не опубликован) и какую версию ChatGPT он пробовал (вполне возможно, что o1/4.5 уже могут всё понять).

https://koaning.io/posts/openai-vs-the-gorilla-dataset/

#datascience
​​Антиутопия в фантастике: государство знает все о вас и следит за каждым движением!
Антиутопия в реальности: приложение заказа еды знает сколько вы зарабатываете
​​RWKV-7 "Goose" with Expressive Dynamic State Evolution

На этой неделе я решил посмотреть какой прогресс у "альтернативных" архитектур. Вышла RWKV-7 "Goose" (похоже авторы с каггла ;) ) - новая версия этой рекуррентной архитектуры. Они смогли сделать обобщение delta rule, в итоге получили модель с хорошими метриками и при инференсе модель делает предсказания за констанное время и память на токен. Несколько моделей выложили в open source.

Но выглядит слегка странно. Размеры моделей вызывают вопросы. 0.19B, 0.4B, 1.5B, 2.9B - не все из этих размеров стандартны, что вызывает сложности в сравнении с другими моделями. Ещё они в твиттере заявили, что выкладывают reasoning модель на... 0.19B. В комментах люди пишут, что качество так себе.

По крайней мере это выглядит любопытно.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Leetcode: 2025 Hiring Prep Sprint – Big Tech Interview Challenge

На литкоде сейчас идёт активность: в течение трёх недель людям предлагается решать задачки (11 каждую неделю плюс 3 премиальных для премиум юзеров). Если успешно решить все и отписаться в треде, то дадут много LeetCoins.

Сами LeetCoins - вряд ли мотивация, но сама активность - неплохая возможность освежить самые разные темы от BFS до всякое экзотики.

#datascience
​​Как меняются ожидания от моделей и их возможности

https://news.ycombinator.com/item?id=43476174

На метрики смотреть не особо интересно - они далеко не всегда отражают реальность, но вот этот комментарий про Gemini 2.5 меня впечатлил.

За пару лет мы прошли путь от "если эта хрень генерит больше одной страницы, получается бессвязно" до "эта штука может сгенерить 19 страниц текста с деталями, связно и с приличным pacing".
Improving Recommendation Systems & Search in the Age of LLMs

Блогпост от довольно известного Eugene Yan про то, какие есть новые работающие подходы к построению рекомендательных систем. Весьма годный обзор большого количества статей с деталями и графиками. Мне показались интересными следующие примеры:

• Semantic ID в Youtube: берут видео, дальше что-то типа Video-BERT генерит эмбеддинги, дальше Residual Quantization Variational AutoEncoder превращает их в Semantic ID.
• CALRec от Google: берут взаимодействия юзеров и айтемов, конвертируют в текст. LLM делает предсказывает следующую покупку, решая задачу sentence completion. Модель файн-тюнят в два этапа: вначале учат предсказывать более общие категории, потом более детальные категории. При предсказании генерят несколько кандидатов, сортируют и берут топ-k. А дальше матчат с каталогом с помощью старого доброго BM25.
• Recommendation Quality Improvement от Bing: просто генерят метаданные для веб-сайтом с помощью LLM. Дальше тюнят на этом Mistral-7B. Для ранкинга тюнят мульти-таск кросс-энкодер для предсказания кликов и для классификации.
• Scaling Laws: статья 2023 года. Авторы проверяют идею того, что качество моделей растёт с размером. Тренировали трансформеры размером от 98.3K до 0.8B. Результат был неудивительный - качество действительно расло с размером моделей. Что интересно - при одинаковом размере датасета, модель большего размера каждый раз получали качество лучше. Видимо capacity больше.
• Bridging Search & Recommendations от Spotify: показали, что тренировать одну модель сразу для рекомендаций и поиска лучше, чем две отдельные.

Там ещё полно годных примеров: бывает, что статьи от разных компаний показывают примерно одинаковые выводы (что подчёркивает их практичность), есть статьи про дистилляцию, оптимизацию тюнинга и так далее.

#datascience
​​Video-T1: Test-Time Scaling for Video Generation

Авторы решили прикрутить Test-Time Scaling к видео и посмотреть, что получится. Они формулируют задачу как поиск оптимальной траектории из шума к финальному видео с помощью верификаторов и эвристик. Вначале попробовали линейный подход (генерим отдельные видео и оцениваем их), потом Tree-of-Frames - строится дерево с прунингом. Результаты вполне ожидаемые: TTS улучшает качество, но в какой-то момент выходит на плато; более жирные модельки лучше улучшаются, чем более мелкие; основные улучшения в базовых вещах (объекты, сцены, общее качество), а вот движения, гладкость и прочее - не всегда заметно улучшаются.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Первая LLM?

На днях я натолкнулся на интересное обсуждение в твиттере. Началось оно с того, что кто-то спросил, зачем вообще нужно создавать файлы "llms.txt". Для тех кто не в теме, в прошлом году Jeremy Howard предложил новый "стандарт" - пусть все сайты имеют такой файлик, чтобы LLM могли в удобном виде парсить содержимое сайтов, не ползая по всем страницам.

Ну так вот, дальше пошёл спор с участием самого Jeremy, где он в итоге заявил, что это он создал первую LLM, поэтому его надо слушать. Один из активных участников обсуждения спросил gemini, grok и chatgpt об этом, и они ответили, что Jeremy, конечно, молодец, но первая LLM - GPT-1. А ULMFiT - не LLM. Jeremy тут же заявил, что большие компании скрывают его вклад.

Я решил повспоминать что же было раньше, в том числе использовал ссылки из обсуждения.

Large Language Models in Machine Translation, 2007 - натренировали модель на... 2Т токенов (что сравнимо с современными LLM) на 300B n-gram (до 5-gram). Да, это не современный токенизатор, но всё равно. Ну и мы в самом названии статьи видим "Large Language Model".
Semi-supervised Sequence Learning, 2015 - предлагают использовать sequence autoencoder и претренировывать его, а дальше тюнить модели для классификации. Это уже ближе к современным подходам.
• Было несколько промежуточных моделей - CoVe и ELMo, но они не собрали нужные идеи вместы, они скорее просто делали претренировку.
Universal Language Model Fine-tuning for Text Classification, 2018 - тот самый ULMFiT. Jeremy Howard и Sebastian Ruder предложили по факту современный рецепт тренировки NLP моделей - общая претренировка, файнтюнинг под задачу и файн-тюнинг под конкретную классификацию.
Явно были и другие похожие статьи.

В целом стоит признать, что ULMFiT положил начало современным подходам. И я помню, что он успешно применялся на Kaggle до популяризации BERT. Но он явно возник не на пустом месте - была благоприятная почва для этого.

#datascience
Войны HR: Deel vs Rippling, корпоративный шпионаж и интриги

История в двух частях.

Rippling обвиняют Deel в корпоративном шпионаже. Они заметили, что "шпион" в их компании по много раз в день искал "deel" в их внутренних системах - среди прочего искал клиентов deel, которые планировали перейти в Rippling. Дальше пошли прям шпионские интриги: Rippling создали документ-honeypot - мол, у них в слаке есть канал d-defectors со списком людей, которые перешли из одной компании в другую и раскрывают грязные секреты. Канал был специально создан для поимки злоумышленника. Через несколько часов подозреваемый зашёл в этот канал и в целом стал искать в слаке "defectors".

Дальше его замочили в сортире... то есть он сам заперся в корпоративном туалете, потом отказался сдавать свой телефон и убежал. Потом он разбил телефон... топором и смыл куски в туалет. Причём по совету своего адвоката.

И позже он всё-таки признался в том, что это действительно был шпионаж, который происходил по инициативе CEO Deel.

Историю ещё можно почитать у pragmaticengineer если есть подписка.
​​TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

Любопытная статья с подходом к генерации картинок, где должно быть несколько текстов. Такая задача называется Complex Visual Text Generation. Основные проблемы существующих моделей — искажения, размытость и пропуски текста. Авторы предлагают метод TextCrafter: разбивают задачу на части (отдельные текстовые элементы), а потом собирают результат по кусочкам. В процессе стараются сохранять связь описания и генерируемого текста на картинках.

Также они создали новый бенчмарк CVTG-2K и, представьте себе, их подход лучше всех других на этом датасете. :) Всегда забавляют статьи, когда авторы делают свой собственный датасет (ибо никакие другие не подходят) и именно их модель является там SOTA.

Paper
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Reflexive AI usage is now a baseline expectation at Shopify

CEO Shopify выложил в твиттер внутренний документ (там даже есть ссылка, ведущая на внутренний документ защищённый OKTA) о том, что теперь все сотрудники компании должны активно использовать AI для всего.
Основные постулаты:
• AI может выступать во всех нужных ролях - партнёр по программированию и брейнштормингу, deep research, критик, учитель и так далее.
• Раньше люди могли быть 10x, теперь инструменты могут дать 10х и даже 100х. Примеры ускорения - перевод текста, большой рефакторинг.
• Если компания растёт на 20-40% в год, то люди должны растить свои навыки с такой же скоростью.
• Все прототипы должны быть в основном созданы с помощью AI для скорости
• Вопросы об использовании AI будут включены в оценку performance и peer-review
• Теперь, если команда хочет больше ресурсов или хочет нанять больше людей, она должна обосновать почему она не может обойтись использованием AI.

Что я думаю про всё это:
• Во-первых, что главное - целевой аудиторией являются не сотрудники компании, а инвесторы. Цель - показать инвесторам, что компания следуем за хайпом AI и в нёё надо вливать деньги.
• То, что найм уменьшается за счёт AI - тоже ключевое. В периоды нулевых процентных ставок было модно растить компании за счёт найма, теперь наоборот - за счёт сокращений и внедрения AI.
• Сам CEO по крайней мере следует своим заветам: текст скорее всего сгенерирован. Да и он сам пишет, что недавно делал доклад и весь доклад подготовил с помощью агентов.
• 100х ускорение - явно буллшит. Разве что они генерят код и сразу пушат его в прод без проверки.
• Включение вопросов про использование AI в оценку качества работы скорее всего будет очередным примером закона Гудхарта, когда метрика превращается в цель.

Посмотрим, что из всего этого выйдет. С тем, что AI может быть очень полезным инструментом не поспорить. Но вот такой бурный переход кажется неоправданным.
Что такое vegetative electron microscopy?

Я натолкнулся на интересное "расследование". Какое-то время назад учёные обнаружили, что в некоторых статьях по химии, встречается странный термин "vegetative electron microscopy". В этом блогпосте отлично расписана история обнаружения этого.

Сам термин не значит ничего, он не имеет смысла.

Источник нашли в статье 1959 года. Дело в том, что в электронном виде pdf документ не очень хорошо отформатирован. Получилось так, что в левой колонке одна строка заканчивается на "vegetative electron", а дальше, во второй колонке строка начинается с "microscopy". И из-за плохого форматирования документа, эти три слова можно выделить вместе - как будто это одна фраза.

Сразу пошли обвинения о том, что это LLM копируют этот текст и добавляют в новые статьи. Мол, paper-mill во всей красе.

Автор одной из таких статей защищал себя тем, что он специльно придумал/использовал такой термин. На что получил великолепный комментарий от одного из учёных: "So, we are learning that bacterial cellulose is a kind of “vegetative structure”. They are taking a piss without even pulling their pants down, aren’t they?"

Но... оказалось, что всё не так просто. Первое, что смутило лично меня - если эта фраза случайно "появилась" в одной единственной статье от 1959 года, но вряд ли бы LLM запомнили её и стали активно использовать. Второе - новые статьи с этой странной фразой появлялись и до популярных LLM - в 2022 и даже в 2020 годах.

И вот нашлось более вероятное, пусть и тривиальное объяснение. Оказывается, в переводе на персидский "scanning electron microscopy" - "mikroskop elektroni robeshi", а "vegetative electron microscopy" переводится как "mikroskop elektroni royashi". Это в транслитерации. А если это написать на персидском, то различие всего в одном символе, и это легко пропустить. Иранские учёные подтвердили, что их коллеги нередко пишут свои статьи на персидском языке, а затем просят какие-нибудь агентства перевести их на английский. А поскольку в агентствах вряд ли есть специалисты по научным темам, они вполне могут допустить такие ошибки. Потом кто-то повторил это и пошло... а дальше - возможно LLM смогли это запомнить и стали повторять.

В общем, "На зеркало неча пенять, коли рожа крива" (с)
Voice AI & Voice Agents: An Illustrated Primer

https://voiceaiandvoiceagents.com/

Огромный гайд о современных подходах к разработке и использованию Voice AI. Авторы собрали свой опыт за последние два года и написали красивый блогпост об этом. Пишут про железо, косты, STS, STT, TTS, обработку сырого аудио, практические аспекты (определение того, чья очередь сейчас говорить, обработка прерываний диалога и прочее), оценку качества и многое другое.

#datascience
GPT 4.1 Prompting Guide

Помимо самой GPT 4.1, OpenAI выпустили большой гайд о том, как эту версию промптить.

Казалось, что мы уже немного ушли от необходимости писать длинные инструкции, но нет - опять возвращаемся к этому.

Настоятельно советуется использовать три типа напоминалок для модели:
• Persistence - напоминать модели, чтобы думала до конца решения проблемы, в не возвращала ответ слишком рано
• Tool-calling - напоминать использовать инструменты
• Planning - напоминать модели, что планировать и рефлексировать полезно.

Как-то мне кажется, что это шаг назад - модели вроде итак должны этому следовать. С другой стороны, почти весь Deep Learning - это шаманство, алхимия, махание руками и надежда на то, что очередной трюк успешно сработает. Или, как это называется по-умному - experimentation and trial and error :)

Кстати, их системный промтп на SWE-bench Verified занимает почти 80 строк.

#datascience
2025/04/15 16:00:50
Back to Top
HTML Embed Code: