Первая LLM?
На днях я натолкнулся на интересное обсуждение в твиттере. Началось оно с того, что кто-то спросил, зачем вообще нужно создавать файлы "llms.txt". Для тех кто не в теме, в прошлом году Jeremy Howard предложил новый "стандарт" - пусть все сайты имеют такой файлик, чтобы LLM могли в удобном виде парсить содержимое сайтов, не ползая по всем страницам.
Ну так вот, дальше пошёл спор с участием самого Jeremy, где он в итоге заявил, что это он создал первую LLM, поэтому его надо слушать. Один из активных участников обсуждения спросил gemini, grok и chatgpt об этом, и они ответили, что Jeremy, конечно, молодец, но первая LLM - GPT-1. А ULMFiT - не LLM. Jeremy тут же заявил, что большие компании скрывают его вклад.
Я решил повспоминать что же было раньше, в том числе использовал ссылки из обсуждения.
• Large Language Models in Machine Translation, 2007 - натренировали модель на... 2Т токенов (что сравнимо с современными LLM) на 300B n-gram (до 5-gram). Да, это не современный токенизатор, но всё равно. Ну и мы в самом названии статьи видим "Large Language Model".
• Semi-supervised Sequence Learning, 2015 - предлагают использовать sequence autoencoder и претренировывать его, а дальше тюнить модели для классификации. Это уже ближе к современным подходам.
• Было несколько промежуточных моделей - CoVe и ELMo, но они не собрали нужные идеи вместы, они скорее просто делали претренировку.
• Universal Language Model Fine-tuning for Text Classification, 2018 - тот самый ULMFiT. Jeremy Howard и Sebastian Ruder предложили по факту современный рецепт тренировки NLP моделей - общая претренировка, файнтюнинг под задачу и файн-тюнинг под конкретную классификацию.
Явно были и другие похожие статьи.
В целом стоит признать, что ULMFiT положил начало современным подходам. И я помню, что он успешно применялся на Kaggle до популяризации BERT. Но он явно возник не на пустом месте - была благоприятная почва для этого.
#datascience
На днях я натолкнулся на интересное обсуждение в твиттере. Началось оно с того, что кто-то спросил, зачем вообще нужно создавать файлы "llms.txt". Для тех кто не в теме, в прошлом году Jeremy Howard предложил новый "стандарт" - пусть все сайты имеют такой файлик, чтобы LLM могли в удобном виде парсить содержимое сайтов, не ползая по всем страницам.
Ну так вот, дальше пошёл спор с участием самого Jeremy, где он в итоге заявил, что это он создал первую LLM, поэтому его надо слушать. Один из активных участников обсуждения спросил gemini, grok и chatgpt об этом, и они ответили, что Jeremy, конечно, молодец, но первая LLM - GPT-1. А ULMFiT - не LLM. Jeremy тут же заявил, что большие компании скрывают его вклад.
Я решил повспоминать что же было раньше, в том числе использовал ссылки из обсуждения.
• Large Language Models in Machine Translation, 2007 - натренировали модель на... 2Т токенов (что сравнимо с современными LLM) на 300B n-gram (до 5-gram). Да, это не современный токенизатор, но всё равно. Ну и мы в самом названии статьи видим "Large Language Model".
• Semi-supervised Sequence Learning, 2015 - предлагают использовать sequence autoencoder и претренировывать его, а дальше тюнить модели для классификации. Это уже ближе к современным подходам.
• Было несколько промежуточных моделей - CoVe и ELMo, но они не собрали нужные идеи вместы, они скорее просто делали претренировку.
• Universal Language Model Fine-tuning for Text Classification, 2018 - тот самый ULMFiT. Jeremy Howard и Sebastian Ruder предложили по факту современный рецепт тренировки NLP моделей - общая претренировка, файнтюнинг под задачу и файн-тюнинг под конкретную классификацию.
Явно были и другие похожие статьи.
В целом стоит признать, что ULMFiT положил начало современным подходам. И я помню, что он успешно применялся на Kaggle до популяризации BERT. Но он явно возник не на пустом месте - была благоприятная почва для этого.
#datascience
llms-txt
The /llms.txt file – llms-txt
A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time.
Войны HR: Deel vs Rippling, корпоративный шпионаж и интриги
История в двух частях.
Rippling обвиняют Deel в корпоративном шпионаже. Они заметили, что "шпион" в их компании по много раз в день искал "deel" в их внутренних системах - среди прочего искал клиентов deel, которые планировали перейти в Rippling. Дальше пошли прям шпионские интриги: Rippling создали документ-honeypot - мол, у них в слаке есть канал d-defectors со списком людей, которые перешли из одной компании в другую и раскрывают грязные секреты. Канал был специально создан для поимки злоумышленника. Через несколько часов подозреваемый зашёл в этот канал и в целом стал искать в слаке "defectors".
Дальше его замочили в сортире... то есть он сам заперся в корпоративном туалете, потом отказался сдавать свой телефон и убежал. Потом он разбил телефон... топором и смыл куски в туалет. Причём по совету своего адвоката.
И позже он всё-таки признался в том, что это действительно был шпионаж, который происходил по инициативе CEO Deel.
Историю ещё можно почитать у pragmaticengineer если есть подписка.
История в двух частях.
Rippling обвиняют Deel в корпоративном шпионаже. Они заметили, что "шпион" в их компании по много раз в день искал "deel" в их внутренних системах - среди прочего искал клиентов deel, которые планировали перейти в Rippling. Дальше пошли прям шпионские интриги: Rippling создали документ-honeypot - мол, у них в слаке есть канал d-defectors со списком людей, которые перешли из одной компании в другую и раскрывают грязные секреты. Канал был специально создан для поимки злоумышленника. Через несколько часов подозреваемый зашёл в этот канал и в целом стал искать в слаке "defectors".
Дальше его замочили в сортире... то есть он сам заперся в корпоративном туалете, потом отказался сдавать свой телефон и убежал. Потом он разбил телефон... топором и смыл куски в туалет. Причём по совету своего адвоката.
И позже он всё-таки признался в том, что это действительно был шпионаж, который происходил по инициативе CEO Deel.
Историю ещё можно почитать у pragmaticengineer если есть подписка.
X (formerly Twitter)
Parker Conrad (@parkerconrad) on X
Deel CEO and company founder @Bouazizalex personally orchestrated his company’s alleged spy scheme, the spy said in a full confession
Alex allegedly recruited the spy, received the stolen info, and arranged payment via a person known only by their pseudonym:…
Alex allegedly recruited the spy, received the stolen info, and arranged payment via a person known only by their pseudonym:…
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes
Любопытная статья с подходом к генерации картинок, где должно быть несколько текстов. Такая задача называется Complex Visual Text Generation. Основные проблемы существующих моделей — искажения, размытость и пропуски текста. Авторы предлагают метод TextCrafter: разбивают задачу на части (отдельные текстовые элементы), а потом собирают результат по кусочкам. В процессе стараются сохранять связь описания и генерируемого текста на картинках.
Также они создали новый бенчмарк CVTG-2K и, представьте себе, их подход лучше всех других на этом датасете. :) Всегда забавляют статьи, когда авторы делают свой собственный датасет (ибо никакие другие не подходят) и именно их модель является там SOTA.
Paper
Code
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Любопытная статья с подходом к генерации картинок, где должно быть несколько текстов. Такая задача называется Complex Visual Text Generation. Основные проблемы существующих моделей — искажения, размытость и пропуски текста. Авторы предлагают метод TextCrafter: разбивают задачу на части (отдельные текстовые элементы), а потом собирают результат по кусочкам. В процессе стараются сохранять связь описания и генерируемого текста на картинках.
Также они создали новый бенчмарк CVTG-2K и, представьте себе, их подход лучше всех других на этом датасете. :) Всегда забавляют статьи, когда авторы делают свой собственный датасет (ибо никакие другие не подходят) и именно их модель является там SOTA.
Paper
Code
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Reflexive AI usage is now a baseline expectation at Shopify
CEO Shopify выложил в твиттер внутренний документ (там даже есть ссылка, ведущая на внутренний документ защищённый OKTA) о том, что теперь все сотрудники компании должны активно использовать AI для всего.
Основные постулаты:
• AI может выступать во всех нужных ролях - партнёр по программированию и брейнштормингу, deep research, критик, учитель и так далее.
• Раньше люди могли быть 10x, теперь инструменты могут дать 10х и даже 100х. Примеры ускорения - перевод текста, большой рефакторинг.
• Если компания растёт на 20-40% в год, то люди должны растить свои навыки с такой же скоростью.
• Все прототипы должны быть в основном созданы с помощью AI для скорости
• Вопросы об использовании AI будут включены в оценку performance и peer-review
• Теперь, если команда хочет больше ресурсов или хочет нанять больше людей, она должна обосновать почему она не может обойтись использованием AI.
Что я думаю про всё это:
• Во-первых, что главное - целевой аудиторией являются не сотрудники компании, а инвесторы. Цель - показать инвесторам, что компания следуем за хайпом AI и в нёё надо вливать деньги.
• То, что найм уменьшается за счёт AI - тоже ключевое. В периоды нулевых процентных ставок было модно растить компании за счёт найма, теперь наоборот - за счёт сокращений и внедрения AI.
• Сам CEO по крайней мере следует своим заветам: текст скорее всего сгенерирован. Да и он сам пишет, что недавно делал доклад и весь доклад подготовил с помощью агентов.
• 100х ускорение - явно буллшит. Разве что они генерят код и сразу пушат его в прод без проверки.
• Включение вопросов про использование AI в оценку качества работы скорее всего будет очередным примером закона Гудхарта, когда метрика превращается в цель.
Посмотрим, что из всего этого выйдет. С тем, что AI может быть очень полезным инструментом не поспорить. Но вот такой бурный переход кажется неоправданным.
CEO Shopify выложил в твиттер внутренний документ (там даже есть ссылка, ведущая на внутренний документ защищённый OKTA) о том, что теперь все сотрудники компании должны активно использовать AI для всего.
Основные постулаты:
• AI может выступать во всех нужных ролях - партнёр по программированию и брейнштормингу, deep research, критик, учитель и так далее.
• Раньше люди могли быть 10x, теперь инструменты могут дать 10х и даже 100х. Примеры ускорения - перевод текста, большой рефакторинг.
• Если компания растёт на 20-40% в год, то люди должны растить свои навыки с такой же скоростью.
• Все прототипы должны быть в основном созданы с помощью AI для скорости
• Вопросы об использовании AI будут включены в оценку performance и peer-review
• Теперь, если команда хочет больше ресурсов или хочет нанять больше людей, она должна обосновать почему она не может обойтись использованием AI.
Что я думаю про всё это:
• Во-первых, что главное - целевой аудиторией являются не сотрудники компании, а инвесторы. Цель - показать инвесторам, что компания следуем за хайпом AI и в нёё надо вливать деньги.
• То, что найм уменьшается за счёт AI - тоже ключевое. В периоды нулевых процентных ставок было модно растить компании за счёт найма, теперь наоборот - за счёт сокращений и внедрения AI.
• Сам CEO по крайней мере следует своим заветам: текст скорее всего сгенерирован. Да и он сам пишет, что недавно делал доклад и весь доклад подготовил с помощью агентов.
• 100х ускорение - явно буллшит. Разве что они генерят код и сразу пушат его в прод без проверки.
• Включение вопросов про использование AI в оценку качества работы скорее всего будет очередным примером закона Гудхарта, когда метрика превращается в цель.
Посмотрим, что из всего этого выйдет. С тем, что AI может быть очень полезным инструментом не поспорить. Но вот такой бурный переход кажется неоправданным.
Что такое vegetative electron microscopy?
Я натолкнулся на интересное "расследование". Какое-то время назад учёные обнаружили, что в некоторых статьях по химии, встречается странный термин "vegetative electron microscopy". В этом блогпосте отлично расписана история обнаружения этого.
Сам термин не значит ничего, он не имеет смысла.
Источник нашли в статье 1959 года. Дело в том, что в электронном виде pdf документ не очень хорошо отформатирован. Получилось так, что в левой колонке одна строка заканчивается на "vegetative electron", а дальше, во второй колонке строка начинается с "microscopy". И из-за плохого форматирования документа, эти три слова можно выделить вместе - как будто это одна фраза.
Сразу пошли обвинения о том, что это LLM копируют этот текст и добавляют в новые статьи. Мол, paper-mill во всей красе.
Автор одной из таких статей защищал себя тем, что он специльно придумал/использовал такой термин. На что получил великолепный комментарий от одного из учёных: "So, we are learning that bacterial cellulose is a kind of “vegetative structure”. They are taking a piss without even pulling their pants down, aren’t they?"
Но... оказалось, что всё не так просто. Первое, что смутило лично меня - если эта фраза случайно "появилась" в одной единственной статье от 1959 года, но вряд ли бы LLM запомнили её и стали активно использовать. Второе - новые статьи с этой странной фразой появлялись и до популярных LLM - в 2022 и даже в 2020 годах.
И вот нашлось более вероятное, пусть и тривиальное объяснение. Оказывается, в переводе на персидский "scanning electron microscopy" - "mikroskop elektroni robeshi", а "vegetative electron microscopy" переводится как "mikroskop elektroni royashi". Это в транслитерации. А если это написать на персидском, то различие всего в одном символе, и это легко пропустить. Иранские учёные подтвердили, что их коллеги нередко пишут свои статьи на персидском языке, а затем просят какие-нибудь агентства перевести их на английский. А поскольку в агентствах вряд ли есть специалисты по научным темам, они вполне могут допустить такие ошибки. Потом кто-то повторил это и пошло... а дальше - возможно LLM смогли это запомнить и стали повторять.
В общем, "На зеркало неча пенять, коли рожа крива" (с)
Я натолкнулся на интересное "расследование". Какое-то время назад учёные обнаружили, что в некоторых статьях по химии, встречается странный термин "vegetative electron microscopy". В этом блогпосте отлично расписана история обнаружения этого.
Сам термин не значит ничего, он не имеет смысла.
Источник нашли в статье 1959 года. Дело в том, что в электронном виде pdf документ не очень хорошо отформатирован. Получилось так, что в левой колонке одна строка заканчивается на "vegetative electron", а дальше, во второй колонке строка начинается с "microscopy". И из-за плохого форматирования документа, эти три слова можно выделить вместе - как будто это одна фраза.
Сразу пошли обвинения о том, что это LLM копируют этот текст и добавляют в новые статьи. Мол, paper-mill во всей красе.
Автор одной из таких статей защищал себя тем, что он специльно придумал/использовал такой термин. На что получил великолепный комментарий от одного из учёных: "So, we are learning that bacterial cellulose is a kind of “vegetative structure”. They are taking a piss without even pulling their pants down, aren’t they?"
Но... оказалось, что всё не так просто. Первое, что смутило лично меня - если эта фраза случайно "появилась" в одной единственной статье от 1959 года, но вряд ли бы LLM запомнили её и стали активно использовать. Второе - новые статьи с этой странной фразой появлялись и до популярных LLM - в 2022 и даже в 2020 годах.
И вот нашлось более вероятное, пусть и тривиальное объяснение. Оказывается, в переводе на персидский "scanning electron microscopy" - "mikroskop elektroni robeshi", а "vegetative electron microscopy" переводится как "mikroskop elektroni royashi". Это в транслитерации. А если это написать на персидском, то различие всего в одном символе, и это легко пропустить. Иранские учёные подтвердили, что их коллеги нередко пишут свои статьи на персидском языке, а затем просят какие-нибудь агентства перевести их на английский. А поскольку в агентствах вряд ли есть специалисты по научным темам, они вполне могут допустить такие ошибки. Потом кто-то повторил это и пошло... а дальше - возможно LLM смогли это запомнить и стали повторять.
В общем, "На зеркало неча пенять, коли рожа крива" (с)
Retraction Watch
As a nonsense phrase of shady provenance makes the rounds, Elsevier defends its use
The origin of the phrase? The phrase was so strange it would have stood out even to a non-scientist. Yet “vegetative electron microscopy” had already made it past reviewers and editors at several j…
Voice AI & Voice Agents: An Illustrated Primer
https://voiceaiandvoiceagents.com/
Огромный гайд о современных подходах к разработке и использованию Voice AI. Авторы собрали свой опыт за последние два года и написали красивый блогпост об этом. Пишут про железо, косты, STS, STT, TTS, обработку сырого аудио, практические аспекты (определение того, чья очередь сейчас говорить, обработка прерываний диалога и прочее), оценку качества и многое другое.
#datascience
https://voiceaiandvoiceagents.com/
Огромный гайд о современных подходах к разработке и использованию Voice AI. Авторы собрали свой опыт за последние два года и написали красивый блогпост об этом. Пишут про железо, косты, STS, STT, TTS, обработку сырого аудио, практические аспекты (определение того, чья очередь сейчас говорить, обработка прерываний диалога и прочее), оценку качества и многое другое.
#datascience
Voiceaiandvoiceagents
Voice AI & Voice Agents | An Illustrated Primer
A comprehensive guide to voice AI in 2025
GPT 4.1 Prompting Guide
Помимо самой GPT 4.1, OpenAI выпустили большой гайд о том, как эту версию промптить.
Казалось, что мы уже немного ушли от необходимости писать длинные инструкции, но нет - опять возвращаемся к этому.
Настоятельно советуется использовать три типа напоминалок для модели:
• Persistence - напоминать модели, чтобы думала до конца решения проблемы, в не возвращала ответ слишком рано
• Tool-calling - напоминать использовать инструменты
• Planning - напоминать модели, что планировать и рефлексировать полезно.
Как-то мне кажется, что это шаг назад - модели вроде итак должны этому следовать. С другой стороны, почти весь Deep Learning - это шаманство, алхимия, махание руками и надежда на то, что очередной трюк успешно сработает. Или, как это называется по-умному - experimentation and trial and error :)
Кстати, их системный промтп на SWE-bench Verified занимает почти 80 строк.
#datascience
Помимо самой GPT 4.1, OpenAI выпустили большой гайд о том, как эту версию промптить.
Казалось, что мы уже немного ушли от необходимости писать длинные инструкции, но нет - опять возвращаемся к этому.
Настоятельно советуется использовать три типа напоминалок для модели:
• Persistence - напоминать модели, чтобы думала до конца решения проблемы, в не возвращала ответ слишком рано
• Tool-calling - напоминать использовать инструменты
• Planning - напоминать модели, что планировать и рефлексировать полезно.
Как-то мне кажется, что это шаг назад - модели вроде итак должны этому следовать. С другой стороны, почти весь Deep Learning - это шаманство, алхимия, махание руками и надежда на то, что очередной трюк успешно сработает. Или, как это называется по-умному - experimentation and trial and error :)
Кстати, их системный промтп на SWE-bench Verified занимает почти 80 строк.
#datascience
Openai
Introducing GPT-4.1 in the API
Introducing GPT-4.1 in the API—a new family of models with across-the-board improvements, including major gains in coding, instruction following, and long-context understanding. We’re also releasing our first nano model. Available to developers worldwide…
https://openai.com/index/introducing-o3-and-o4-mini/
OpenAI выпустили новые модельки. Лично для меня самое интересное то, что теперь есть reasoning над картинками
OpenAI выпустили новые модельки. Лично для меня самое интересное то, что теперь есть reasoning над картинками
The State of Reinforcement Learning for LLM Reasoning by Sebastian Raschka
Уважаемый товарищ выкатил огромный блогпост про состояние RL для современного ризонинга в LLM.
Для тех, кто не в теме, если большое введение с описанием RLHF, PPO, GRPO и прочих алгоритмов.
Основные посылы:
• RL улучшает не только большие модели, но и дистиллированные
• нередко RL предпочитает длинные ответы, даже если они неправильные. Но если добавить штраф на длинные некорректные ответы или использовать другие трюки, получается норм
• RL - основной подход для ризонинга, но не единственный
Если вы погружены в эту тему, блогпост вряд ли будет полезным. Если же нет - советую почитать.
https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training
#datascience
Уважаемый товарищ выкатил огромный блогпост про состояние RL для современного ризонинга в LLM.
Для тех, кто не в теме, если большое введение с описанием RLHF, PPO, GRPO и прочих алгоритмов.
Основные посылы:
• RL улучшает не только большие модели, но и дистиллированные
• нередко RL предпочитает длинные ответы, даже если они неправильные. Но если добавить штраф на длинные некорректные ответы или использовать другие трюки, получается норм
• RL - основной подход для ризонинга, но не единственный
Если вы погружены в эту тему, блогпост вряд ли будет полезным. Если же нет - советую почитать.
https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training
#datascience
Sebastianraschka
The State of Reinforcement Learning for LLM Reasoning
Understanding GRPO and New Insights from Reasoning Model Papers
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models
M1 — гибридная reasoning-модель на основе Mamba, дающая эффективный по памяти inference. Её обучают вначале через дистиляцию, дальше докидывают SFT и RL. M1 показывает сравнимую точность с DeepSeek R1 на AIME и MATH, но работает более чем в 3 раза быстрее, достигая лучшей точности при фиксированном времени генерации.
Если честно, статья странная. Авторы сравнивают M1-3B с DeepSeek-R1-Distill-Qwen-1.5B и радуются, что их модель даёт схожее качество. Оправдываются тем, что нет дистиллированой DeepSeek-R1 модели на 3B. Добавляют, что, мол, раз скорость инференса схожая, то сравнение честное. Если смотреть с точки зрения чисто метрик качества - это некрасиво. Если смотреть с точки зрения качества за единицу времени, то ещё как-то можно оправдать.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
M1 — гибридная reasoning-модель на основе Mamba, дающая эффективный по памяти inference. Её обучают вначале через дистиляцию, дальше докидывают SFT и RL. M1 показывает сравнимую точность с DeepSeek R1 на AIME и MATH, но работает более чем в 3 раза быстрее, достигая лучшей точности при фиксированном времени генерации.
Если честно, статья странная. Авторы сравнивают M1-3B с DeepSeek-R1-Distill-Qwen-1.5B и радуются, что их модель даёт схожее качество. Оправдываются тем, что нет дистиллированой DeepSeek-R1 модели на 3B. Добавляют, что, мол, раз скорость инференса схожая, то сравнение честное. Если смотреть с точки зрения чисто метрик качества - это некрасиво. Если смотреть с точки зрения качества за единицу времени, то ещё как-то можно оправдать.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
https://newsletter.pragmaticengineer.com/p/one-million
Интересно, есть ли личные рассылки/блоги на инженерные темы с большей популярностью? 🤔
Интересно, есть ли личные рассылки/блоги на инженерные темы с большей популярностью? 🤔
Detecting and Countering Malicious Uses of Claude
Очередной интересный пост от Anthropic.
Они делятся тем, как ловят "плохое" использование их сервисов.
• Создание сетей влияния, про это есть даже отдельный отчёт. Злоумышленники организовали сервис: создали сотни ботов в соцмедия которые продвигают то, что хотят клиенты. Боты использовали claude, чтобы создавать отдельные персоны (видимо боты с разными стилями текста и поведением), дальше решалось с каким контентом и как взаимодействовать. Что интересно - у таких ботов был акцент не на том, чтобы завирусить какие-то конкретные посты, а на долгосрочное влияние. Ребята из Anthropic выявили минимум 4 кампании: продвижение ОАЭ и критика Европы в плане ведения бизнеса и политики, продвижение конкретных политических лиц в Кении, а так же продвижение специфических мнений в Европе и Иране.
• Скрейпинг случайно выложенных паролей и логинов для доступов к девайсам IoT
• Скам в рекрутинге - организовывались скам собеседования. Деньги никто не успел потерять, максимальная потеря - утечка личной информации. Тут генерили вопросы и сценарии для собесов, писали профессионально выглядящие тексты и так далее
• Вообще забавный случай: мол, был человек, который был очень слаб в кодинге и начал использовать Claude для создания вирусов и в целом malware. Очень быстро его программы стали более продвинутыми.
После прочтения всего этого у меня возник вопрос: а были ли случаи, когда llm-ки использовали подобным образом, но для хорошего? Не уверен. Пока кажется, что такие возможности лишь упрощают условно "плохие" масштабные активности, а условно "хорошим" не способствуют.
#datascience
•
•
Очередной интересный пост от Anthropic.
Они делятся тем, как ловят "плохое" использование их сервисов.
• Создание сетей влияния, про это есть даже отдельный отчёт. Злоумышленники организовали сервис: создали сотни ботов в соцмедия которые продвигают то, что хотят клиенты. Боты использовали claude, чтобы создавать отдельные персоны (видимо боты с разными стилями текста и поведением), дальше решалось с каким контентом и как взаимодействовать. Что интересно - у таких ботов был акцент не на том, чтобы завирусить какие-то конкретные посты, а на долгосрочное влияние. Ребята из Anthropic выявили минимум 4 кампании: продвижение ОАЭ и критика Европы в плане ведения бизнеса и политики, продвижение конкретных политических лиц в Кении, а так же продвижение специфических мнений в Европе и Иране.
• Скрейпинг случайно выложенных паролей и логинов для доступов к девайсам IoT
• Скам в рекрутинге - организовывались скам собеседования. Деньги никто не успел потерять, максимальная потеря - утечка личной информации. Тут генерили вопросы и сценарии для собесов, писали профессионально выглядящие тексты и так далее
• Вообще забавный случай: мол, был человек, который был очень слаб в кодинге и начал использовать Claude для создания вирусов и в целом malware. Очень быстро его программы стали более продвинутыми.
После прочтения всего этого у меня возник вопрос: а были ли случаи, когда llm-ки использовали подобным образом, но для хорошего? Не уверен. Пока кажется, что такие возможности лишь упрощают условно "плохие" масштабные активности, а условно "хорошим" не способствуют.
#datascience
•
•
AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents
AgentA/B — это система, которая использует LLM-агентов для симуляции пользовательского поведения на реальных веб-страницах с целью проведения A/B тестирования. Она решает проблемы традиционных A/B тестов: необходимость в большом трафике реальных пользователей и длительное ожидание результатов. В эксперименте с 1000 LLM-агентами было показано, что их поведение сопоставимо с поведением реальных пользователей, что делает систему перспективной для масштабируемой и быстрой оценки UI/UX решений.
===
Если говорить от себя, то статья кажется очень сомнительной. Сам эксперимент: на страничке amazon изменили поведение фильтров - вместо отображения всех фильтров показывают только те, которые релевантны поисковому запросу. Сами агенты могут делать пять действий: поиск, клик на продукте, клик на фильтре, покупка и завершение. Плюс, агенты работают с почищенной страницей - страницу предварительно конвертируют в JSON и чистят от всего лишнего.
А если посмотреть на результаты, получается ещё веселее. Alignment людей и агентов - люди намного больше времени (и действий) тратят на исследования (например, в среднем они делают 6-7 поисковых запросов и кликов на продукты, а агенты - 1-2), а агенты очень целенаправленны (неудивительно, ведь это их роль). Доля покупок у людей и агентов одинакова... но есть нюанс - для сохранения приватности, нам не показывают сколько в среднем денег потратили люди, а это ведь по факту главное. И не показывают сравнение людей на двух выборках.
Если посмотреть на поведение агентов на control/treatment, то разница статистически не значима, только в treatment покупают чуть больше.
В итоге, как мне кажется, получается классическая ошибка A/B тестов - радуемся тому, что какие-то метрики выросли, а на все остальные аккуратно закрываем глаза. Ну и моделирование тестов агентами - тоже спорно, ибо поведение агентов всё же отличается от людей.
Можно ли такой подход использовать как дополнительный к полноценному тестированию? Наверное можно. Можно ли ему доверять? Кажется нет.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
AgentA/B — это система, которая использует LLM-агентов для симуляции пользовательского поведения на реальных веб-страницах с целью проведения A/B тестирования. Она решает проблемы традиционных A/B тестов: необходимость в большом трафике реальных пользователей и длительное ожидание результатов. В эксперименте с 1000 LLM-агентами было показано, что их поведение сопоставимо с поведением реальных пользователей, что делает систему перспективной для масштабируемой и быстрой оценки UI/UX решений.
===
Если говорить от себя, то статья кажется очень сомнительной. Сам эксперимент: на страничке amazon изменили поведение фильтров - вместо отображения всех фильтров показывают только те, которые релевантны поисковому запросу. Сами агенты могут делать пять действий: поиск, клик на продукте, клик на фильтре, покупка и завершение. Плюс, агенты работают с почищенной страницей - страницу предварительно конвертируют в JSON и чистят от всего лишнего.
А если посмотреть на результаты, получается ещё веселее. Alignment людей и агентов - люди намного больше времени (и действий) тратят на исследования (например, в среднем они делают 6-7 поисковых запросов и кликов на продукты, а агенты - 1-2), а агенты очень целенаправленны (неудивительно, ведь это их роль). Доля покупок у людей и агентов одинакова... но есть нюанс - для сохранения приватности, нам не показывают сколько в среднем денег потратили люди, а это ведь по факту главное. И не показывают сравнение людей на двух выборках.
Если посмотреть на поведение агентов на control/treatment, то разница статистически не значима, только в treatment покупают чуть больше.
В итоге, как мне кажется, получается классическая ошибка A/B тестов - радуемся тому, что какие-то метрики выросли, а на все остальные аккуратно закрываем глаза. Ну и моделирование тестов агентами - тоже спорно, ибо поведение агентов всё же отличается от людей.
Можно ли такой подход использовать как дополнительный к полноценному тестированию? Наверное можно. Можно ли ему доверять? Кажется нет.
Paper
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Duolingo - AI-first company
Недавно CEO Shopify объявил, что все сотрудники компании обязаны активно использовать AI. Тренд продолжается, теперь в Duolingo заявили, что компания становится AI-first. Что показательно - это официально выложили в LinkedIn, который в последние годы стал квинтессенцией буллшита.
В целом, этого следовало бы ожидать - Duolingo методично убирает фичи (некоторые варианты практики, форумы, обсуждения конкретных вопросов и многое другое). Часть фичей уже была заменена на AI - какое-то время назад появилась подписка Max (доступная лишь в некоторых странах), стоящая аж 30$/month, которая позволяет попросить объяснение предложения (что раньше можно было найти в обсужждениях) и даёт несколько дополнительных вариантов практики (если судить по обсуждениям на reddit - очень базовые).
В плане дохода компании всё отлично - уже который год они показывают большой рост, да и в целом являются самым известным приложением для изучения иностранных языков. В плане качества - это вопрос. Судя по тому, что я слышал, примерно 5-7 курсов для самых популярных языков имеют хорошее качество, дальше всё хуже - либо мало контента, либо в упражнениях полно ошибок.
Зато Duolingo запустил мини-приложения для изучения... математики и музыки, а также недавно появился намёк на приложение для изучения шахмат.
Потенциал использования AI для изучения языков, конечно, огромен. Главное - чтобы компания могла его грамотно использовать, а также делала верификацию ошибок.
Посмотрим, что получится. Сам я несколько месяце назад прекратил использовать Duolingo - для практики известных мне языков он уже мне не нужен, а изучение новых языков я пока не планирую.
Недавно CEO Shopify объявил, что все сотрудники компании обязаны активно использовать AI. Тренд продолжается, теперь в Duolingo заявили, что компания становится AI-first. Что показательно - это официально выложили в LinkedIn, который в последние годы стал квинтессенцией буллшита.
В целом, этого следовало бы ожидать - Duolingo методично убирает фичи (некоторые варианты практики, форумы, обсуждения конкретных вопросов и многое другое). Часть фичей уже была заменена на AI - какое-то время назад появилась подписка Max (доступная лишь в некоторых странах), стоящая аж 30$/month, которая позволяет попросить объяснение предложения (что раньше можно было найти в обсужждениях) и даёт несколько дополнительных вариантов практики (если судить по обсуждениям на reddit - очень базовые).
В плане дохода компании всё отлично - уже который год они показывают большой рост, да и в целом являются самым известным приложением для изучения иностранных языков. В плане качества - это вопрос. Судя по тому, что я слышал, примерно 5-7 курсов для самых популярных языков имеют хорошее качество, дальше всё хуже - либо мало контента, либо в упражнениях полно ошибок.
Зато Duolingo запустил мини-приложения для изучения... математики и музыки, а также недавно появился намёк на приложение для изучения шахмат.
Потенциал использования AI для изучения языков, конечно, огромен. Главное - чтобы компания могла его грамотно использовать, а также делала верификацию ошибок.
Посмотрим, что получится. Сам я несколько месяце назад прекратил использовать Duolingo - для практики известных мне языков он уже мне не нужен, а изучение новых языков я пока не планирую.
Meta AI App
META выпустили приложение, в котором можно пообщаться с их помощником на базе Llama 4. В нём есть генерация картинок, память, общение голосом (пока только в US, Canada, Australia, New Zealand) и прочее.
Web
iOS
Android
META выпустили приложение, в котором можно пообщаться с их помощником на базе Llama 4. В нём есть генерация картинок, память, общение голосом (пока только в US, Canada, Australia, New Zealand) и прочее.
Web
iOS
Android
Meta Newsroom
Introducing the Meta AI App: A New Way to Access Your AI Assistant
We're launching the Meta AI app, our first step in building a more personal AI.
Gradio -> MCP server
HuggingFace выкатил обновление для Gradio. Теперь функции из приложений, созданных на gradio, могут конвертироваться в тулы для использования в MCP.
https://huggingface.co/blog/gradio-mcp
HuggingFace выкатил обновление для Gradio. Теперь функции из приложений, созданных на gradio, могут конвертироваться в тулы для использования в MCP.
https://huggingface.co/blog/gradio-mcp
Бизнесы, которые умирают с появлением AI
Это пост не про панику или про крики ужаса "ААА, мы все потеряем работу".
Я увидел на Reddit пост с обсуждением того, как конкретные живые люди потеряли работу или бизнес по мере развития AI. Примеры интересные:
• Бизнес по переводу текстов с испанского на английский, был жив 18+ лет и приносил приличный доход. Теперь спрос практически нулевой. Примерно такая же история у бизнеса по переводу с немецкого на английский.
• Современные стартапы делающие обертки над AI. Умирают при появлении новых версий LLM, которые умеют делать это из коробки
• Телемедицина по простым вопросам. Вместо ожидания очереди к врачам люди просто спрашивают Chatgpt и получают годные рекомендации
• Фотограф, делающий stock фотографии. Доход за последнее время упал процентов на 70.
• Разработка сайтов с хорошим seo и контентом. Теперь модели могут генерить сайты покрасивее, с более качественным seo и приличным контентом
• Аудио инженер.
• Редактирование контента, обучение рисованию и прочее подобное
• Консультанты по фитнесу, по деньгам менее востребованы
Довольно интерсный и разнообразный список. Остаётся надеяться, что со временем скорость появления новых работ будет выше, чем скорость пропадания существующих.
Это пост не про панику или про крики ужаса "ААА, мы все потеряем работу".
Я увидел на Reddit пост с обсуждением того, как конкретные живые люди потеряли работу или бизнес по мере развития AI. Примеры интересные:
• Бизнес по переводу текстов с испанского на английский, был жив 18+ лет и приносил приличный доход. Теперь спрос практически нулевой. Примерно такая же история у бизнеса по переводу с немецкого на английский.
• Современные стартапы делающие обертки над AI. Умирают при появлении новых версий LLM, которые умеют делать это из коробки
• Телемедицина по простым вопросам. Вместо ожидания очереди к врачам люди просто спрашивают Chatgpt и получают годные рекомендации
• Фотограф, делающий stock фотографии. Доход за последнее время упал процентов на 70.
• Разработка сайтов с хорошим seo и контентом. Теперь модели могут генерить сайты покрасивее, с более качественным seo и приличным контентом
• Аудио инженер.
• Редактирование контента, обучение рисованию и прочее подобное
• Консультанты по фитнесу, по деньгам менее востребованы
Довольно интерсный и разнообразный список. Остаётся надеяться, что со временем скорость появления новых работ будет выше, чем скорость пропадания существующих.
Reddit
From the ArtificialInteligence community on Reddit
Explore this post and more from the ArtificialInteligence community
Claude can now connect to your world
В Claude добавили интеграции - возможность дергать MCP сервера. Раньше это работало только в десктопной версии, теперь ещё и в браузере будет доступно. Для начала доступно всего 10, но явно будет больше. И, конечно, свои можно добавлять.
Наконец-то можно через claude тикеты в Jira создавать, а не ручками это делать и страдать!
А ещё обновили Research. Теперь он может искать... до 45 минут. Боюсь представить, что оно за почти час сделает.
Пока это счастье доступно в Max, Team и Enterprise, но обещают докатить и до Pro.
https://www.anthropic.com/news/integrations
В Claude добавили интеграции - возможность дергать MCP сервера. Раньше это работало только в десктопной версии, теперь ещё и в браузере будет доступно. Для начала доступно всего 10, но явно будет больше. И, конечно, свои можно добавлять.
Наконец-то можно через claude тикеты в Jira создавать, а не ручками это делать и страдать!
А ещё обновили Research. Теперь он может искать... до 45 минут. Боюсь представить, что оно за почти час сделает.
Пока это счастье доступно в Max, Team и Enterprise, но обещают докатить и до Pro.
https://www.anthropic.com/news/integrations
Anthropic
Claude can now connect to your world
Today we're announcing Integrations, a new way to connect your apps and tools to Claude. We're also expanding Claude's Research capabilities with an advanced mode that searches the web, your Google Workspace, and now your Integrations too.