Telegram Group Search
Антропик показали, как ИИ может анализировать сам себя 🔍🤖

Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude.

В чём суть? 🎯
- Clio использует сам ИИ для анализа паттернов использования ИИ-ассистентов
- Система сохраняет приватность пользователей, работая только с обобщёнными данными
- Позволяет увидеть реальные сценарии применения ИИ в повседневной жизни

Что интересного обнаружили? 📊
- Самые популярные задачи: программирование, создание контента и исследования
- Пользователи из разных стран используют ИИ по-разному (например, в Японии больше обсуждают проблемы старения населения)
- Выявили новые способы злоупотребления системой, что помогло усилить защиту

Почему это важно? 💡
1. Впервые получили реальную картину использования ИИ в масштабе миллионов разговоров
2. Нашли баланс между аналитикой и приватностью
3. Создали основу для более безопасного развития ИИ-ассистентов

Технология работает как Google Trends, но для разговоров с ИИ - показывает тренды, паттерны и аномалии, не раскрывая личных данных пользователей.

Это прорыв в понимании того, как люди реально взаимодействуют с ИИ. И что особенно круто - система использует ИИ для анализа ИИ, что открывает новые горизонты в развитии безопасных и этичных технологий.

Судя по результатам анализа, мы в пузыре? В тоже время, Клодом пользуются в основном айтишники, так что может не так все и плохо 🤔

Блог-пост
Статья
AI для Всех
Антропик показали, как ИИ может анализировать сам себя 🔍🤖 Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude. В чём суть?…
В продолжение разговора о метаанализе ИИ-систем, давайте разберемся в Clio подробнее.

Фундаментом системы является многоуровневый пайплайн обработки данных с несколькими ключевыми компонентами:

Извлечение характеристик

- Система использует специализированные языковые модели для анализа каждого диалога
- Извлекает множество параметров: язык общения, тему, намерения пользователя
- Работает как с прямыми метриками (длина диалога), так и с семантическим анализом

Умная кластеризация

- Применяет embedding-based clustering для группировки похожих диалогов
- Использует k-means с динамическим определением оптимального числа кластеров
- Строит иерархическую структуру паттернов использования


Защита приватности

- Многоуровневая фильтрация персональных данных
- Агрегация информации только при достаточном количестве похожих случаев
- Автоматическая проверка на отсутствие идентифицирующей информации

Результаты

- Система выявила основные сценарии использования ИИ (программирование, создание контента, исследования)
- Обнаружила культурные различия в применении ИИ
- Помогла выявить и предотвратить попытки злоупотребления системой

Особенно важно, что Clio демонстрирует новый подход к анализу ИИ-систем, где сам искусственный интеллект используется для понимания паттернов своего применения.

Исследование знаменует важный шаг в развитии прозрачных и этичных методов анализа ИИ-систем, объединяя передовые технологии машинного обучения с принципами защиты приватности.

Статья
У Грока определено есть вкус
В связи со слухами, предлагаю Claude новую рекламу 🤖

Это кстати ChatGPT рисует. Ждём анонса нового Dalle на след неделе
Please open Telegram to view this post
VIEW IN TELEGRAM
Открытая реализация масштабирования времени обдумывания (inference time): от O1 к открытым моделям

Команда Hugging Face успешно воспроизвела и адаптировала для открытых моделей подход, который OpenAI впервые продемонстрировала в своей модели O1. Теперь эта техника доступна всем! 🚀

В 2024 году OpenAI первыми показалили, как увеличение времени "обдумывания" может значительно улучшить производительность модели на сложных задачах. В частности, их модель O1 демонстрировала постоянное улучшение результатов на математических задачах при увеличении вычислительного бюджета на этапе вывода.

Что удалось воспроизвести? 🔍

Команда Hugging Face адаптировала этот подход для открытых моделей и показала, что:
- Маленькая модель Llama 1B может достичь производительности Llama 8B
- Модель Llama 3B может конкурировать с Llama 70B
- Всё это возможно без доступа к закрытым моделям или огромным вычислительным ресурсам

Как это работает? 🤔

Основная идея та же, что и у OpenAI - дать модели больше времени на "размышление". Команда реализовала и сравнила три подхода:

1. Best-of-N (Базовый подход)
- Генерируем несколько решений
- Выбираем лучшее с помощью верификатора
- Простой, но эффективный метод

2. Beam Search (Продвинутый метод)
- Систематический поиск решений
- В 4 раза эффективнее Best-of-N
- Оптимален для сложных задач

3. DVTS (Новый метод от HF)
- Улучшение beam search
- Фокус на разнообразии решений
- Лучшая производительность при большом бюджете

Необходимые компоненты:
- Открытая базовая модель (например, Llama-3.2-1B-Instruct)
- Модель-верификатор (например, RLHFlow/Llama3.1-8B-PRM)
- Реализация стратегии поиска

Значение для сообщества 🌟

Эта работа особенно важна, потому что:
- Делает продвинутые техники доступными для всех
- Показывает, что маленькие открытые модели могут быть очень эффективными
- Предоставляет практическую реализацию для экспериментов

Что дальше? 🚀

Открытая реализация этих методов открывает новые возможности:
- Применение подхода к другим задачам
- Улучшение верификаторов
- Разработка новых стратегий поиска

Это отличный пример того, как открытые модели и исследования двигают область вперёд.

Блог-пост
Прогнозирование будущего с помощью языковых моделей 🤖📈

Друзья, сегодня поговорим о прогнозировании будущего с помощью больших языковых моделей (LLM). Исследователи показали как можно скомбинировать силу чисел и контекста!

🔍 Ключевой прорыв
До недавнего времени системы прогнозирования работали только с числами - представьте себе графики продаж или температуры. Но в реальном мире мы принимаем решения, учитывая множество факторов! Новый подход позволяет моделям понимать контекст так же, как это делаем мы с вами.

🛠️ Как это работает?

- Модель анализирует не только числовые данные, но и важную текстовую информацию
- Учитывает исторические события и будущие планы
- Понимает причинно-следственные связи
- Адаптируется к различным сценариям

📊 Практические примеры

- Прогноз загруженности дорог с учетом предстоящих мероприятий
- Предсказание потребления энергии с учетом погодных условий
- Анализ продаж с учетом маркетинговых кампаний

🎯 Интересные результаты

- GPT-4 и Gemini показали впечатляющие результаты в понимании временных рядов
- Модели успешно интегрируют текстовую информацию в прогнозы
- Точность прогнозов значительно улучшается при добавлении контекста

🔮 Будущее прогнозирования

Представьте себе системы, которые смогут:

- Анализировать множество источников данных одновременно
- Учитывать глобальные тренды и локальные особенности
- Давать объяснения своим прогнозам на человеческом языке

Это захватывающее время для искусственного интеллекта и анализа данных! Мы становимся свидетелями того, как машины учатся понимать временные ряды почти так же целостно, как люди.

Что думаете об этом прорыве? Делитесь своими мыслями в комментариях! 💭

Статья
AI для Всех
Прогнозирование будущего с помощью языковых моделей 🤖📈 Друзья, сегодня поговорим о прогнозировании будущего с помощью больших языковых моделей (LLM). Исследователи показали как можно скомбинировать силу чисел и контекста! 🔍 Ключевой прорыв До недавнего…
В продолжение нашего разговора о прогнозировании временных рядов, давайте глубже рассмотрим ключевые компоненты современных систем прогнозирования на основе больших языковых моделей, опираясь на последние исследования.

Архитектурные инновации
- Разработка WaveToken - интересный подход к токенизации временных рядов через вейвлет-преобразования
- Chronos - минималистичный подход к адаптации языковых моделей
- TimeMixer++ продемонстрировали эффективность гибридных архитектур

Обработка контекстной информации
- TimeGPT-1 показали возможность работы с разнородными данными из множества доменов
- LLMForecaster представил инновационный подход к интеграции текстового контекста
- TimeFM достиг впечатляющих результатов при существенно меньшем размере модели

Особенно интересно отметить результаты последних бенчмарков, показывающих, что закрытые модели (GPT-4, Gemini) значительно превосходят открытые решения в понимании временных рядов. При этом исследования показывают три ключевых направления развития: LLM как усилитель существующих моделей, как предиктор и как агент.

Исследования в этой области, особенно работы по Resolution-Aware Retrieval и Context is Key benchmark, открывают путь к созданию более совершенных систем прогнозирования, способных учитывать широкий спектр факторов и предоставлять обоснованные предсказания в различных областях применения.
This media is not supported in your browser
VIEW IN TELEGRAM
Закончились 12 дней Open AI, по этому поводу сделал вам песню про все что показали.
Ох уж эта стена 🤣
По мнению многих (и меня в том числе), самый главный софт года - Cursor.

Cursor примечателен тем, что благодаря ему я за весь рабочий год не написал ни одной функции полностью руками (ну ок, написал одну, на собесе в Страйп).

Напоминаю, что в нашем канале еще в мае вышел текстовый лайв с моей встречи с их фаундером 🙃

А первый раз я порекомендовал им воспользоваться в январе.

Это я к чему? На нашем канале инсайты проверенные временем :)

В следующие дни до Нового года мы разберем и другие значимые инсайты этого года. Так что оставайтесь на связи – впереди еще много интересного! 🎄
2024 Backward Pass - The Definitive Guide to AI in 2024.pdf
1.7 MB
📚 Хороший гайд по рынку AI от Translink Capital.

Тот случай, когда это не пост по отчету, а именно сам отчет.

Kelvin Mu из Translink Capital (давно и неплохо делает аналитику по сегменту) сделал чтиво по рынку искусственного интеллекта на 42 страницы. Тот случай, когда минимум графиков, которые мы любим, зато отчет достаточно емкий. Вдруг вы пропустили что-то по теме, это точно поможет расставить по полочкам. Понятно, что где в каком сегменте происходит.

Структура:
▪️Infrastructure Layer
▪️Model Layer
▪️Tooling Layer
▪️Application Layer
▪️Investments and M&A
▪️Other AI trends

Могу лишь еще лично направить почитать про тренд по Inference optimization в Tooling Layer, где сказано про наш уже бывший стартап Deci AI, который купила NVIDIA, но вообще каждый найдет там что-то свое. Очень кропотливо собраны тренды.

@proVenture

#ai #research
Cursor Agent - друг, который знает всё, и не осуждает за глупые вопросы. А ещё готов сделать ВМЕСТО тебя.

Во время вашего традиционного рождественского созвона, Артемий между делом обратил внимание на режим "agent" в Cursor. Я переключила этот едва заментный микро рычажок, и тоже перешла из режима normal - в режим непрерывного ох.ния, простите за мой французский.

Мы с курсором и раньше классно общались: он терпеливо отвечал на мои вопросы, неустанно дебажил мой г.нокод, был со мной в самые непростые минуты создания (ещё не релизнутой) python библиотеки для симуляции взаимодействия наночастиц с клетками по законам термодинамики и комбинаторики.

Но Cursor Agent умеет исправлять и создавать (!) файлы в самых разных папках проекта. Это крисмас мэджик какой-то, ребята.

Самое морально сложное с курсором, пожалуй, - дать разрешение ему на все во время установки. Но если это внутреннее сопротивление преодолеть, то будете удивляться, как раньше жили без него.

По шагам запуск режима Агента:
1. Комбинацией CMD + I (MacOS) запустите Composer
2. В окне Composer в самом внизу в самой последней строчке, написанной бледно-серым цветом, включите режим agent
3. Опишите максимально подробно задачу, предоставьте любой контекст (снимки экрана, файлы - что есть)
4. Отправьте и наблюдайте, как Agent творит чудеса
5. Просмотрите изменения и утвердите по мере необходимости

Очевидные лайфхаки, но полезно помнить:
Делите задачи на подзадачи.
Структурируйте запрос: и агент лучше справится, и вам будет легче докручивать компоненты.
Итеративный подход.
Можно и нужно уточнять и дорабатывать запросы - взаимодействие с агентом по умолчанию устроено как последовательные запросы.
Учитесь.
Просите объяснить сложные части кода как для пятилетнего или на примере какашек. Это здорово помогает прокачивать скиллы.

Приятных открытий!
Как ИИ меняет модели ценообразования ПО

В своей декабрьской рассылке Andreessen Horowitz (a16z) затронули очень интересную тему, а именно как ИИ радикально меняет подход к тому, как компании продают свои программные продукты 💰


Вот три ключевых тренда:

1️⃣ Программное обеспечение становится "трудом"

ИИ превращает традиционные сервисы в масштабируемые программные решения: Поддержка клиентов, продажи, маркетинг, payroll теперь могут быть автоматизированы.

2️⃣ Уход от модели "оплаты за место" (per-seat pricing)

Классический пример - Zendesk, в котором традиционно платили за число агентов тех. поддержки в месяц

Теперь, когда ИИ может обрабатывать тикеты, важно не количество юзеров, а результат работы.

Поставщики ПО переосмысливают свои модели ценообразования и переходят к оплате за конкретные результаты, которые их ПО помогает достичь пользователям.

3️⃣ Менее предсказуемые переменные затраты

ИИ-стартапы, использующие foundation models (OpenAI, Anthropic, Mistral), сталкиваются с переменными затратами, которые растут пропорционально использованию сервиса.

Каждый API-запрос, обработанный токен отражается на структуре затрат.

Неудивительно, что появляются новые бизнес модели завязанные на использование сервиса.

🔍 Интересно, что ИИ-нативные компании активно экспериментируют с новыми моделями. Например, Decagon просит оплату за диалог либо за результат. В Cursor платим за пользователя плюс доплаты за использование премиальных моделей.

В то время как традиционные игроки, которые добавили ИИ в свои уже существующие продукты, пока держатся за привычные схемы подписки 📠

Индустрия продолжает активно развиваться - ждём новых идей и решений в 2025! 🎄

😎Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
Кто из AI ассистентов для кода заработал больше всех в 2024?

Oliver Molander в своем LinkedIn посте собрал статистику по ARR в 2024 году среди специализированных AI ассистентов для кода.

💰 JetBrains заработал больше всех ($593M ARR), на втором месте Github Copilot ($400M ARR), на третьем Cursor ($65M ARR)


📮LinkedIn post
Please open Telegram to view this post
VIEW IN TELEGRAM
Как создавать LLM-агентов без лишней головной боли
(Личный опыт и наблюдения из практики Anthropic)

Знаете, похоже, годом агентов станет 2025-й. В уходящем году мы все пытались сделать их по-настоящему надёжными, и, кажется, не зря старались! К 2025-му главным стало не то, насколько "крут" твой агент, а умение собрать систему, которая реально решает конкретные задачи.

Недавно ребята из Anthropic поделились своими находками о том, как делать рабочих агентов без лишних сложностей. Давайте разберём самое важное.

🐨 Начинаем с простого
Первым делом чётко определите, что вам нужно от модели. Может, это перевод текста? Или рефакторинг кода? Или генерация контента? Не пытайтесь впихнуть всё и сразу в один вызов — это путь к хаосу.

Обязательно проверяйте результаты. Тесты, сравнение с эталонами, внутренние метрики — всё это покажет, насколько хорош ваш агент. Заметили слабое место? Усильте промпты или добавьте простую проверку.

Начните с базовых схем. Например, один вызов LLM для основной задачи и ещё один для проверки. Работает? Отлично! Усложнять будете только когда реально припрёт.

🕵️ Когда действительно нужны агенты
Агенты сами решают, какие инструменты использовать и в каком порядке. Иногда без этого не обойтись, особенно в сложных задачах, где заранее все шаги не пропишешь. Но имейте в виду: за такую свободу придётся платить — больше вычислений, больше времени, больше шансов накосячить.

Возьмём, к примеру, код-агента, который может работать с несколькими файлами и сам решает, как их править. Круто, но не забудьте про стоп-краны — ограничьте число итераций, чтобы агент не ушёл в бесконечный цикл.

🐋 Три кита агентостроения
1. Простота: чем меньше навороченной логики, тем легче жить
2. Прозрачность: должно быть видно, как агент планирует свои действия и какие подсказки получает
3. Понятный интерфейс: подробная документация, примеры, инструкции — чем яснее описано, что умеет агент, тем меньше сюрпризов

🦜⛓️‍💥 А как же фреймворки?
Да, есть куча готовых инструментов — LangGraph в LangChain, Amazon Bedrock's AI Agent и другие. С ними можно быстро начать, но под капотом там часто такие дебри, что отладка превращается в квест.

Мой совет: если код начинает напоминать чёрную магию — попробуйте вернуться к основам. Простые вызовы LLM, чёткое разделение задач, всё под вашим контролем.

👌 Практические советы
- Если задачу решают пара простых промптов — не городите огород
- Тестируйте как ненормальные: автотесты, сравнение с эталонами, сквозные сценарии
- Добавляйте проверки: пусть отдельный LLM или простой код следит, не пошло ли что-то не так
- Не бойтесь микшировать разные подходы: маршрутизация, параллельные вычисления, оценка-оптимизация — главное, не всё сразу

💻 Живой пример: рефакторим код
1. Начинаем просто: LLM читает файл и советует, как переименовать переменные
2. Если работает — расширяемся: добавляем центральный LLM, который раздаёт задачи "рабочим"
3. Проверяем результат: второй LLM или человек просматривает изменения перед мержем

🦆 Главное, что я понял
Успех с LLM — это не про создание монстра, который всё умеет. Это про простую, точную, управляемую систему на которую можно положиться (reliability). Начинайте с малого, держите всё на виду и усложняйте только по необходимости.

P.S. Если вдруг захотите своего помощника в стиле Cursor Agent — сначала чётко определите, к каким файлам и функциям он получит доступ. Давать агенту права на запись в репу иногда страшновато, но когда он начинает экономить время и нервы — это того стоит!

Блог-пост по агентостроению стоит почитать, потому что там намного больше четких схем и разобранных кейсов использования.

А как вы подходите к созданию LLM-агентов? Какие инструменты используете? Делитесь опытом в комментариях 🚀
Поздравляю с Новым Годом! 🎄

Желаю всем хорошего настроения, энергии и чтобы не иссякал энтузиазм.

Начало 2024 года ощущалось, как будто нас накрывает волной, и казалось, что самое главное - это грести из всех сил, чтобы оказаться на её гребне.

2025 год - это уже про настоящий серфинг. Кто был молодцом и упорно греб, преодолевая сопротивление воды и страх перед высотой волны, теперь должен сделать глубокий выдох, уверенно оттолкнуться от доски и встать на нее. Пришло время поймать эту волну, балансировать и управлять движением, чувствуя её силу и используя её энергию.

Поехали! 🏄​​​​​​​​​​​​​​​​
This media is not supported in your browser
VIEW IN TELEGRAM
AgiBot World: Крутейший датасет для обучения роботов 🤖

Большинство существующих датасетов для обучения роботов не справляются с реальными проблемами из-за некачественных данных, ограничений сенсоров, слишком коротких задач в контролируемых средах.

AgiBot World - это первый крупномасштабный датасет для обучения роботов, разработанный для продвижения многоцелевых задач робототехники.

Что в нем есть?:

- 1 миллион+ траекторий от 100 роботов.
- 100+ 1:1 воспроизведенных реальных сценариев в 5 целевых областях.
- Современное оборудование: визуальные тактильные датчики / манипуляторы с шестью степенями свободы / двухрукие мобильные роботы
- Широкий спектр универсальных сложных задач


Помимо этого в нем есть базовые модели, тесты и экосистема для демократизации доступа к высококачественным данным для академического сообщества и промышленности.

🌐 Сайт

🪩 GitHub

🤗 HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Как быстро собрать весь код из проекта для подачи в LLM

В последний месяц, по разным причинам, приходится много разбираться с чужим кодом. И в этом мне помогает следующий лайфхак.

Хотите эффективно работать с большими кодовыми базами в ChatGPT или Claude? Команда find в Unix-системах поможет собрать все файлы с кодом в удобном формате!

Вот несколько полезных команд:

1️⃣ Собрать все Python файлы с путями и содержимым:

find . -name "*.py" -type f -exec echo "=== {} ===" \; -exec cat {} \; > all_code.txt

2️⃣ То же самое, но с JavaScript:

find . -name "*.js" -type f -exec echo "=== {} ===" \; -exec cat {} \; > javascript_code.txt

3️⃣ Собрать сразу несколько типов файлов:

find . \( -name "*.py" -o -name "*.js" -o -name "*.tsx" \) -type f -exec echo "=== {} ===" \; -exec cat {} \; > project_code.txt

4️⃣ Скопировать в буфер обмена (для macOS):

find . -name "*.py" -type f -exec echo "=== {} ===" \; -exec cat {} \; | pbcopy

🔑 Что делает эта команда:
- find . - ищет файлы в текущей директории и поддиректориях
- -name "*.py" - фильтрует по расширению
- -type f - только файлы (не директории)
- -exec echo "=== {} ===" \; - добавляет разделитель с путём к файлу
- -exec cat {} \; - выводит содержимое файла
- > all_code.txt - сохраняет результат в файл

💡 Теперь вы можете легко подать весь релевантный код в LLM для анализа, рефакторинга или поиска ошибок!
2025/01/07 13:11:54
Back to Top
HTML Embed Code: