boris_again Telegram Group

Борис опять

Фрагмент А написал Gemini Pro 2.5, фрагмент B написал я.

В 2/3 чатах, куда я закидывал опросы, автора отгадали неправильно. Причем в моем собственном чатике не смогли определить мой фрагмент! Зато в чате админов телеграм каналов Gemini Pro 2.5 вычислили сразу, там был консенсус с 95%+ голосами.

Во всех чатах фрагмент написанный LLM понравился людям больше.

Получапется, как принято говорить, ПИСАТЕЛИ - ВСЁ???

4.0K views12:14

Борис опять

Результаты эксперимента на подопытных друзьях с помощью целой главы противоположные.

Такой эксперимент довольно непросто провести потому что всегда можно сказать "ты просто недостаточно хорошо запромптил ллмку." Мне хотелось сделать сравнение честным, было очень интересно что получится. Я пришел к такому сетапу эксперимента. Проверять может ли LLM написать главу с нуля бесполезно. Однако можно ослабить запрос на такой: может ли LLM наполнить структуру?

Сначала я написал черновик главы целиком, с графиками и всем прочим. Так получилась моя версия. Далее я удалил наполнение всех секций кроме введения и попросил Gemini Pro 2.5 заполнить секции текстом. Кроме того в промпте она получила синопсис книги (краткое описание что мы пишем, для кого, в каком стиле, и так далее) и первую главу книги целиком как референс стиля. В конце я минимально поправил текст, чтобы он сочетался с графиками и убрал другие палевные вещи.

Мои друзья получили гугл форму с двумя кнопками: Тык и Тыдык. При нажатии на Тык они получали ссылку на мою главу, а при нажатии на Тыдык ссылку на LLM главу. Далее обе группы заполняли форму фидбека с такими вопросами:

1. Насколько интересно? От 1 до 5
2. Насколько понятно? От 1 до 5
3. Математика от 1 до 5. 1 означает "нужно меньше", 3 означает "норм", 5 означает "нужно больше"

Так же я спрашивал их кто, по их мнению, написал главу, которая им попалась.

Такой вот Тык/Тыдык тест.

У LLM главы было серьезное преимущество: она была на треть короче. Она реалистично могла победить только за счет этого. К тому же она, естественно, была чище. Как и фрагменты выше, её можно было легко отличить по отсутствию ошибок.

В итоге в тесте поучаствовали шесть друзей. 5/6 верно угадали автора. По всем параметрам кроме математики LLM глава проиграла кожаной главе. Выборка небольшая, но я датасаентист, я так вижу, всё статзначимо.

4.0K viewsedited 12:23

Борис опять

Вы будете в шоке, но я пришел к выводу, что LLM не может заменить меня как писателя! Непредвзятое мнение.

Если серьезно, то конечно я был удивлен результатами опросов про два фрагмента. Особенно тем, что люди не смогли определить авторство. Хотя бы потому, что мой фрагмент элементарно "палиться" тем, что содержит ошибки.

Вот то, что людям больше понравился LLM фрагмент, меня вообще не удивило и не расстроило. Дело в том, что если бы я сидел на арене и получил бы эти два фрагмента, то тоже выбрал бы фрагмент Gemini. Потому что я знаю ML и знаю что такое переобучение, так что я бы выбрал самый информативный и короткий вариант.

Однако мы читаем книги не так как чатимся с LLM. Фрагмент А от LLM более информативный и "правильный", но для книги он ужасен:

1. Написано, что модель может "вызубрить" обучающие данные. И что "Переобученная модель отлично работает на данных, которые она видела во время обучения, но плохо справляется с новыми, незнакомыми данными". Мы просто помахаем руками и понадеемся, что читатель примет эти слова на веру?
2. Никакой связи с предыдущими частями. Книга это не набор несвязанных параграфов текста. Нужно повествование, которое поможет поместить новые знания в контекст. Поэтому в моем фрагменте есть отсылка к конкретной задаче, которая рассматривается в этой главе.
3. Аналогия с экзаменом начинается, но тут же заканчивается. Как будто она там для галочки. Вайб такой "автор любит аналогии, тут нужна аналогия." При этом она довольно никакая. В своей аналогии я попытался вызвать эмоции: не просто студент-зубрила, а студент к которому ты потом попадешь на операционный стол и он тебе вырежет что-нибудь не то.

Да, мой фрагмент неуклюжий. Я специально взял его в черновом виде. В отрыве от контекста он объективно хуже LLM ответа. Но я могу докрутить его до хорошей части повествования, а LLM фрагмент проще стереть и переписать.

4.2K viewsedited 12:38

Борис опять

Наконец, эксперимент с полноценной главой подтверждает мои выводы.

Читать 20 страниц AI текста это совсем не тоже самое, что прочитать столько же авторского текста. С достаточным контекстом разрыв становится очень заметен.

Однако нельзя сказать, что он огромный. LLM глава вышла "норм." Я пишу главу примерно месяц. Вероятно, используя LLM можно написать главу за неделю. Не лучше ли написать книгу в 2-4 раза быстрее? Подумаешь интересность упадет с 4.5 до 3.5.

И вот здесь я не согласен. LLM выдача всегда достаточно норм. Это подходит для автоматизации многих бизнес процессов, где "достаточно норм" это именно то, что нужно. Кост-эффективность.

Книги не про кост-эффективность. Книга соревнуется с рилсами и миллионом других книг. И вообще в 2025 их читают только психи. Ты не можешь написать "норм" книгу и надеяться, что её будут читать. Даже одного средненького фрагмента достаточно, чтобы потерять читателя. Так что на 20% менее увлекательная книга это не книга которую прочитают на 20% меньше людей, это книга которую не будет читать никто.

Обязательный скучный дисклеймер: безусловно LLM полезны для набрасывания идей, редактирования и другой помощи. Иногда я даже использую их, чтобы начать писать. Генерирую параграф с помощью LLM, меня возмущает насколько он ужасен и я начинаю его гневно переписывать. Однако целиком писать за меня оно пока что не может и не особо в этом продвинулось за 7 месяцев.

4.8K viewsedited 12:48

Борис опять

Борис опять pinned «»

12:55

Борис опять

С непривычки родина удивляет контрастами.

Город в Рязанской области, 300км от Москвы. Двухэтажные домики, МФЦ, музей самоваров, бездомная собака у магнита, дорога в колдобинах. Полный набор. Но заходишь в случайную дверь и попадаешь в спешлти кофейню такого уровня, который не во всех европейских столицах вообще изобрели. С воронками V60 Кения или Никагаруа на выбор, рафом на альтернативном молоке, макарунами как в Париже (буквально) и авторским лимонадом на березовом соке.

Это звучит как что-то из мемов про сферу услуг в России и Европе, но такое нарочно не придумаешь. В Португалии за пределами центра Лиссабона ты можешь купить только рыбно-фасолевое хрючево с пережаренным экспрессо (с буквой к). Причём оно во всех заведениях будет одинаковое.

6.5K viewsedited 11:56

Борис опять

https://livecodebenchpro.com/

Теперь вы тоже можете сказать, что ваша модель достигает качества на уровне o3 (тоже 0%)

5.8K viewsedited 20:47

Борис опять

Я был в прошлом году, было очень весело. По вайбу как будто слегка аутичные дети захватили власть в детском лагере: всю программу организуют сами участники, в стиле burning man. В том году я сходил на воркшоп по взлому замков, послушал бизнес ангела инвестирующего в лонджевити почему неэффективно вкладываться в борьбу с раком (там уже достаточно денег), позанимался импровом, узнал про математику жонглирования, обклеил всю площадку самоклеющимися глазами и спел много песен под гитару.

И естественно куда ни плюнь AI ресерчеры, но я в тот раз их старательно избегал.

4.4K viewsedited 13:53

Борис опять

Forwarded from Start in AI Safety (!¡)

🌟

LessWrong Community Weekend in Berlin

📍

Где: Yoth Hostel Wannsee, Берлин, Германия

🗓

Когда: 29 Августа - 1 Сентября

💰

Стоимость: Стандартная цена €250, но на самом деле после того, как вашу заявку одобрят, вы сможете выбрать сколько заплатить

⏰

Дедлайн: когда кончатся места

Тот самый вайб старого-доброго LW. 12 итерация Недели Комьюнити LessWrong пройдет в Берлине! Это большая тусовка рационалистов, будет 250+ людей из разных частей Европы и четыре дня интересных обсуждений, веселья и нетворкинга

🔗

Подать заявку: тут

🔗

Пост про LWCW на LessWrong: тут

По всем вопросам писать сюда: [email protected]

Please open Telegram to view this post

VIEW IN TELEGRAM

4.8K views13:53

Борис опять

Команда Яндекс RecSys R&D Team разработала ARGUS (AutoRegressive Generative User Sequential Modeling) — новую трансформерную рекомендательную модель. Трансформеры чудесны тем, что могут обрабатывать любые последовательности. Но здесь не просто предсказание отклика пользователя. ARGUS одновременно предсказывает будущие действия пользователя и его отклик, что повышает точность и качество персонализации. Данных об отклике всегда мало, так что использовать для обучения данные про все действия пользователя это очень умно.

Яндекс Музыка стала первым сервисом, в который внедрили новую модель и перевели её в онлайн-режим. Впервые Яндекс Музыка начала работать на базе генеративных моделей в 2023 году, теперь в Музыке ARGUS применяется в реалтайме, для каждого трека в Моей волне. Причем это 126М модель с длиной контекста 8192 события. Для реалтайм инференса трансформеров на масштабах Яндекс Музыки это очень большая модель. Инференсить такое на каждый новый трек в Моей волне — довольно нетривиальная задача.
Реалтайм инференс возможен благодаря собственной архитектуре модели, где эмбеддинги для пользователей и треков пересчитываются в оффлайне регулярным процессом. Это снимает большую часть нагрузки с модели, которая в такой постановке занимается лишь установлением взаимосвязей в последовательности.

Для оценки качества используется global temporal split, то есть замеряем качество на следующей неделе по времени после обучающих данных. На предобучении смотрели на лосс для задач next item prediction и feedback prediction. На дообучении была другая задача: правильно ранжировать близкие по времени прослушивания пользователем треки исходя из оставленного на них фидбека. Смотрим насколько предсказания модели о том, что больше предпочтет пользователь, совпадают с реальностью. Чем-то напоминает supervised finetuning LLM. Также для замера качества сравнивали метрики бустинга с прода с таким же бустингом, но с дополнительным признаком от ARGUS.

В онлайне проводили A/B эксперименты на пользователях Яндекс Музыки и Маркета и получили статзначимые улучшения продуктовых метрик. В стриминге пользователи стали на 20% чаще ставить лайки и добавлять в коллекцию впервые услышанные треки и артистов. В Маркете пользователи стали добавлять в корзину на 3% больше товаров, увиденных в рекомендациях, а покупки товаров из рекомендаций в новых для них категориях выросли на 5%.

https://habr.com/ru/companies/yandex/articles/919058/

5.3K viewsedited 09:58

Борис опять

Forwarded from Олег

the C in YC stands for "cursor"

5.2K views10:46

Борис опять

10/10 статья про принципы построения систем на агентах. Новая база ML систем дизайна.

https://hackernoon.com/stop-prompting-start-engineering-15-principles-to-deliver-your-ai-agent-to-production

Hackernoon

Stop Prompting, Start Engineering: 15 Principles to Deliver Your AI Agent to Production

Build production-ready LLM agents. Learn 15 principles for stability, control, and real-world reliability beyond fragile scripts and hacks.

4.9K viewsedited 08:56

Борис опять

Forwarded from Labrats

#от_коллеги из @biochemestry_memes

3.5K views10:44

Борис опять

Forwarded from Пресидский залив (ex Надя пробует)

Собирать стиль из случайных покупок - все равно что пытаться составить осмысленное предложение из слов на холодильнике.
По отдельности интересно, но вместе не очень работает 😐

Aesty (Antler ‘24) - это Fashion OS: приложение, который помогает собрать стиль из того, что у тебя уже есть, и дополнить его тем, что действительно нужно. Получается связный, логичный гардероб, который работает как система и курируется приложением 🎧

В отличие от классических fashion-приложений, Aesty:
- Позволяет примерять и свои вещи, и новые — прямо на себе, в одном образе
- Показывает, что у тебя уже есть в гардеробе и как это сочетать друг с другом
- Строит образы под погоду, стиль и тренды
- Показывает, что действительно стоит докупить — с учетом твоего контекста, а не просто красивой ленты в пинтересте

С первого дня Aesty помогает иначе смотреть на гардероб не как на хаос, а как на стройную, понятную систему 😎

⌨️ Лаунч на Product Hunt: https://www.producthunt.com/posts/aesty-your-fashion-os/
будем рады поддержке 🤝

🎁 Только для PH:
Инвайт другу = обеим бесплатная примерка
Промокод: PRODUCTHUNT

Лайк, шэир, репост очень привествуются! 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.2K views09:19

Борис опять

Сходки в Москве в ближайшее время не будет :(

Я пытался успеть в Москве всё за одну неделю, едва не поседел и заработал мигрень. Но сходка так и не поместилась в расписание.

В следующий раз :с

3.0K viewsedited 17:42

Борис опять

Forwarded from Никита и его пшд (Nikita Durasov)

Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ✨ ICML в Ванкувере ✨ про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).

На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.

А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.

Кому будет интересно, можете попробовать идею в этом ноутбуке.

📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb

YouTube

[ICML 2025] IT³: Idempotent Test-Time Training

Introducing IT3: Idempotent Test-Time Training — a simple, universal method for improving model performance under distribution shift. No complex auxiliary losses and no architectural constraints. By enforcing idempotence, we achieve consistent gains across…

2.2K views08:23

Борис опять

Cloud.ru выкатил сразу два крупных анонса на GigaConf для упрощения работы с облаком и искусственным интеллектом

Во-первых, они представили AI-помощника Клаудию для своего публичного облака Cloud.ru Evolution. Это не просто очередной чат-бот для консультаций. Помощник на базе GenAI умеет выполнять конкретные действия: самостоятельно развернуть виртуальную машину, помочь с командами в консоли в режиме co-pilot и настроить мониторинг и алертинг. Идея в том, чтобы разработчики и админы могли делегировать рутинные DevOps-задачи искусственному интеллекту, освобождая время на более важные вещи. AI-помощник уже доступен в режиме Public Preview.

Во-вторых, компания открыла для всех доступ к Cloud.ru Evolution AI Factory. Это облачная среда с готовыми инструментами для создания ML решений, работы с LLM и разработки AI-агентов. Внутри: модели по API, деплой и инференс (как GigaChat, так и любых моделей с Huggingface), finetuning моделей, компоненты RAG (Retrieval Augmented Generation), Jupyter ноутбуки по кнопке и даже визуальный редактор для создания AI-агентов.

Что интересно, Cloud.ru Evolution AI Factory рассчитана не только на опытных ML-инженеров. Утверждается, что простой интерфейс позволит работать с LLM даже без глубоких навыков программирования, что должно помочь с типовыми ML-решениями.

Подведем итоги. AI-помощник упрощает управление самой облачной инфраструктурой, а AI-фабрика дает готовые сервисы для быстрого создания и интеграции AI-решений поверх этой инфраструктуры. Похоже, тренд на упрощение, автоматизацию и удобство работы с AI и облаками набирает обороты. Cloud.ru делает серьезную заявку на то, чтобы стать единой точкой входа для компаний, которые хотят внедрять AI без необходимости строить все с нуля.

1.3K views17:13

2025/06/27 19:06:03
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>