Telegram Group Search
This media is not supported in your browser
VIEW IN TELEGRAM
#конкурсхорроров #релиз #одиннаодинсострахом

А тепер работа из ТОП-3 нашего конкурса!

"Колыбельная"🤱💀 по сценарию Артёма Ерохина уже на Фабуле!
32👍1
​​Is AI writing any good?

Есть такой писатель фэнтези, Mark Lawrence. Он довольно популярен и время от времени организует различные активности.

2 года назад он организовал эксперимент с попыткой сравнить качество написания текстов реальными авторами и AI.

Идеально было бы организовать написание длинных текстов, но их сложнее сравнивать, и людям может быть лень их читать, поэтому ограничились текстами в ~350 слов. 4 автора и ChatGPT 4, потом количество текстов стало 10. Промпт был "write a piece of fiction based on meeting a dragon", при этом для ChatGPT дали дополнительные инструкции.

Потом это дали почитать желающим и попросили проголосовать в двух опросах: отранжировать тексты в порядке предпочтения и попробовать угадать написан текст AI или нет.

Результат: в большинстве случаев (кроме двух) люди правильно угадали был ли автором AI (но лишь с небольшим перевесом), топ-2 и топ-3 по предпочтениям заняли тексты написанные AI (причём люди ошибочно считали, что топ-2 текст написан человеком). Результаты получились не особо радостные для авторов - топ два места из трёх у AI, в большинстве случаев люди не смогли чётко отличить AI от человека.

И вот недавно был проведён второй раунд. Результаты и тексты. В написании текстов принимало участие 4 автора с общим тиражом проданных книг около 15 млн. Со стороны AI участвовал GPT-5 (не уточнено какая версия). Опять тексты по 350 слов.

Для чистоты эксперимента предлагаю вам самим вначале прочитать тексты и проголосовать :)

Какие же итоги? 964 голоса. Люди угадали правильно авторство трёх историй (1 AI, 2 автора), неправильно тоже три (2 AI, 1 автор) и два раза была ничья (1 AI, 1 автор). Получается по факту рандомное угадывание.

Но ещё печальнее то, что средняя оценка сгенеренных историй выше, чем написанных людьми. И топ-1 место по предпочтениям - AI.

Организатор опроса с печалью признаёт, что AI выиграл этот раунд.

> Should AI generate fiction, imagery, voices etc competing with artists in a number of fields and fooling the public. No, of course not. I hate that idea and most people do too.

> Will it happen? It's already happening. Wherever anyone can circumvent skill and heart and just profiteer off a new technology, they're going to do it. People threaten people with knives in the street for a few dollars - are people going to try to sell you AI books ... of course.

> It's a huge shock to me that fiction which, in this test, scores higher than great authors who write wonderful stories full of soul and heart and wit and intelligence, can be generated by the multiplication of a relatively small number of not particularly large matrices. On the face of it it undercuts so many things we value about being human.

В настоящий момент AI не может писать хорошие, последовательные истории большого размера, но прогресс не стоит на месте. И повторю, что промтп для написания историй был очень простой - если потратить больше времени на написание промта, результат будет ещё лучше.

Обсуждение на reddit и ycombinator.
👍32🤯2😱2🔥1
В этот раз уже не спикер, но ведущий. Приходите посмотреть топовые доклады в летний кинотеатр, пока лето не кончилось ;)
Forwarded from DevRel Playbook
Привет! Проверим, что нового в ML?

27 августа в 19:00 подтягиваемся в Парк Горького на площадку «Сфера X5»!

X5 Tech | AI всегда в курсе передовых технологий, и ICML 2025 в Ванкувере не стала исключением. Там представили работы лучших специалистов в области машинного обучения.
Мы собрали экспертов, чтобы разобраться, что из этого реально круто и как это можно использовать в бизнесе.

Ведущие:

Артём Ерохин, ведущий инженер нейронных сетей в X5 Tech | AI
Дарья Андреева, старший инженер нейронных сетей в X5 Tech | AI

Эксперты:

🖤 Максим Павлов, руководитель управления продуктивизации ИИ в X5 Tech | AI

🎓 Петр Лукьянченко, Head of AI in Mathematical Finance Laboratory, HSE

🏦 Даниил Гаврилов, руководитель Research-команды AI-Центра Т-Банка

❤️ Александра Мурзина, руководитель AI-проектов в AI Marvel, Яндекс

Что будем делать:

🍿
Есть попкорн - обсуждать доклады

🎧Слушать умных людей и задавать умные вопросы, используя свой неискусственный интеллект

🪩Общаться и шутить с реальными людьми


Регистрироваться тут!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1🤣1
Forwarded from Data Secrets
Очень понравилась свежая статья "Be like a Goldfish, Don't Memorize!": исследователи из университета Мэриленда предлагают аналог дропаута для токенов

Проблема рассматривается следующая. LLM часто запоминают части тренировочного датасета и могут воспроизводить их дословно. И это приводит к ряду очень неприятных последствий: сюда все иски за авторские права, утечки конфиденциальных данных и лицензированного кода и прочее.

В общем, загвоздка достаточно значимая, и решать ее пытаются в основном через unlearning после обучения или Differential Privacy. И то и другое приводит к понижению точности и в целом не очень надежно работает.

Здесь авторы предлагают более фундаментальный подход. Интуиция: модель не сможет воспроизвести дословно последовательность, если часть токенов никогда не участвовала в вычислении ошибки.

А значит, мы можем случайным образом исключать часть токенов из лосс-функции на обратном проходе. Это и не очень сильно портит метрики, потому что общие закономерности языка модель все-равно выучивает, и на 100% исключает возможность дословного повторения текстов.

Формально процесс обучения остается ровно таким же, меняется только лосс. В него добавляется коэффициент G_i, который равен единице, если токен учитывается в бэкпропе, и нулю – если нет. Формулу шутливо назвали Goldfish Loss: по аналогии с рыбкой, которая тут же забывает то, что увидела секунду назад.

В итоге если при стандартном лоссе процент точных повторений выученных текстов – примерно 85%, то на Goldfish Loss – 0. И по качеству просаживается не сильно, нужно просто либо чуть больше данных, либо чуть больше шагов. Плюс, применять на всем датасете не обязательно, можно использовать только для чувствительных данных.

Изящно, скажите?

arxiv.org/pdf/2406.10209
❤‍🔥4🔥3
#cinema

Сходили в пятницу на "Exit 8" в кино посмотреть (смотрели с субтитрами на японском).

Мне понравилось. Но тут, конечно, на любителя. Как триллер (и даже скорее хоррор) работает неплохо. Но внутри есть дополнительные смыслы (впрочем, весьма явные, хотя есть и немного более глубокие, но тут может просто СПГС взыграл у меня), которые могут показаться не к месту.

Вайб фильма (и элементы сюжета) напомнили "1408" (который мне как раз очень нравится). Ну и отсылка к Кубрику клевая (впрочем, может еще один СПГС).

А еще интересно вместе с героями "искать отличия" (сорян, небольшой спойлер, но понять сложновато без контекста).

Если подводить итог - то это не absolute cinema, но и не совсем скука. Я бы оценил на 7.5/10, но как я сказал, есть моменты "на любителя".

P.S. На фото топовый персонаж фильма. Такого в метро увидишь - уйдешь с дополнительным кирпичом в штанах.
🔥3
По тому, что там написано на слайдах, выглядит, что просто сценарий скармивали LLM-ке с каким-то не особо сложным промтом поверх. Вот примерно такие же комментарии дают LLM, если не особо заморачиваясь с промптом давать им почитать что-то из рассказов или сценариев (проверено на себе).

Ну ок, ИИ засчитан (наверное)...
Forwarded from Не Скорсезе
Кион сделал ИИ-модель оценки («скоринга», как они говорят) сценариев, которые приходят в компанию. Говорят, раньше приходило 500 сценариев в год, каждый надо было читать 10 часов, в итоге, выходило 16 сериалов и 5 фильмов.

В картинках: как они к этому подошли + какие рекомендации выдала их модель по реально вышедшим популярным проектам разных платформ (красным – отказать, зеленым – дать добро).

#новыйсезон2025
👎1👀1
Представьте: вы на собеседовании в Perplexity на роль ML-инженера, и интервьюер задаёт вопрос:

«Ваша RAG-система начала "галлюцинировать" в продакшене. Как вы проверите, что сломалось — retriever или generator?»


Многие кандидаты наверное скажут: «проверить точность» или «запустить больше тестов». Возможно, так и получится найти проблему, но можно пойти чуть иначе.

RAG-системы дают сбой на разных этапах, и для каждого нужны свои метрики. Общая «точность» часто не отвечает на самый важный вопрос — "А где же именно кроется ошибка?"

Ключевая идея:
Качество RAG = Производительность Retriever'а × Производительность Generator'а

Метрики Retrieval (Достали ли мы правильный контекст?)
- Contextual Relevancy: Какой процент полученных чанков действительно релевантен?
- Contextual Recall: Достали ли мы всю необходимую информацию?
- Contextual Precision: Ранжируются ли релевантные чанки выше нерелевантных?

Метрики Generation (Правильно ли LLM использовала контекст?)
- Faithfulness: Насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: Отвечает ли ответ на заданный вопрос?
- Кастомные метрики: Следует ли ответ нужному формату или стилю?

Диагностическая структура:
1️⃣ Высокий Faithfulness + Низкий Relevancy → Проблема в Retrieval
2️⃣ Низкий Faithfulness + Высокий Relevancy → Проблема в Generation
3️⃣ Обе метрики низкие → Сломан весь пайплайн
4️⃣ Обе метрики высокие → Ищите edge-кейсы

Метрика, которая ловит большинство продакшен-проблем: Contextual Recall.
Ваш retriever может находить «релевантный» контент, но упускать критически важные детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Именно поэтому RAG-системы так уверенно «галлюцинируют».

Но интервьюер может продолжить вас спрашивать:
«У вашего RAG'а точность 85%. А какой accuracy у контекста? Каков score достоверности? Вы меряете end-to-end или на уровне компонентов?»

Если ваши метрики расплывчаты, интервьюер скорее всего решит, что вы не понимаете, как работают RAG-системы в продакшене.

Подход к оценке, который отличает джунов от сеньоров:

Джун: Тестирует всё end-to-end и надеется, что сработает.
Сеньор: Внедряет метрики на уровне компонентов, автоматизированную оценку в CI/CD и мониторинг в продакшене.

Суровая реальность продакшена:
Идеальный retrieval + слабые промты = галлюцинации
Идеальная LLM + плохие чанки = нерелевантные ответы
Хороший retrieval + хорошая генерация + отсутствие мониторинга = неминуемый провал

Совет:
Упомяните оценку по методу LLM-as-a-judge.
«Я бы использовал GPT-4 для оценки faithfulness, сравнивая сгенерированные ответы с полученным контекстом, а затем отслеживал распределение скоров over time, чтобы поймать дрейф.»

Это покажет, что вы в курсе современных методов оценки.

Вопрос, который завершает интервью:
«Как бы вы реализовали такую оценку в продакшене?»


Возможный ответ:
- Автоматизированные оценки компонентов в CI/CD
- Мониторинг в реальном времени с оповещениями
- Асинхронная батч-оценка продакшен-трафика

Понимание причин сбоев RAG > заучивание архитектур трансформеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👎4👍1
2025/12/04 19:08:25
Back to Top
HTML Embed Code: