lovedeathtransformers 9372 Telegram Group

Love. Death. Transformers.

зря вы доверили мне писать статью я сдвгшник+не умею верстать, я ебну столько инфорамации сколько влезает в каждый квадратный сантиметр.

Вот бы во всех статьях были такие графики, вот правда, никаких один график на страницу, плотная инфа и не надо туда сюда листать. Да и статья клевая

7.8K viewsedited 16:23

Love. Death. Transformers.

Forwarded from MS ODS

Всем привет!

После моего выступления про Межславянский переводчик сообщество проявило интерес, а основной вопрос был «Как помочь?»

Потому я решил выкладывать конкретные проблемы, которые мы пытаемся решить в рамках проекта

Присоединяйтесь, тут я буду публиковать актуальное состояние и артефакты, а в чате го обсуждать

Дратути Антон

Сегодня я в Белграде. Заглянул на Датафест.

Послушал интереснейший доклад от Салавата Гарифуллина «Один язык, много народов:
Как я создал первый ИИ-переводчик для славянской интерлингвы».

Я надеюсь, выйдет запись и вы сможете заценить. Таких докладов да…

7.1K views07:50

Love. Death. Transformers.

🎧 YaMBDa: один из крупнейших open-source датасет пользовательских взаимодействий в музыкальной стриминговой среде от Яндекса

Рекомендательные системы давно страдают от нехватки реалистичных, масштабных и современных датасетов. MovieLens, Amazon Reviews, Steam и даже Criteo либо слишком малы, либо ограничены по сигналам и домену, либо плохо документированы. Это мешает исследователям разрабатывать модели, конкурентоспособные в продакшн-условиях.

Исследователи Яндекса решают эту проблему, выложив YaMBDa — датасет с 4.79 млрд событий взаимодействий пользователей с треками в Яндекс Музыке и “Моей Волне”. Это анонимизированные данные 1 млн пользователей и несколькими млн треков, включающие:
— Прослушивания (implicit feedback)
— Лайки, дизлайки, анлайки и андизлайки (explicit feedback)
— Флаг is_organic, отличающий органические действия от тех, что были вызваны рекомендациями
— Точные timestamp’ы событий
— Нейросетевые эмбеддинги треков, полученные через сверточные сети (CNN)
— Данные распределены в формате Apache Parquet, готовом для масштабной обработки (Spark, Polars, Pandas)

Оценка алгоритмов
Для честной offline-оценки в YaMBDa используется Global Temporal Split (GTS) — это означает, что события разделяются по времени, сохраняя естественную последовательность. Это важно: в реальности мы не знаем будущего, а LOO-сплиты могут подглядывать за горизонт.

Предоставлены baseline-алгоритмы:
MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA, SASRec — всё, чтобы сразу запускать эксперименты.

Метрики:
— NDCG@k: качество ранжирования
— Recall@k: полнота рекомендаций
— Coverage@k: охват элементов в рекомендациях

Большинство открытых музыкальных датасетов, таких как Music4All или Million Song Dataset, фокусируются на контенте или небольших взаимодействиях. YaMBDa — первый truly large-scale набор с поведенческой историей, органикой, временными метками и богатой структурой сигналов. С ним можно тестировать алгоритмы в разных областях, не только в музыкальных стримингах.

Hugging Face: https://huggingface.co/datasets/yandex/yambda

huggingface.co

yandex/yambda · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

7.6K viewsedited 10:01

Love. Death. Transformers.

@GrokAI is it true?

7.0K views18:01

Love. Death. Transformers.

Forwarded from CV Time

Yandex Alchemist: открытый датасет для буста text-to-image генерации

Раньше T2I-модели обучали в один этап — претрейн на большом, довольно грязном датасете интернет-данных. В 2023 году Meta в техрепорте EMU предложили делать файнтюн на маленьком датасете исключительного качества и за счёт этого существенно бустить результат генерации. Правда, они ничего не сказали о том, как такой датасет собрать.

Команда YandexART тоже занималась этой задачей, и сегодня мы делимся результатами своей работы — датасетом Alchemist. Он состоит из 3 350 пар «картинка-текст» и имеет лицензию Apache 2.0, пользуйтесь.

Alchemist сокращает дистанцию между крутыми потюненными закрытыми моделями и открытыми, для которых такой тюнинг недоступен. Ранее сообществу был доступен только пофильтрованный на эстетичность кусочек LAION и файнтюн-датасеты под узкий домен, например аниме или живопись. LAION часто не давал существенного прироста качества, а файнтюны под узкий домен ограничивали возможности генерации за его пределами.

Ниже мы подробно рассказываем, как получить датасет уровня Alchemist, имея лишь сырой набор интернет-данных. Отметим, что весь пайплайн — про картинки. Мы считаем, что так правильно: тексты потом лучше сгенерировать синтетические.

Итак, стартуя с датасета на 10 млрд примеров, мы выбрали картинки высокого разрешения без NSFW-контента и удалили те, что содержали вотермарки, имели низкое качество и были неэстетичны. Когда осталось примерно 300 млн изображений, дальнейшее выкручивание порогов фильтрации не помогало: модели недостаточно чувствительны, чтобы отделять хорошие картинки от великолепных. Выбирать руками лучшее из такого большого набора — тоже сомнительная затея.

На этом этапе мы предположили, что предобученная диффузионка может сама знать, какие картинки хорошие, а какие — не очень. Пробовали подходы из области dataset pruning, например, пропускать картинки через модель и смотреть на значение лосса. Оказалось, что так отбираются только самые простые изображения — абстрактные иллюстрации, вроде обоев на рабочий стол. В них немного деталей и их легко моделировать, но на файнтюне от них мало толку.

В итоге нам пришлось придумать свой метод, суть которого в следующем.

1. Возьмём 1000 картинок из наших 300 млн и разметим на условно плохие (LQ) и хорошие (HQ). Хорошими будем считать те, у которых высокие эстетичность и техническое качество, умеренная наполненность контентом.
2. Смастерим общий промт, который будет содержать перечисление желаемых характеристик: “aesthetic”, “high quality” и т. д.
3. Дальше будем брать LQ- и HQ-картинки, зашумлять их до какого-то t, подавать в нашу предобученую диффузионку вместе с промтом и смотреть, что происходит со значениями в cross-attention.

Оказывается, что на основе нашей небольшой и грубой разметки можно выделить комбинации активаций в cross-attn и токенов, которые будут хорошо отделять изображения с нужными нам свойствами. Если просуммировать эти значения, получим скаляр, который и будет нашим скором качества изображения. Проскорив таким образом 300 млн картинок, мы выбрали топ-3350 — это картинки из нашего датасета.

Дальше осталось сделать тексты — исходные из интернета могут быть ошибочны, содержать лишнюю или упускать нужную информацию. Наше наблюдение: лучше всего работают умеренно подробные промты, похожие на те, которые пишет скорее увлечённый пользователь, чем профессиональный промпт-инженер. YandexVLM как раз умеет подстраиваться под нужный формат. С её помощью мы сгенерировали тексты для каждой картинки, получив датасет Alchemist.

Чтобы убедиться в обобщаемости датасета и метода, мы сделали и выложили файнтюны SD 1.5, SD 2.1, SDXL-base 1.0, SD 3.5 Medium и Large. У всех файнтюнов растёт эстетичность и наполненность генераций, которую мы называем “image complexity”. Подробнее о методике и экспериментах читайте в препринте.

Статью подготовили ❣ Валерий Старцев, Александр Устюжанин, Алексей Кириллов, Дмитрий Баранчук, Сергей Кастрюлин

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

7.5K views18:16

Love. Death. Transformers.

Новый r1

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

7.2K views07:43

Love. Death. Transformers.

Forwarded from commit history

Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋

Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.

Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.

Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.

P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗

arXiv.org

SWE-rebench: An Automated Pipeline for Task Collection and...

LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training...

7.0K views10:58

Love. Death. Transformers.

Вместе с Cloud․ru собрали модели, которые реально работают:
- отличная поддержка русского,
- быстрый старт без боли,
- легко встраиваются в агентов и ассистентов,
- бюджетно гоняются

Эти модели — идеальный выбор для MVP, экспериментов и продакшн-инференса.
Всё open-source, а лучшее место чтобы развернуть опенсурс в России быстро и выгодно — Evolution ML Inference

8.2K views17:01

Love. Death. Transformers.

Forwarded from Vikhr models

Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer

6.8K views14:57

Love. Death. Transformers.

Forwarded from Denis Sexy IT 🤖

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

5.8K views15:12

2025/06/14 21:47:05
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>