Telegram Group Search
зря вы доверили мне писать статью я сдвгшник+не умею верстать, я ебну столько инфорамации сколько влезает в каждый квадратный сантиметр.

Вот бы во всех статьях были такие графики, вот правда, никаких один график на страницу, плотная инфа и не надо туда сюда листать. Да и статья клевая
Forwarded from MS ODS
Всем привет!

После моего выступления про Межславянский переводчик сообщество проявило интерес, а основной вопрос был «Как помочь?»

Потому я решил выкладывать конкретные проблемы, которые мы пытаемся решить в рамках проекта

Присоединяйтесь, тут я буду публиковать актуальное состояние и артефакты, а в чате го обсуждать
🎧 YaMBDa: один из крупнейших open-source датасет пользовательских взаимодействий в музыкальной стриминговой среде от Яндекса

Рекомендательные системы давно страдают от нехватки реалистичных, масштабных и современных датасетов. MovieLens, Amazon Reviews, Steam и даже Criteo либо слишком малы, либо ограничены по сигналам и домену, либо плохо документированы. Это мешает исследователям разрабатывать модели, конкурентоспособные в продакшн-условиях.

Исследователи Яндекса решают эту проблему, выложив YaMBDa — датасет с 4.79 млрд событий взаимодействий пользователей с треками в Яндекс Музыке и “Моей Волне”. Это анонимизированные данные 1 млн пользователей и несколькими млн треков, включающие:
— Прослушивания (implicit feedback)
— Лайки, дизлайки, анлайки и андизлайки (explicit feedback)
— Флаг is_organic,
отличающий органические действия от тех, что были вызваны рекомендациями
— Точные timestamp’ы событий
— Нейросетевые эмбеддинги треков, полученные через сверточные сети (CNN)

— Данные распределены в формате Apache Parquet, готовом для масштабной обработки (Spark, Polars, Pandas)

Оценка алгоритмов
Для честной offline-оценки в YaMBDa используется Global Temporal Split (GTS) — это означает, что события разделяются по времени, сохраняя естественную последовательность. Это важно: в реальности мы не знаем будущего, а LOO-сплиты могут подглядывать за горизонт.

Предоставлены baseline-алгоритмы:
MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA, SASRec — всё, чтобы сразу запускать эксперименты.

Метрики:
— NDCG@k: качество ранжирования
— Recall@k: полнота рекомендаций
— Coverage@k: охват элементов в рекомендациях

Большинство открытых музыкальных датасетов, таких как Music4All или Million Song Dataset, фокусируются на контенте или небольших взаимодействиях. YaMBDa — первый truly large-scale набор с поведенческой историей, органикой, временными метками и богатой структурой сигналов. С ним можно тестировать алгоритмы в разных областях, не только в музыкальных стримингах.

Hugging Face: https://huggingface.co/datasets/yandex/yambda
Forwarded from CV Time
Yandex Alchemist: открытый датасет для буста text-to-image генерации

Раньше T2I-модели обучали в один этап — претрейн на большом, довольно грязном датасете интернет-данных. В 2023 году Meta в техрепорте EMU предложили делать файнтюн на маленьком датасете исключительного качества и за счёт этого существенно бустить результат генерации. Правда, они ничего не сказали о том, как такой датасет собрать.

Команда YandexART тоже занималась этой задачей, и сегодня мы делимся результатами своей работы — датасетом Alchemist. Он состоит из 3 350 пар «картинка-текст» и имеет лицензию Apache 2.0, пользуйтесь.

Alchemist сокращает дистанцию между крутыми потюненными закрытыми моделями и открытыми, для которых такой тюнинг недоступен. Ранее сообществу был доступен только пофильтрованный на эстетичность кусочек LAION и файнтюн-датасеты под узкий домен, например аниме или живопись. LAION часто не давал существенного прироста качества, а файнтюны под узкий домен ограничивали возможности генерации за его пределами.

Ниже мы подробно рассказываем, как получить датасет уровня Alchemist, имея лишь сырой набор интернет-данных. Отметим, что весь пайплайн — про картинки. Мы считаем, что так правильно: тексты потом лучше сгенерировать синтетические.

Итак, стартуя с датасета на 10 млрд примеров, мы выбрали картинки высокого разрешения без NSFW-контента и удалили те, что содержали вотермарки, имели низкое качество и были неэстетичны. Когда осталось примерно 300 млн изображений, дальнейшее выкручивание порогов фильтрации не помогало: модели недостаточно чувствительны, чтобы отделять хорошие картинки от великолепных. Выбирать руками лучшее из такого большого набора — тоже сомнительная затея.

На этом этапе мы предположили, что предобученная диффузионка может сама знать, какие картинки хорошие, а какие — не очень. Пробовали подходы из области dataset pruning, например, пропускать картинки через модель и смотреть на значение лосса. Оказалось, что так отбираются только самые простые изображения — абстрактные иллюстрации, вроде обоев на рабочий стол. В них немного деталей и их легко моделировать, но на файнтюне от них мало толку.

В итоге нам пришлось придумать свой метод, суть которого в следующем.

1. Возьмём 1000 картинок из наших 300 млн и разметим на условно плохие (LQ) и хорошие (HQ). Хорошими будем считать те, у которых высокие эстетичность и техническое качество, умеренная наполненность контентом.
2. Смастерим общий промт, который будет содержать перечисление желаемых характеристик: “aesthetic”, “high quality” и т. д.
3. Дальше будем брать LQ- и HQ-картинки, зашумлять их до какого-то t, подавать в нашу предобученую диффузионку вместе с промтом и смотреть, что происходит со значениями в cross-attention.

Оказывается, что на основе нашей небольшой и грубой разметки можно выделить комбинации активаций в cross-attn и токенов, которые будут хорошо отделять изображения с нужными нам свойствами. Если просуммировать эти значения, получим скаляр, который и будет нашим скором качества изображения. Проскорив таким образом 300 млн картинок, мы выбрали топ-3350 — это картинки из нашего датасета.

Дальше осталось сделать тексты — исходные из интернета могут быть ошибочны, содержать лишнюю или упускать нужную информацию. Наше наблюдение: лучше всего работают умеренно подробные промты, похожие на те, которые пишет скорее увлечённый пользователь, чем профессиональный промпт-инженер. YandexVLM как раз умеет подстраиваться под нужный формат. С её помощью мы сгенерировали тексты для каждой картинки, получив датасет Alchemist.

Чтобы убедиться в обобщаемости датасета и метода, мы сделали и выложили файнтюны SD 1.5, SD 2.1, SDXL-base 1.0, SD 3.5 Medium и Large. У всех файнтюнов растёт эстетичность и наполненность генераций, которую мы называем “image complexity”. Подробнее о методике и экспериментах читайте в препринте.

Статью подготовили Валерий Старцев, Александр Устюжанин, Алексей Кириллов, Дмитрий Баранчук, Сергей Кастрюлин

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from commit history
Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋

Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.

Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.

Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.

P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
Вместе с Cloud․ru собрали модели, которые реально работают:
- отличная поддержка русского,
- быстрый старт без боли,
- легко встраиваются в агентов и ассистентов,
- бюджетно гоняются

Эти модели — идеальный выбор для MVP, экспериментов и продакшн-инференса.
Всё open-source, а лучшее место чтобы развернуть опенсурс в России быстро и выгодно — Evolution ML Inference
Forwarded from Vikhr models
Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer
2025/06/14 21:47:05
Back to Top
HTML Embed Code: