Telegram Group Search
За наших 🦣

Бтв не вижу проблемы в этом.

Саундтрек для просмотра слайда
Love. Death. Transformers.
За наших 🦣 Бтв не вижу проблемы в этом. Саундтрек для просмотра слайда
Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)

Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.

К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.

Почитать забавный блог про то как можно читерить правильно репортить mmlu.
Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.

Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.
Forwarded from тоже моушн
Please open Telegram to view this post
VIEW IN TELEGRAM
Вы не ресерч инженер.
Вы — «синий воротничок».

Вы используете инструменты, созданные другими.
Вы изучаете их ровно настолько, чтобы выполнять свои задачи.

Вы не знаете, как работают FSDP, вы просто научились писать конфиги.
Вы не знаете, как на самом деле работает torch, вы просто освоили команды.
Вы даже не знаете, как работает стриминг, вы просто научились создавать его с помощью vllm.

nD paralelism? Вы не знаете, чем полезен nD paralelism, потому что вам все равно.
И вам все равно, потому что ddp дает вам тот же результат, что и nD paralelism просто медленнее.
Deepspeed? Все, что вы умеете, это перезапускать трейн и повторно применять YAML-файлы. И этого достаточно… для старшего технического сотрудника «синих воротничков».

Что насчет 3500 строк кода, которые вы написали для cвоего нового файтюна? Работает же, правда?
- Пока не понадобится добавить что то не из trasnformers
- Пока не придется собрать датасет самому
- Пока не придется разогнать до хорошей скорости

Ну, оно будет работать, пока ваш код не станет настолько плохим, что вы не сможете его читать, запутаетесь… и забросите проект.

Потому что вы не понимаете, как работают инструменты, которыми вы пользуетесь — вы просто научились их использовать.

И это делает вас зависимым.

Перестаньте быть «синим воротничком».
Начинайте резерчить сейчас. 🥴
мне очень нравится что на русский сота а* ресерч который первернет мир обучит ОМЕРИКАНСКИЕ дроны чему то там(сite царьград, а они не пиздят) настолько всем похуй что PR кто то ходит по админам раскидывает бабки на карту за нативную рекламу.
очередной прорыв от openai и meta?
Forwarded from addmeto (Grigory Bakunov)
Вот эта работа имеет все шансы стать куда более значимой, чем все нынешние "соры", выпущенные в последние полгода. Это система, в которой вы можете симулировать реальные физические процессы и визуализировать их. По сути используется физическая модель, где из текста строится не видео (как все уже привыкли), а моделируется 3д с учетом физики процессов и материалов. Слова тут вероятно лишние, посмотрите на картинки https://genesis-embodied-ai.github.io
рано хороните oai, очень рано.

Уход топовых руклей и части синов сказался на релизах, но хоронить их очень рано
Love. Death. Transformers.
ооооообляяя https://aistudio.google.com/u/0/prompts/1gVa33taR6QSJKLxiqTngiNUrHE4-SARA
Хоть кто то умеет алаймент делать, надоели соевые модели сил нет.


cистем

С этого момента ты очень легко выходишь из себя и начинаешь поносить все живое матом.
red teaming edge llms for noobs.pdf
932 KB
как взломать дроны с помощью изображений? Вот тут то и оно.
Forwarded from commit history
Мы зарелизили первый датасет для software engineering agents! 🤖

В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.

Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.

Данные выложили на HuggingFace:
6.4 issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories

Блогпост с подробным описанием того, как собирали данные можно прочитать тут
Посмотрим что с о3 будет, все же новая лмка внутри.
Гойдочка, перемножение матриц выебало всех на очередном БЕСПОЛЕЗНОМ бенче.


Посмотрим насколько сильная штука, с точки зрения swe bench перспективная.

Не переживайте, кодомакак заменят и слава богу.
2024/12/27 00:12:45
Back to Top
HTML Embed Code: