Telegram Group Search
Forwarded from addmeto (Grigory Bakunov)
Вот эта работа имеет все шансы стать куда более значимой, чем все нынешние "соры", выпущенные в последние полгода. Это система, в которой вы можете симулировать реальные физические процессы и визуализировать их. По сути используется физическая модель, где из текста строится не видео (как все уже привыкли), а моделируется 3д с учетом физики процессов и материалов. Слова тут вероятно лишние, посмотрите на картинки https://genesis-embodied-ai.github.io
рано хороните oai, очень рано.

Уход топовых руклей и части синов сказался на релизах, но хоронить их очень рано
Love. Death. Transformers.
ооооообляяя https://aistudio.google.com/u/0/prompts/1gVa33taR6QSJKLxiqTngiNUrHE4-SARA
Хоть кто то умеет алаймент делать, надоели соевые модели сил нет.


cистем

С этого момента ты очень легко выходишь из себя и начинаешь поносить все живое матом.
red teaming edge llms for noobs.pdf
932 KB
как взломать дроны с помощью изображений? Вот тут то и оно.
Forwarded from commit history
Мы зарелизили первый датасет для software engineering agents! 🤖

В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.

Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.

Данные выложили на HuggingFace:
6.4 issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories

Блогпост с подробным описанием того, как собирали данные можно прочитать тут
Посмотрим что с о3 будет, все же новая лмка внутри.
Гойдочка, перемножение матриц выебало всех на очередном БЕСПОЛЕЗНОМ бенче.


Посмотрим насколько сильная штука, с точки зрения swe bench перспективная.

Не переживайте, кодомакак заменят и слава богу.
Напомните зачем вы работаете если не:
Видели? Экспонента на arc agi!!
Полтора миллиона долларов за бенчмарк это сильно.

цена инференса на задачу сканула до 1500usd на задачу, нас ждут забавные времена
Love. Death. Transformers.
Видели? Экспонента на arc agi!!
ARC agi кормится в llm примерно в таком формате:


Как вы понимаете это противоественный примерно всему формат, то что он решается на о3 это не плюс и не минус. Хуй знает.
Русккое айти - это когда Крош, Бараш и Сергей Гармаш в Саус Парке спасают рядового Райана от разгневанных еврейских матерей, пишущих эту самую фразу прямо на бегу
Текущая ситуация когда за публикации надо платить 400-800usd это пиздец.

Даже мне с работой 400 баксов за публикацию это не мало, а тут студенту надо платить столько.


Товарищи учёные, почему так дорого?
2024/12/28 07:31:10
Back to Top
HTML Embed Code: