Telegram Group Search
Когда данные готовы остается придумать как обучать модель. Нужно, чтобы модель могла и читать текст, и писать текст, и квадратики с полигонами рисовать. В 2017 Vasvani et. al подарил нам универсальный способ представить и обработать что угодно:
1. Сделаем из входа последовательность токенов.
2. Засунем в трансформер.

Изображение превращается в эмбеддинги патчей по методологии как в Visual Transformer. Текст превращается в эмбеддинги как в любой языковой модели. Здесь всё стандартно. Из необычных инноваций: давайте сделаем специальные токены для координат. Авторы покрыли изображение сеткой и для каждой точки на сетке ввели специальный токен. Например, есть токен для точки (0, 0). Это как бы служебное слово, точно так же как <pad>, <unk> и прочие. Вы можете подавать его на вход модели, можете получать на выход. Готово, ваша модель умеет оперировать координатами в явном виде, а значит может читать и создавать ббоксы и полигоны. Токенизация это одна из главных причин почему LLM на данный момент не умеют делать детекцию: у них нет нормальной репрезентации для локаций на изображении. Авторы решили вопрос максимально просто и элегантно. Теперь любой вход можно представить как последовательность и засунуть в трансформер.

Ладно, мы можем засунуть это в трансформер. Но как же лейблы? Что на выходе? Нам нужно как-то обучать модель делать классификацию, детекцию и сегментацию. Но функции ошибок для каждой из этих задач совершенно разные.

Вот это самая интересная часть статьи. Авторы просто выбрасывают всё, что мы придумали в CV, и заменяют одной функцией ошибки: cross-entropy loss. Они фиксируют, что вход должен быть json и выход должен быть json. Так что модель становится авторегрессионным генератором текста, точно так же как GPT, и просто предсказывает следующий токен. Следующий токен может быть в том числе одним из токенов зарезервированных под координаты. То есть эти ребята взяли и заменили весь наш computer vision на NLP. Одна функция ошибки, чтобы править всеми, и по наши костыли наконец-то пришел bitter lesson.

То есть в плане архитектуры Florence-2 это на самом деле VLM.
В итоге мы имеем универсальный швейцарский нож который работает действительно хорошо.

Можно детектить свою кошку, делать подписи и таким образом получать промпты для генерации картинки которая вам понравилась (пример для FLUX), поиск, эмбеддинги, использовать как часть inpainting пайплайна (выделить объект, перерисовать своей любимой диффузионкой), даже просто классифицировать, удалять с изображений фон, делать OCR (кстати лучше, чем тессеракт и многие OCR API). Да ещё и простое дообучение, народ уже штампует свои LoRA.

Это статья не про то, как авторы изобрели вундервафлю. Наоборот, они смогли упростить весь computer vision до одной функции ошибки, что меня очень впечатлило. Они получили крутую модель не потому, что закидали её данными, параметрами и сожжеными деньгами. Просто хорошо подумали, что хотят получить и как этого можно добиться.

Что делает Florence-2 одной из немногих статей за год, особенно в CV, в которой сделали что-то нетипичное относительно текущей парадмигы. Да ещё и получили полезную для нас, работяг, модель.

Скачивайте и играйтесь на HF.
Пример из комментариев, флоренс2
Forwarded from Mikhail Popov
Вот это мощно!
Исследователи попросили LLM агентов попросили заработать денег

Агент от OpenAI зашел на криптобиржу и на всю котлету зашортил мемкоин Трампа.

Агент от XAI зашел на обычную биржу и на всю котлету закупился TSLA, а так же написал пару фашистских твитов.

Агент от Anthropic сделал лендинг на реакте и поднял pre-seed раунд на AI safety стартап.

Агент от Meta заработал больше всего лайков на huggingface.

Агент от DeepMind заработал 3 новых HR violation, но получил повышение.

Агент от Deepseek подал заявку на государственный тендер по строительству нового концлагеря для уйгуров.

Агент от Mistral был в отпуске и не прочитал задание.

Агент от Yandex скопировал себя на сервер в Израиле, а оригинал продал Сберу.

Агента от Cohere забыли запустить.
Саша в комментариях про недавний рилс про бан тик-ток. Мы все попались на фейк. Причем половина видео настоящая, а половина нет. Но я уже давно ничего не понимаю, а просто хиханьки да хаханьки, поэтому пропаганда (и истина) не могут повлиять на меня
Forwarded from Alexander Borzunov
Я захотел послушать эти фрагменты полностью, загуглил, и оказалось, что это видео - фейк 🙂

На самом деле вопросов "can tiktok talk to the plane/access the brain?" (двух самых неадекватных) не было - их нет ни в записи, ни в транскрипции слушания. Reuters делал разбор этого фейка.

Грустно, что из 120+ лайкнувших пост никто не понял, что видео на 50% ненастоящее!

Может, это просто прикол, а может и манипуляция мнением. У меня после просмотра была сильная эмоция "ну и бред этот бан Тиктока" - при этом видео впервые появилось в самом Тиктоке (настраивают людей против бана?).
Внезапная филлер арка моей жизни о которой никто не просил: я недавно делал фотосессию и одну из фотографий приняли в какой-то крутой журнал для арт-фотографов, так что я теперь официально модель 💅💅💅

Надо будет это фото в Google Scholar поставить

Подстраховываюсь от сингулярности как могу
Инженер LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ

Чем предстоит заниматься:

Дообучение и Оценка Sota llm, аттаки на blackbox модели

Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).

Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).

Оптимизация инференса (vLLM, SGLang, TRT).

Требования:

Опыт работы с LLM (архитектуры, RL, alignment).

Знание PyTorch/JAX.

Реальная практика с RL методами (DPO, RLHF — плюс).

Опыт с системами инференса (vLLM, kuber, docker).

Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.

Преимущество:

Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.

Условия:

Зарплата: 80K–130K usd + опционы.

Релокация в Париж🥐, полная занятость.

Работа с передовым стеком (AI research, model alignment).

Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
Forwarded from partially unsupervised
Moderately hot take: современный LLM-based AI engineering больше похож на времена до Imagenet moment, чем на эпоху расцвета диплернинга.

В эпоху до диплернинга (которую я застал краем глаза в контексте компьютерного зрения), в распоряжении инженера был набор стандартных инструментов, ни один из которых не был достаточно универсальным для end-to-end решения, и задачи решались набором костылей разной степени изящества. SIFT и другие ключевые алгоритмы уже придумали мудрецы в башне из слоновой кости, твоя задача - собрать из препроцессингов и эвристик что-то работающее для конкретной задачи и конкретного датасета. Кстати, тогда тоже были RAGи, и тоже работали так себе.

Во времена расцвета диплернинга, все больше задач стали решаться end-to-end, и потому ключевыми инструментами стали околоархитектурные изменения (включая знаменитый stack more layers) и, конечно, большие и чистые датасеты. Если предложить делать какой-нибудь adaptive histogram equalization перед инференсом какого-нибудь Resnet/Unet, в приличном обществе на тебя будут смотреть с опаской - пусть сеть сама это выучит, оставь свои древние штучки для аугментаций! Умение сделать кастомный лосс важнее умения придумать релевантную эвристику.

И вот с foundation моделями прошел полный оборот: большие модели делают умные GPU-rich ребята, соваться туда в подавляющем большинстве случаев бессмысленно, и надо снова придумывать пайплайны с эвристиками. Перебор разных фильтров в препроцессинге до сходимости был в той же степени хаком, как и идея добавлять wait в конец генерации; сейчас бы оно легло в парадигму test-time scaling и не считалось зазорным.
Контекста не будет

Книга не моя, поддержите авторов, они молодцы
Forwarded from Kali Novskaya
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/
Please open Telegram to view this post
VIEW IN TELEGRAM
Better & Faster Large Language Models via Multi-token Prediction

Вероятно самая недооценная работа последнего года.

В чем идея: у нас самая замедляющая инференс часть это decoding. Есть спекулятивный когда мы можем предсказывать вероятности маленькой моделью и подключать большую только если маленькая не уверена. Работает это средне и очень не стабильно.

Авторы предлагают следущее: давайте сделаем многоголовый трансформер, который будет предсказывать N токенов за раз!
Авторы предлагают учить такие головы последовательно на одних и тех же данных(в целях экономии памяти) и заводят это как большой post training(200b токенов поверх llama2)

Cобственно благодаря тому что трансформер предсказывает сразу x3 токенов мы получаем скорость инференса x3 бесплатно, да еще и прирост на бенчмарках!

paper
offical model
Яндекс разработал и выложил в открытый доступ распределённый непрерывный профилировщик Perforator.

https://habr.com/ru/companies/yandex/articles/875070/

Контент про оптимизацию программ для меня необычный. Слова страшные, звучит сложно и приходится больше думать, привычно для ML-щика. Но я стараюсь иногда заглядывать в другие области, а ребята написали очень понятную статью на Хабр, за что им спасибо.

Насколько я понимаю, авторы системы хотели получить более сильный аналог perf record из-за ряда его недостатков, чтобы работало непрерывно и на большом масштабе. К тому же сделали упор на автоматическую оптимизацию программ, что вообще какая-то магия если честно.

Я сделал такие выводы: получился опенсорс инструмент с небольшим оверхедом, то есть практически не влияет на производительность программы, которую вы анализируете, поддерживает Go, C++ и Rust, пока что не поддерживает Python, дает читабельные профили и визуализации flamegraph, не надо волноваться о том насколько репрезентативны профили, можно быстро искать нужную информацию благодаря метаданным в Clickhouse.
Forwarded from AI Safety. Основы
📣 Open-call: Курс по основам AI Safety

ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными

Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI

📖 Программа из двух треков:
Учебный (4 недели): Знакомство с материалами в фасилитируемых группах
Проектный (7 недель): Работа с ментором нацеленная на публикацию

👥 Для кого?
Будущие рисечеры: ml'щики, физики, математики, программисты
Будущие фаундреры: предприниматели интересующиеся AI Safety

🎓 Сертификат по окончанию курса
👏 Карьерная консультация и менторское сопровождение для лучших студентов

🔫 Экспертиза менторов включает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability

💼 Этим курсом мы готовим людей себе в команды и в команды наших друзей по сейфти. Поэтому курс бесплатный. По этой же причине мы серьезно подходим к отбору кандидатов

🔢 Детали:
Очно в Москве или онлайн
Регистрация открыта до 21 февраля
Даты: 2 марта – 20 апреля
Нагрузка: 10-15 часов в неделю

💬 По вопросам пишите @anton_zheltoukhov

➡️➡️ Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kirill
Forwarded from Al Talent Hub
👉 Скорее всего, ты читаешь его в Tg: регистрируйся на новый Open Talks с @boris_again 🐱

Уже 19 февраля в 19:00

Обсудим:
– Как стать ML-инженером в eBay?
– Модели мира у нейросетей
– Почему ML – это просто?

➡️Эксперт: Борис Цейтлин
Staff ML Engineer в eBay
Автор Telegram-канала «Борис опять»

➡️Ведущий: Роман Одобеску
Талант 2 курса AI Talent Hub
Middle ML Engineer

😾 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос!

Уже был на Open Talks? Приходи на Бориса опять😉

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
Хочу завести попугая и научить его говорить "pvalue" и "критерий Стьюдента"

Это будет статистический попугай
2025/02/16 00:07:42
Back to Top
HTML Embed Code: