У Meta тем временем еще одна занятная работа про аналог токенизации
Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.
Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.
Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).
Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.
Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.
Текст статьи тут, с кодом можно поиграть здесь
Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.
Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.
Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).
Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.
Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.
Текст статьи тут, с кодом можно поиграть здесь
Hugging Face радуют релизами даже в празники: они выпустили большой качественный датасет по математике FineMath
Его составляли примерно также, как делали это DeepSeek для своей модели DeepSeekMath (а она очень, очень крута, подробный ее разбор тут). То есть брали CommonCrawl, обучали классификатор на аннотациях LLama-3.1-70B-Instruct и фильтровали математический контент.
В итоге получился очень приличный скейлинг. Посмотрите на график наверху: с ростом количества токенов для обучения точность модели растет заметно приятнее, чем на известных датасетах OpenWebMath и InfiMM. Это как раз за счет разнообразия и качества данных.
P.S. Какие-то любители уже даже обучили на FineMath собственного репетитора по математике (проект)
Его составляли примерно также, как делали это DeepSeek для своей модели DeepSeekMath (а она очень, очень крута, подробный ее разбор тут). То есть брали CommonCrawl, обучали классификатор на аннотациях LLama-3.1-70B-Instruct и фильтровали математический контент.
В итоге получился очень приличный скейлинг. Посмотрите на график наверху: с ростом количества токенов для обучения точность модели растет заметно приятнее, чем на известных датасетах OpenWebMath и InfiMM. Это как раз за счет разнообразия и качества данных.
P.S. Какие-то любители уже даже обучили на FineMath собственного репетитора по математике (проект)
OpenAI собирается создать собственного робота-гуманоида
Об этом сообщает The Information. Весь год компания занималась робототехникой теневым образом: они пересобирали команду робо-ресерча (вакансия), которая была расформирована четыре года назад, а также инвестировали в Figure и Physical Intelligence.
Сейчас, по данным двух инсайдеров, стартап переходит в более активную фазу и уже серьезно обсуждает и изучает возможность создания собственного робота-гуманоида.
Лицо Маска представили?
Об этом сообщает The Information. Весь год компания занималась робототехникой теневым образом: они пересобирали команду робо-ресерча (вакансия), которая была расформирована четыре года назад, а также инвестировали в Figure и Physical Intelligence.
Сейчас, по данным двух инсайдеров, стартап переходит в более активную фазу и уже серьезно обсуждает и изучает возможность создания собственного робота-гуманоида.
Лицо Маска представили?
Сэм Альтман, тем временем, снова запостил в Твиттер свой традиционный новогодний вопрос "что бы вы хотели, чтобы OpenAI cделала/исправила в 2025?"
Топ-10 самых популярных ответов:
🔵 AGI (Альтман отвечает "ок" и "🫡")
🔵 Агенты
🔵 Более длинный контекст
🔵 Улучшение качества SORA и новый Dall-E (судя по ответам Сэма новая версия SORA не за горами, а вот с text2image все неоднозначно)
🔵 Улучшение Advanced Voice Mode, учет прошлых разговоров, активация войс мода без нажатия на кнопку
🔵 Family подписка и новые гибкие тарифы
🔵 Меньше ограничений и цензуры
🔵 Снижение цен на API, новый качественный RAG
🔵 Более частные обновления моделей, новая не-thinking модель
🔵 Ускорение и удушевление моделей
❌ Писать в 2025 письмо с пожеланиями Деду Морозу
✅ Писать Сэму Альтману
Топ-10 самых популярных ответов:
❌ Писать в 2025 письмо с пожеланиями Деду Морозу
✅ Писать Сэму Альтману
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSeek опенсорснули свою новую модель V3 Chat
685 B (MoE), fp8. Бенчмарки, как и всегда у этих ребят, очень достойные. На LiveBench это теперь лучшая открытая модель, и вторая по качеству после gemini-exp-1206 среди не-ризонеров. На Aider обгоняет Sonnet, уступая только o1.
Вообще, желаем всем такой продуктивности, как у DeepSeek. Только за последний месяц они выпустили DeepSeek 2.5, поиск, DeepSeek VL2, DeepSeek-R1, и вот теперь v3.
Чекпоинт уже доступен на Hugging Face
685 B (MoE), fp8. Бенчмарки, как и всегда у этих ребят, очень достойные. На LiveBench это теперь лучшая открытая модель, и вторая по качеству после gemini-exp-1206 среди не-ризонеров. На Aider обгоняет Sonnet, уступая только o1.
Вообще, желаем всем такой продуктивности, как у DeepSeek. Только за последний месяц они выпустили DeepSeek 2.5, поиск, DeepSeek VL2, DeepSeek-R1, и вот теперь v3.
Чекпоинт уже доступен на Hugging Face
Центральный Университет – да или нет: отзыв магистра изнутри
В этом году у всех на слуху этот вуз: применяют STEM-подход в обучении, возвращают ученых с мировым именем, чтобы развивать ИИ в стране, одерживают громкие победы в престижных международных соревнованиях и т.д.
Для тех, кто думает, куда подавать документы и на что ориентироваться при выборе вуза, нашли полезную статью. Студент публикует взгляд изнутри на учебные процессы, экспертизу преподавателей, общую атмосферу, включая оснащение аудиторий. Впечатления честные и супер подробные. Пишет, кстати, как раз ML-щик, поэтому там еще много доменных деталей (например, про ридинг-клабы) и скринов описаний DS-курсов.
Читаем полностью тут
В этом году у всех на слуху этот вуз: применяют STEM-подход в обучении, возвращают ученых с мировым именем, чтобы развивать ИИ в стране, одерживают громкие победы в престижных международных соревнованиях и т.д.
Для тех, кто думает, куда подавать документы и на что ориентироваться при выборе вуза, нашли полезную статью. Студент публикует взгляд изнутри на учебные процессы, экспертизу преподавателей, общую атмосферу, включая оснащение аудиторий. Впечатления честные и супер подробные. Пишет, кстати, как раз ML-щик, поэтому там еще много доменных деталей (например, про ридинг-клабы) и скринов описаний DS-курсов.
Читаем полностью тут
Забавно: новая DeepSeek v3 на русском обозначает себя как модель от OpenAI. В то же время на английском она представляется нормально, как творение DeepSeek.
Русскоязычные датасеты что-то знают🙂
Русскоязычные датасеты что-то знают
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
А вот это просто забавно: игра Asteroids с лого ИИ-вендоров вместо врагов 🤣
И главное: создано это полностью с помощью DeepSeek v3 за несколько минут (репа)
Нашлось занятие на вечер
И главное: создано это полностью с помощью DeepSeek v3 за несколько минут (репа)
Нашлось занятие на вечер
Please open Telegram to view this post
VIEW IN TELEGRAM
Пост для тех, кто давно хотел разобраться с языковыми моделями от А до Я: ШВМ представляет свежий курс по освоению LLM с нуля
Есть два трека: LLM и DL+LLM. Первый подойдет для тех, кто хорошо знаком с глубоким обучением (стартует 27 января), второй – для тех, кто мало знает про DL, он начинается с основательного освоения пререквизитов (стартует 3 февраля).
Оба трека охватывают создание и оптимизацию языковых моделей, начиная с трансформеров и заканчивая их внедрением в готовые решения. Рассматриваются все этапы разработки: от подготовки данных до деплоя моделей и их ускорения. Посмотрите сами: на странице курса и в телеграме ребят есть примеры занятий.
В курсе предполагается большое количество практики, а к концу у вас даже будет готовый продукт – самодельный GPT from scratch (Андрей Карпаты одобряет). В команде лекторов – преподаватели из ВШЭ, те самые эксперты, которые делали AI магистратуру вышки.
Места ограничены, и только до 31.12 включительно будет действовать скидка 40% по промокоду NEWYEAR40, так что скорее записывайтесь!
Есть два трека: LLM и DL+LLM. Первый подойдет для тех, кто хорошо знаком с глубоким обучением (стартует 27 января), второй – для тех, кто мало знает про DL, он начинается с основательного освоения пререквизитов (стартует 3 февраля).
Оба трека охватывают создание и оптимизацию языковых моделей, начиная с трансформеров и заканчивая их внедрением в готовые решения. Рассматриваются все этапы разработки: от подготовки данных до деплоя моделей и их ускорения. Посмотрите сами: на странице курса и в телеграме ребят есть примеры занятий.
В курсе предполагается большое количество практики, а к концу у вас даже будет готовый продукт – самодельный GPT from scratch (Андрей Карпаты одобряет). В команде лекторов – преподаватели из ВШЭ, те самые эксперты, которые делали AI магистратуру вышки.
Места ограничены, и только до 31.12 включительно будет действовать скидка 40% по промокоду NEWYEAR40, так что скорее записывайтесь!
Любители красивой математики, вам посвящается:
А еще если сложить первые
С Новым Годом, что-ли🎄
(1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9)² = 2025
1³+ 2³+ 3³+ 4³+ 5³+ 6³+ 7³+ 8³+ 9³ = 2025
(20 + 25)² = 2025
2025/ (2 + 0 + 2 + 5) = 225
А еще если сложить первые
(20+25)
нечетных чисел, тоже получится 2025
С Новым Годом, что-ли
Please open Telegram to view this post
VIEW IN TELEGRAM
Сколько. Ты. Зарабатываешь. OpenAI "изобрели" новое денежное определение для AGI 🤑
Вы же помните, что у OpenAI сможет официально разорвать сделку с Microsoft, если достигнет AGI? Это зафиксировано на бумаге. Но как в официальных документах определяется размытое понятие AGI? Об этом никто не знал, до вчерашнего дня.
Вчера The Information сообщили, что в прошлом году обе компании подписали соглашение, в котором говорится, что OpenAI достигнет AGI, когда разработает системы ИИ, которые смогут генерировать не менее 100 миллиардов долларов прибыли в год. Вот такое вот простое финансовое определние.
Кстати, тут получается некоторое расхождение. Ведь Альтман говорил, что AGI появится в 2025. А потом Альтман говорил, что у OpenAI вообще не будет прибыли до 2029. Многие пишут, что OpenAI скорее всего объявит об AGI раньше, чем будут выполнены условия о 100млрд. И хотя в таком случае договор все равно можно будет расторгнуть, Microsoft получит доступ к моделям OpenAI еще на десятилетия вперед (хорошо устроились!).
Вы же помните, что у OpenAI сможет официально разорвать сделку с Microsoft, если достигнет AGI? Это зафиксировано на бумаге. Но как в официальных документах определяется размытое понятие AGI? Об этом никто не знал, до вчерашнего дня.
Вчера The Information сообщили, что в прошлом году обе компании подписали соглашение, в котором говорится, что OpenAI достигнет AGI, когда разработает системы ИИ, которые смогут генерировать не менее 100 миллиардов долларов прибыли в год. Вот такое вот простое финансовое определние.
Кстати, тут получается некоторое расхождение. Ведь Альтман говорил, что AGI появится в 2025. А потом Альтман говорил, что у OpenAI вообще не будет прибыли до 2029. Многие пишут, что OpenAI скорее всего объявит об AGI раньше, чем будут выполнены условия о 100млрд. И хотя в таком случае договор все равно можно будет расторгнуть, Microsoft получит доступ к моделям OpenAI еще на десятилетия вперед (хорошо устроились!).
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Secrets
Сколько. Ты. Зарабатываешь. OpenAI "изобрели" новое денежное определение для AGI 🤑 Вы же помните, что у OpenAI сможет официально разорвать сделку с Microsoft, если достигнет AGI? Это зафиксировано на бумаге. Но как в официальных документах определяется размытое…
Кажется, мы стали забывать старое доброе…
Эксперты рассказали, в каких направлениях будет развиваться ИИ в ближайшее время
В главных трендах — мультимодальные модели искусственного интеллекта, больше открытого кода, высоко персонализированные сервисы и развитие ИИ-агентов.
В статье приведены мнения экспертов из разных компаний. В том же Яндексе говорят про тренд на Open Source — открытые модели увеличат скорость разработки инновационных продуктов и создания более доступных технологий.
В главных трендах — мультимодальные модели искусственного интеллекта, больше открытого кода, высоко персонализированные сервисы и развитие ИИ-агентов.
В статье приведены мнения экспертов из разных компаний. В том же Яндексе говорят про тренд на Open Source — открытые модели увеличат скорость разработки инновационных продуктов и создания более доступных технологий.