Telegram Group Search
В общем, о1 релизят в публичный доступ сегодня.

Для мажоров, готовых отдать 200 баксов - о1 pro.

Сильно, конечно.

Пока прогнозы сбываются 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
Google выпустила Gemini 2.0: что нового?

А много чего! Тут: улучшенные мультимодальные возможности, включая повышенную скорость, качество, агентные способности, а также экспериментальное распознавание и локализация объектов через bounding box (!). Модель умеет “видеть”, “слышать” и “говорить”, но пока ограничена в функциях с использованием аудио. Среди новых возможностей — генерация изображений и управляемая синтезация речи.

- Bounding Box Detection: Gemini 2.0 получила экспериментальную функцию bounding box для распознавания и локализации объектов на изображениях и в видео. Это включает настройки для кастомных инструкций и нормализованные координаты для интеграции в приложения.

- Мультимодальный Live API: модель поддерживает взаимодействие в реальном времени через текст, аудио и видео с низкой задержкой. Добавлены память сессий, определение голосовой активности, выполнение функций, код и интеграция с Google Search.

- Скорость и качество: Gemini 2.0 существенно ускоряет время вывода первого токена (TTFT) по сравнению с Gemini 1.5 Flash и показывает улучшенные результаты в большинстве тестов.

- Агентные способности: расширенное понимание мультимодальных данных, точное следование инструкциям, улучшенное программирование и эффективный вызов функций для динамических задач.

- Новые возможности: Генерация изображений и управляемая синтезация речи открывают новые способы взаимодействия, но без создания людей или редактирования их изображений.

- Использование нескольких инструментов: модель может одновременно активировать разные инструменты, самостоятельно выбирая, что использовать для выполнения задач — от выполнения кода до поиска и пользовательских функций.

Примечательно, что я не нашел никакого упоминания test-time computer, reasoning, thinking и вот этого всего.

https://ai.google.dev/gemini-api/docs/models/gemini-v2
AI Engineer Starter Pack

Дают на халяву $50 в кредитах у разных мелких AI провайдеров: mistral, Black Forest labs (flux), eleven labs, etc.

Для регистрации просят зайти через GitHub, оставить LinkedIn и номер телефона.

http://AIEngineerPack.com
Начиная с сегодня и в течение недели OpenAI выкатят video и screen sharing в Advanced Voice Mode. Наконец-то пришла мультимодальность.

Гугл их, конечно, вчера слегка подрезал на повороте, но это мелочи.
Phi-4: маленькие модели делают брррр.

Microsoft выпустили новую модель линейки phi:

- 14B
- большой акцент на синтетические данные
- хорошие бенчмарки: на многих дотягивает до gpt-4o-mini
- пока доступна только в Azure AI, через неделю обещают на HF

Tech report
Беспилотные автомобили одобрили в Швейцарии.

С 1 марта 2025 года в Швейцарии будут официально разрешены три вида автопилота:

- Автобанный пилот: На автомагистралях водители могут включать систему, которая сама управляет автомобилем. Можно будет убирать руки с руля и не нужно постоянно контролировать дорогу, но водители должны быть готовы взять управление, если система попросит.

- Беспилотный транспорт: Возможен запуск без водителя на борту по специально одобренным кантональными властями маршрутам. Эти маршруты оцениваются по руководствам Федерального управления дорог (ASTRA) и при необходимости специальной рабочей группой. Машины должны контролироваться оператором из центра, который в случае затруднительной ситуации может подсказать манёвр. Такого рода беспилотный транспорт считается перспективным для грузоперевозок и «последней мили» в пассажирских перевозках (например от остановки до дома).

- Автоматическая парковка: Разрешается автоматическая парковка без водителя внутри специально обозначенных парковок или паркингов. Кантоны или муниципалитеты решают, где это возможно.

Просто фантастика.

“Так-то я ИИ агент, а таксую я для души…”

ссылка
Media is too big
VIEW IN TELEGRAM
Полная запись презентации Ильи Суцкевера с NeurIPS.
На NeurIPS своя атмосфера

Source
Test-time compute для маленьких Llama 3.1 1B и 3B.

HF пробуют в test-time compute на основе статьи от DeepMind. На математических задачах MATH-500 им удалось заскейлить 1B и 3B модели до уровней 8B и 70B соотвественно.

Приятно, что это open source и можно потыкать.

Узнать бы еще, что там такое OpenAI делают с о1…

Блогпост
GPU shipments in 2024.

В сми появились данные о покупках бигтехом видеокарт в этом году. NOTE: это оценочные данные аналитиков.

Пишут, что Microsoft купили аж 485 000 видеокарт Nvidia поколения H. Не уточняется, каких именно, но скорее всего это Н100.

Для сравнения, Meta приобрела примерно 224 000 штук, тогда как ByteDance (TikTok) и Tencent (тоже китайцы) заказали примерно по 230 000 GPU каждая, а xAI/Tesla — около 200 000. При этом xAI планируют расширить свой суперкласстер Colossus до 1М GPU.

Среди крупных технологических компаний Amazon и Google оказались в самом низу, закупив, соответственно, 196 000 и 169 000 GPU.

В этом году количество видеокарт исчислялось сотнями тысяч (что само по себе впечатляет). В следующем уже будут миллионы. Нам, простым смертным, остается только наблюдать за происходящим.

Ну, в целом, понятно, почему все накинулись на ядерную энергетику…
Из AMA серии на Reddit примерно 1-2 месяца назад
QvQ-72B-Preview - open source reasoning multimodal model.

Экспериментальная модель Qwen с фокусом на reasoning в визуальном домене. Какая-то мода на превью модели пошла.

Хорошие бенчмарки, принимает текст и картинки - видео пока нет.

Признают и ограничения:
- модель может смешивать языки
- иногда уходит в рекурсивный reasoning цикл
- похоже не делали safety and ethical measurements
- модель может потерять фокус на контексте изображения во время reasoning и улететь в галлюцинации

HF
Попробовать
🎄С каждым годом кажется, что мы живем в эпохе великих перемен, где реальность порой удивительнее любой фантазии.

Каждый год мне кажется, что мир окончательно тронулся. Всё вокруг напоминает галлюцинацию, причём непонятно — радоваться этому или бояться. События развиваются с такой скоростью, что не успеваешь моргнуть, как всё уже перевернулось. Войны, геополитика, искусственный интеллект, медицина, астрофизика, шахматы — всё это как-то странно пересекается, будто какой-то невидимый дирижёр взмахивает своей палочкой.

Я думаю, что в новом году надо не бороться с этой лавиной, а оседлать её. Как опытный серфер: балансируешь на гребне, гонишься за ветром, падаешь, поднимаешься. Извлекаешь из этой гонки хоть что-то полезное, становишься чуть счастливее. А заодно и других делаешь счастливее — хотя бы на пару минут. Мы ведь в глобальном масштабе мало на что влияем. Но локально — мы, как говорится, вождь и шаман в одном лице. Так что любви всем. И удачи.

❤️🍀
Коротко о новинках от Nvidia на CES 2025

1. RTX 50 серия (Blackwell) — свежие видеокарты.
Вот ценники:
RTX 5070 — $549
RTX 5070 Ti — $749
RTX 5080 — $999
RTX 5090 — $1999

Топовая RTX 5090 даёт до 2х больше производительности, чем предыдущий флагман (4090).

2. Project DIGITSдомашний ИИ-суперкомп за $3000.
128GB и 4TB NVMe storage. Может запускать языковые модели до 200 миллиардов параметров. А если квантованные, то вообще. Можно стакать два таких и запускать модели на 400B. Релиз в мае.

3. DLSS 4апскейл с помощью нейросетей. Это для гейминга.
Карта рендерит картинку в низком разрешении, а AI достраивает её до 4K или 8K. Плюс теперь нейросеть генерит до 3 дополнительных кадров, что даёт супер плавный fps и до 800% буста в производительности (ну, заявляется так).

4. AI-агенты — Nvidia тоже двигает тему агентов в этом году. На эту тему у них забавное: в PUBG будет ИИ-тиммейт, который лутает, водит тачку, стреляет и все такое.

5. Cosmos — платформа для создания автономных роботов и беспилотников. Уже работают с Toyota и Uber.

Уже тыкаю коллег по закупкам насчет DIGITS 🤤
Devin косячит или как один баннер стоил компании $733

Если помните, Devin — это автономный AI-программист от Cognition AI. Он сам пишет код и выполняет всякие задачи по разработке ПО.

Чуваки в твиттере поделились, что один из их разработчиков, решил попробовать использовать Девина, потому что это была правка всего на 10 строк кода. Вот что было дальше:

- Devin внёс изменение, чтобы отслеживать, сколько раз баннер появляется на сайте.

- Но в его коде была бага и в итоге система нагенерила 6,6 миллионов событий за неделю.

- Сервис аналитики PostHog берёт деньги за каждое событие. Это стоило компании $733 за одну неделю.

К чести Cognition Labs они связались с парнями и предложили сделать рефанд.

Таких историй впереди будет ещё вагон и маленькая тележка, но это нормально. Со временем AI агенты станут умнее, надежнее и дешевле.

Зато когда-нибудь будем рассказывать внукам о косячных ИИ кодерах. А они нам скажут:
— Вы серьёзно? Вы сами код писали? Неужели у вас не было нормального Девина?
Крутой кейс от ElevenLabs — в фильме Armored с помощью ИИ воссоздали голос Алена Дорваля, который десятилетиями озвучивал Сильвестра Сталлоне во Франции.

Ален Дорваль ушел из жизни в феврале прошлого года, и закономерно, он уже не сможет озвучить Сталлоне сам. Для зрителей смена актера озвучки тоже некомфортна. Ну и тут приходит на помощь ElevenLabs, заручившись поддержкой семьи Дорваль.

Следует понимать, что это не замена дубляжа в целом (Дорваль, кстати, был против такого), а способ сохранить культовые голоса, когда актер больше не может участвовать в озвучке.

Source
ChatGPT Tasks

OpenAI выкатили новую бета-функцию Tasks, которая позволяет нам планировать задачи и напоминания и двигает ChatGPT в сторону ассистентов

По сути, Tasks — это инструмент для создания запланированных действий. Теперь мы можем попросить ChatGPT выполнять задачи в определенное время. Например:
• Отправить ежедневный прогноз погоды в 7 утра
• Напомнить о дате истечения паспорта
• Рассказать смешную шутку перед сном

Можно получать уведомления на вебе, десктопе и мобильных устройствах

Максимально можно создавать до 10 активных задач одновременно.

Tasks пока доступна только для платных подписчиков ChatGPT (Plus, Team и Pro) и это еще бета-версия.
Hugging face запускают бесплатный курс по ИИ-агентам.

Вот что можно ожидать:

- Основы агентов: как AI-агенты воспринимают данные, анализируют и выполняют задачи.

- Разработка с LangChain, LlamaIndex и smolagents для создания агентов.

- Разбор реальных кейсов — от автоматизации SQL до генерации кода.

Еще дадут сертификат, но его ценность непонятна 🤔

Подробнее и запись на курс тут
2025/02/21 11:08:18
Back to Top
HTML Embed Code: