Telegram Group Search
Тут на YC AI Startup School уже выступили CEO OpenAI, co-founder Anthropic, CEO Perplexity.

Как же разнятся мнения среди докладчиков.

Сэма: наши модели самые лучшие, и будут еще круче. Давай все стройте стартапы поверх нашей платформы!
@
Каплан (Антропик): по-тише там с АГИ. Safety, safety, safety не забывайте. Давай лучше только мы будем аги тренить, так спокойнее.
@
Шолле: до AGI еще как до Китая раком. И вот вам бенчмарк, который показывает почему!

--

Конечно же было много мотивационных речей и булшита, доклады не технические (это вам не CVPR).

Но самым интересным был доклад от François Chollet - он говорил про ограничения текущих самых сильных моделей (вроде o3) и рассказал, что в них не хватает. Я хочу про это еще отдельный пост написать.


🔥Кстати, подозреваю что тут есть как минимум человек 10 из читателей канала. Давай организуем своё афтерпати сегодня в СФ. Залетайте в чат: https://www.group-telegram.com/+E2Elz7FxXTdlMTMy

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Гвоздь дня – Андрей Карпатый. Рассказывает про то как Software эволюционирует  с приходом AI. Software 3.0

@ai_newz
А теперь главноеbuild for agents.

(c) Андрей Карпатый

@ai_newz
Сегодня принесу вам пару классных вакансий, а затем продолжим с разбором YC AI Startup School. Надеюсь, они выложат записи всех докладов на YouTube, по крайней мере так планировалось.

Вчера из интересного еще выступал Andrew Ng - давал советы по тому, как строить стартапы, и Chelsea Finn - рассказывала про их роботов и модель Pi.

@ai_newz
🚨Швейцарский стартап ищет CAIO / Chief Scientist (LLM Quality) 🚨

Знакомые ребята в Цюрихе (core team с сильным техническим бэкграундом, ex Big Tech) строят b2b-стартап и систему для оценки качества LLM-ок на реальных данных. Они делают авторейтеры, бенчмарки, внутренние метрики и дашборды, чтобы точно измерять, насколько эффективно модель работает для чатботов и агентов клиентов.

Что будет делать CAIO / Chief Scientist:
• Проектировать фреймворки для оценки работы LLM.
• Руководить сбором данных, тюнингом промптов и бенчмаркингом.
• Строить системы автооценки,
• Разрабатывать метрики (в категориях usefulness, safety и т.д.).
• Влиять на продуктовую стратегию и общаться с клиентами.

Что ожидается:
• MSc/PhD в ML / CS / Applied Math.
• 5+ лет опыта в AI/ML research, особенно в NLP / LLM.
• Глубокая экспертиза в LLM, трансформерах, prompt engineering и fine-tuning.
• Публикации в топ-журналах и конференциях (NeurIPS, ICML, ICLR, ACL и др.).
• Опыт выступлений на профильных конференциях.
• Участие в OSS или создание собственных ML/infra-инструментов.

Условия:
• Локация — Цюрих (on-site), помогут сделать рабочую визу и переехать 🔥.
• Высококонкурентная ЗП (250k+ CHF) + опционы.
• Полный соцпакет (Швейцария).
• Доступ к compute & tooling от топ-вендоров.
• Много автономии + быстрые решения.


Пишите на 👉[email protected], указав LinkedIn, резюме и список топ достижений и выступлений.

Остальные открытые вакансии — на сайте: llms.ch (есть и ресерч, и инженерные вакансии).
Это реальный шанс залететь в стартап на ранней стадии и создать следующее поколение LLM-продуктов для бизнеса!

@ai_newz
Работа для любителей погенерить картинки и видео

Glam AI, один из лидеров в области AI-обработки фото и видео (топ-10 приложений в App Store), расширяет команду ML/AI.

Проект развивается при поддержке инвесторов, ранее стоявших за Looksery (куплен Snap за $150M) и AI Factory (куплен Snap за $166M). Техническая команда получает опционы, что означает финансовые выплаты в случае сделки. Кроме того, это даёт возможность стать частью крупной международной компании такой как Meta или Google после возможного поглощения. Как вам такой способ залететь в FAANG?)

Локация: Тбилиси, Грузия.
Формат: гибридный, 2-3 дня в офисе.
Предлагают: конкурентную ЗП, бонусы за перформанс, компенсацию спорта, поддержку в релокации и топовое оборудование.

Открытые позиции:

1. Backend Engineer
- Вилка: $4,000–7,000.
- Стек: Go, Docker, REST API, PostgreSQL, Redis, RabbitMQ/Kafka, AWS, Prometheus.
- Опыт: от 3 лет в backend-разработке, умение строить масштабируемые микросервисы. Желателен опыт с AI/ML или видеоплатформами.

2. Computer Vision Engineer
- Вилка: $4,000–8,000.
- Стек: Python, PyTorch, OpenCV, FastAPI, Docker, AWS, Stable Diffusion, img2img, img2vid, llm/vllm.
- Опыт: от 3 лет, разработка CV-алгоритмов, обучение и улучшение нейросетей, особенно для фильтров и генерации фото/видео контента.

3. AI Creator
- Вилка: $2,500–4,500.
- Формат: гибридный / удалённый.
- Стек: Midjourney, ChatGPT, Sora, Kling, Stable Diffusion, CapCut, DaVinci Resolve, Premiere Pro, Canva, Figma.
- Опыт: генерация визуального контента с помощью ИИ, создание креативов для FB/Google Ads, хороший вкус, навыки видеомонтажа и работы с промптами.

За успешную рекомендацию предусмотрен реферал-бонус до $10,000.

Контакты: @nick_work_work
Подробнее о вакансиях: GlamAI Vacancies

#промо
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney запустили видеомодель - V1

Доступно всем подписчикам начиная с 10 долларов. Разрешение пока 480p и всего 5 секунд генерации, возможно это для изначального запуска чтобы сервера не поплавились, но позволяют догенеривать следующие сегменты. Выдаёт по 4 видоса на промпт (как и обычная миджорни для генерации картинок) да и генерит быстро.

Красиво, без артефактов, но сильно хорошей симуляции нет. Компания долго шла к видео — почти два года. Почему так много времени — генерация видео это очень дорогое удовольствие, а Midjourney зависит лишь от своей выручки и никогда не брала сторонних инвестиций.

Анонс

@ai_newz
эйай ньюз
Photo
Как и обещали, YC начали выкладывать видео с AI Startup School, который я посещал на этой неделе.

Вот видео выступления Карпатого. Рекомендую к просмотру!

Software is changing (again)

@ai_newz
А вот выступление Илона Маска. Он сам приехать на YC AI Startup School не смог, из-за чего я очень огорчился (я хотел с ним занетворкать). Но выступление было по видеосвязи.

Это был разговор о провалах, первых принципах и будущем сверхинтеллекта. От Zip2 и PayPal до SpaceX и xAI — Маск поделился ключевыми уроками, которые сформировали его подход к технологиям, лидерству и искусственному интеллекту.

@ai_newz
Нейродайджест за неделю (#74)

Неделя YC AI Startup School
- Выступление Сэма Альтмана — прямое включение с места событий!
- Про AGI и мнения — были представители всех «кланов»: и Сэм Альтман, и Каплан из Anthropic, и Шолле — у всех своё мнение.
- Немного Сатьи Наделлы — это который CEO Microsoft, если вдруг.
- Ну и наш любимый Карпатый — build for agents. И сразу запись.
- Что рассказывали Andrew Ng и Chelsea Finn — немного про стартапы и роботов.
- Даже мистер Elon Musk появился — правда, только онлайн, а жаль, думал занетворкать.

Генеративные модели
- Midjourney V1 — самая эстетичная модель от самого эстетичного генератора картинок, но пока, конечно, совсем не Veo и, может, даже и не Kling.

> Читать дайджест #73

#дайджест
@ai_newz
Методология A/B тестирования в X5 и ее реализация прошли научную проверку

X5 Group представила свою методологию A/B тестирования для научной проверки. Эксперты Международной лаборатории стохастических алгоритмов и анализа многомерных данных факультета компьютерных наук НИУ ВШЭ подтвердили, что платформа соответствует современным научным стандартам.

Методология разрабатывалась в компании аж с 2019 года и активно применяется с 2022 года. За это время удалось реализовать не менее 500 разнообразных экспериментов. Тестирование позволяет оценивать влияния различных изменений на работу конкретных магазинов.

Платформа тестирует влияние разных факторов: новые технологии, изменения бизнес-процессов, маркетинговые акции, смена поставщиков и другое. Она оценивает финансовые эффекты по различным метрикам: РТО, средний чек, фронт-маржа, списания и другие.
Тестирование проходит через сравнение двух групп магазинов: где изменения внедрены и где их нет. Причем сам процесс занимает минимальное время, так как рынок требует быстрых решений и моментальной реакции на любые корректировки.

@ai_newz
HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей через RL.

Их 4B модель показывает 81.2% на AIME24 и 79.4% на AIME25, что сопоставимо с моделями во много раз больше. Фокус в правильной калибровке сложности данных - нужно перевернутое J-образное распределение, где большинство задач сложные, но решаемые. Они динамически отфильтровывают слишком простые задачи во время тренировки, поддерживая оптимальный уровень сложности. Так модель вынуждена постоянно учиться и расти над собой, в то же время не надрываясь на слишком сложных задачах.

Важно поддерживать и разнообразие генераций — модели имеют три температурные зоны: стабильная генерация (низкое разнообразие), осторожное экспериментирование (оптимальный баланс) и полный коллапс. POLARIS тренируют так, чтобы модель всегда экспериментировала и не выдавала слишком похожих решений, а по мере роста уверенности модели в ходе тренировки постепенно повышают температуру - с 1.4 до 1.5 для Qwen3-4B. Это поддерживает разнообразие решений, необходимое для relative policy optimization.

Для решение проблемы разреженных наград используют Rollout Rescue: когда все 8 попыток решения проваливаются, система подставляет сохраненное успешное решение из предыдущих эпох. Для каждой задачи поддерживается буфер с последним правильным ответом, который обновляется при появлении новых успешных решений. Это гарантирует, что модель всегда имеет положительные примеры для обучения даже на самых сложных задачах.

Экстраполяция длины через Yarn позволяет моделям генерить 90K+ токенов качественных рассуждений, хотя тренировались они на меньших длинах. Без Yarn точность на длинных цепочках рассуждений падает с 50% до 26%.

Многоэтапная тренировка с постепенным увеличением контекста и удалением ограничений энтропии/KL loss для агрессивного исследования пространства решений завершают картину.

Результат – 4B модель, которую можно запустить на телефоне, которая решает олимпиадные задачи почти на уровне 235B Qwen 3. А вишенка на торте — опубликовали не только веса модели, но и датасет на котором тренировали POLARIS.

Веса 4B модели
Датасет
Блогпост о тренировке

@ai_newz
2025/06/24 20:42:03
Back to Top
HTML Embed Code: