ai_machinelearning_big_data 7781 Telegram Group

13.4K views11:01

0:20

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты

📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия

Установка:

git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin

• Github
• HF
• Demo

@ai_machinelearning_big_data

#ocr #ByteDance

16.1K views12:01

Включение новых фактических знаний;

🌟

SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.

▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢

🟢

Адаптация к новым задачам на основе примеров.

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

17.2K views07:05

Доброе утро, поклонники AI!

Сегодня — тот день, когда всё внимание приковано к событию в ТехноХабе Сбера в Петербурге! Именно здесь открывает новый день международная сессия AI Journey — с актуальными темами, живыми спикерами и технологиями, которые меняют отрасли.

Сегодня в программе суперэксперты из Индии, Китая и Сербии, а российскую сторону представляют Сбер, Сколтех, Институт AIRI и другие технологические лидеры AI-индустрии.

🔗 Подключайтесь к трансляции — всё самое интересное начинается сейчас.

10.6K views05:01

1:01

🤖

RoboBrain 2.0 — ИИ для нового поколения роботов.

RoboBrain 2.0 — это open-source модель способная к широкому спектру задач: от восприятия окружения до управления роботами.

Её уже называют фундаментом для следующего поколения гуманоидов.

🔹 Поддерживает планирование, восприятие и действия в реальном мире
🔹 Заточен на легкую интеграцию (под капотом 7B параметров) в реальные проекты и роботизированные системы
🔹 Полностью открытый код

Архитектура:

• Обрабатывает изображения, длинные видео и визуальные данные высокого разрешения
• Понимает сложные текстовые инструкции
• Входные данные:
— Визуальные — проходят через Vision Encoder + MLP Projector
— Текстовые — превращаются в унифицированный токен-поток
• Всё подаётся в LLM Decoder, который выполняет рассуждение, строит планы, определяет координаты и пространственные связи

С такими темпами более чем реально, что уже к 2027 году мы увидим массовое производство продвинутых гуманоидных роботов.

ИИ выходит в физический мир — и делает это уверено.

Запуск:

git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain

# build conda env.
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt

▪Github: https://github.com/FlagOpen/RoboBrain2.0
▪Hugging face: https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036/

@ai_machinelearning_big_data

#ai #ml #robots #ComputerVision #BAAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

11.8K views06:00

0:45

✔️

Jan-nano от Menlo Research — модель на базе Qwen3 всего на 4B параметров, созданная для Deep Research.

📊 На SimpleQA (agentic / MCP) — Jan-nano набирает 80.7.

Это очень серьёзный результат для модели такого размера!

Модель работает через Jan — open-source альтернативу ChatGPT, которая запускается локально.

Она заточена и оптимизирована для интеграции с Model Context Protocol (MCP).

🔍 Jan-nano — ещё один пример того, как компактные модели могут конкурировать с большими моделями благодаря обучению и агентной архитектуре.

▪ HF: https://huggingface.co/Menlo/Jan-nano

@ai_machinelearning_big_data

#LLM #JanNano #MCP #OpenSourceAI

Please open Telegram to view this post

VIEW IN TELEGRAM

12.4K viewsedited 07:55

⚡️Пошаговый план: как стать инженером машинного обучения в 2025

Хотите войти в одну из самых востребованных и высокооплачиваемых IT-профессий, но кажется, что ML — это сложно и требует только высшего образования?

Приглашаем на бесплатный вебинар, где развеем мифы и покажем реальный путь с нуля до конкурентоспособного ML-инженера!

Спикер вебинара: Савелий Батурин, Senior ML-Engineer в Postgres Professional, а также преподаватель нашего курса-симулятора «Инженер машинного обучения».

На вебинаре вы узнаете:
🟠Чем на самом деле занимается ML-инженер и почему это перспективно.
🟠Почему не нужно быть гением математики, чтобы начать.
🟠Какие ошибки совершают новички и как их избежать.
🟠Четкий роадмап обучения: от основ до продвинутых тем.
🟠Пример реального кейса — как выглядит работа ML-специалиста.

Бонусы для участников: готовый роадмап обучения.

🕗 Встречаемся 17 июня в 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

9.1K views13:02

2:07

🎥 Лекс Фридман беседует с Терренсом Тао — одним из гениев современной математики.

Теренс Тао — один из самых выдающихся современных математиков.
Вот чем он особенно известен:

• Вундеркинд из Австралии, уже в 10 лет участвовал в Международной математической олимпиаде, а в 21 год получил степень доктора наук.

• Филдсовская премия: В 2006 году получил Филдсовскую медаль — высшую награду в математике, за вклад в гармонический анализ, уравнения и эргодическую теорию.
• Работа над задачей Коллатца, комбинаторикой, теорией вероятностей, уравнениями Навье–Стокса и др.

Интересны мысли из подкаста 👇

▪️ Как Тао решает сложные задачи?
Он превращает любую "невозможную" задачу в серию маленьких игр:
Сначала убирает все помехи, решает максимально простую версию, а потом шаг за шагом добавляет сложности обратно. Такой подход — не зацикливаться на тупике, а всегда двигаться вперёд, даже если проблема кажется непреодолимой.

▪️ Как развивается математика?
Прогресс возникает, когда объединяют разные математические языки: геометрию с алгеброй, динамику с энергетикой, дискретные игры с комплексными уравнениями. Так появляются простые законы, объясняющие сложные явления. Но для примера в финансах такая магия не работает: там слишком много скрытых связей и неожиданностей.

▪️ Формализация доказательств и Lean
Тао считает революционным переход к формальным доказательствам с помощью Lean (Lean — это современная формальная система и язык программирования, разработанный для проверки математических доказательств с помощью компьютера) — теперь каждое доказательство как программа: “компилируется” и проверяется сотнями добровольцев. Даже сложные гипотезы можно разбить на тысячи маленьких задач, видеть, где остались пробелы, и быстро исправлять. AI-автодополнение уже ускоряет работу, а скоро писать в Lean станет проще, чем на бумаге.

▪️ AI и будущее математики
Сегодня AI может решать школьную геометрию, но с настоящими открытиями пока не справляется: ему не хватает “математического чутья”. Тао уверен, что в ближайшие годы прорывы будут происходить в тандеме “человек+AI”: человек задаёт стратегию, а AI перебирает и проверяет рутину.

▪️ Гибкость и устойчивость гипотез
Некоторые гипотезы (например, о длинных арифметических прогрессиях) остаются верными даже при жёстких изменениях, а другие (например, гипотеза о близнецах-простых) могут рухнуть, если убрать совсем малую долю чисел — поэтому они такие сложные.

Вывод:
Математика будущего — это синтез идей, формальные доказательства и тесное сотрудничество с искусственным интеллектом. Главные открытия всё равно будут за человеком, а AI поможет делать их быстрее.

- Подкаст
- Смотреть в тг
- YouTube
- Spotify

@ai_machinelearning_big_data

#ai #ml #podcast #lexfridman

8.0K views14:02