Telegram Group Search
Новая OCR система от Mistral: SOTA или все-таки нет?

Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.

И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.

К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.

Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.

В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.

mistral.ai/news/mistral-ocr
Известный рисерчер Миша Ласкин вместе с Яннисом Антоноглу запускают собственный стартап

Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.

Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.

Скоро бывшие исследователи Google образуют собственную кремниевую долину
Дорогие наши DS-подписчицы!

Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.

А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!
Пользуясь случаем, делимся с вами полезной подборкой блогов / каналов / курсов по ИИ, созданных лучшими женщинами учеными и ML-разработчицами

🟦 Всеми любимый технический блог Лилиан Вэнг – исследовательницы из OpenAI, которая сейчас работает у Миры Мурати. Тут подробные объяснения концепций LLM, схемы, ссылки на актуальные статьи и многое другое. Наша любимая статья: Prompt Engineering (до того как это стало мейнстримом)

🟦 Блог и видеокурс Кэсси Козырков. Она бывшая главная специалистка по теории принятия решений на данных в Google (Chief Decision Scientist), а на сегоднящий день CEO Data Scientific. Известна своим активным блогом, прекрасным каналом на YouTube и бесплатным видеокурсом "Making Friends with ML".

🟦 Блог и огромный курс по NLP Лены Войты, из которого все всегда берут схемы и рисунки. Лена – Research Scientist в FAIR Meta, PhD и автор кучи статей. Если хотите с вероятностью 100% понять все главные концепции NLP – вам сюда.

🟦 YouTube-канал Джордан Харрод – докторантки MIT по нейронаукам. Тут и простые видео про то, как использовать ИИ в рутине, и обзоры новостей, и разборы статей, и объяснения сложных концепций ML простым языком. Однозначно рекомендуем.

🟦 Блог Рэйчел Томас – очень известной специалистки в области ML и соосновательницы образовательной платформы fast.ai. Она была включена в топ-20 женщин в ИИ по версии Forbes, а в своем блоге активно пишет об этике данных и прикладном ИИ в медицине и биологии.

Сохраняйте (и еще раз с 8 марта вас!)
Please open Telegram to view this post
VIEW IN TELEGRAM
В соцсетях бурно обсуждают только что вышедшего агента Manus: это Operator, Deep Research и Cursor в одном флаконе

Его выпустила одноименная китайская лаборатория и этот релиз уже называют DeepSeek moment v2. Чем он цепляет:

1. Он действительно автономный. Не ждет подтверждения действий, как Operator, а планирует и выполняет задачи самостоятельно. Все это работает в фоновом режиме, а вы просто получаете уведомление о завершении.

2. Универсальность. Может провести исследование, подключиться к вашей среде разработки, работать в браузере, использовать интерпретатор кода и тд. Конечно, есть мультимодальность.

3. В нем, как в ChatGPT, есть память. То есть со временем он узнает вас и ваши предпочтения лучше и ориентируется на этот контекст.

На бенчмарке GAIA перформит лучше Deep Research, но отдельно сравнений по Computer Use почему-то не показали. Будем ждать независимых оценок, но пока выглядит многообещающе.

Вот тут и тут можете посмотреть примеры работы. Вот здесь добавляйтесь в лист ожидания и пробуйте сами.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/03/09 14:43:26
Back to Top
HTML Embed Code: