Telegram Group & Telegram Channel
Новая OCR система от Mistral: SOTA или все-таки нет?

Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.

И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.

К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.

Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.

В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.

mistral.ai/news/mistral-ocr



group-telegram.com/data_secrets/6322
Create:
Last Update:

Новая OCR система от Mistral: SOTA или все-таки нет?

Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.

И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.

К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.

Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.

В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.

mistral.ai/news/mistral-ocr

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6322

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from us


Telegram Data Secrets
FROM American