Несколько дней назад Meta опубликовала исходники нейротула для преобразования научных статей из PDF в Markdown с распознаванием математических формул и выражений в формат LaTeX. Тул называется Nougat (Neural Optical Understanding for Academic Documents).

Arnold Enginegger

Несколько дней назад Meta опубликовала исходники нейротула для преобразования научных статей из PDF в Markdown с распознаванием математических формул и выражений в формат LaTeX. Тул называется Nougat (Neural Optical Understanding for Academic Documents).
Как понятно из названия, это нейросеть, которая работает как OCR, т.е. распознаёт текст на изображении, а не извлекает его из документа. Т.е., она делает текст не только из хороших доков, но и из довольно кривых сканов (к сожалению, не всегда получается).
Можно попробовать онлайн, но обычно там очередь на несколько минут.
В следующем сообщении будет три примера, которые я сделал локально на своём компе. Установка программы очень простая, модель она подтягивает сама при первом запуске. Главное, чтобы в компе была какая-никакая Nvidia и библиотека CUDA, т.к. на CPU работает очень медленно (я не дождался завершения).

GitHub

GitHub - facebookresearch/nougat: Implementation of Nougat Neural Optical Understanding for Academic Documents

Implementation of Nougat Neural Optical Understanding for Academic Documents - facebookresearch/nougat

www.group-telegram.com/ua/enginegger.com/47

1.1K viewsSep 4, 2023 at 18:03

group-telegram.com/enginegger/47

Create: 2023-09-04
Last Update: 2025-02-25 12:58:28

BY Arnold Enginegger

Share with your friend now:
group-telegram.com/enginegger/47

Telegram | DID YOU KNOW?