group-telegram.com/enginegger/47
Last Update:
Несколько дней назад Meta опубликовала исходники нейротула для преобразования научных статей из PDF в Markdown с распознаванием математических формул и выражений в формат LaTeX. Тул называется Nougat (Neural Optical Understanding for Academic Documents).
Как понятно из названия, это нейросеть, которая работает как OCR, т.е. распознаёт текст на изображении, а не извлекает его из документа. Т.е., она делает текст не только из хороших доков, но и из довольно кривых сканов (к сожалению, не всегда получается).
Можно попробовать онлайн, но обычно там очередь на несколько минут.
В следующем сообщении будет три примера, которые я сделал локально на своём компе. Установка программы очень простая, модель она подтягивает сама при первом запуске. Главное, чтобы в компе была какая-никакая Nvidia и библиотека CUDA, т.к. на CPU работает очень медленно (я не дождался завершения).
BY Arnold Enginegger

Share with your friend now:
group-telegram.com/enginegger/47