Telegram Group & Telegram Channel
Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.



group-telegram.com/about_nlp/132
Create:
Last Update:

Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.

BY NLP Master


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/about_nlp/132

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks.
from us


Telegram NLP Master
FROM American