Telegram Group & Telegram Channel
Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.



group-telegram.com/about_nlp/132
Create:
Last Update:

Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.

BY NLP Master


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/about_nlp/132

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from tr


Telegram NLP Master
FROM American