Telegram Group & Telegram Channel
Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.



group-telegram.com/about_nlp/132
Create:
Last Update:

Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.

BY NLP Master


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/about_nlp/132

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from de


Telegram NLP Master
FROM American