Distill-Whisper от 🤗 — в x6 раз быстрее оригинала!
Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.
Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.
Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.
#ликбез: Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).
Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.
Веса опубликуют через пару дней под MIT лицензией!
Distill-Whisper от 🤗 — в x6 раз быстрее оригинала!
Моделька Whisper от OpenAI для транскрипции аудио в текст (я писал о ней тут и тут) бодро разлетелась по множеству проектов. Вот только самая крупная ее версия, Large-v2, имеет 1.5 млрд параметров и не является самой быстрой.
Но для деплоя в прод очень хочется иместь что-то такое же точное как Whisper-Large-v2, но быстрое.
Парни из Hugging Face взяли и дистиллировали эту модель, добившись ускорения инференса в 6 раз, с потерей в точности только на 1% WER.
#ликбез: Если на пальцах, дистилляция - это процесс перегонки знаний из большой модели в более маленькую, чтобы ускорить инференс, но сохранить точность. Работает это потому, что большие модели легче обучить до нужной точности, но как правило количество нейронов в таких моделях избыточно и может быть сокращено после того как тренировка завершена (например, в с помощью дистиляции или прунинга).
Энкодер оставили как есть и заморозили, а в декодере оставили только 2 слоя, так как большинсво операций происходит именно в декодере. Далее эту прелесть дистиллировали на 20к часах опенсорсных аудио-записей.
Веса опубликуют через пару дней под MIT лицензией!
Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today."
from us