В последнее время что-то стал занят. Потому пока посты могут быть со случайной периодичностью, увы.
Всем добра!
Всем добра!
Forwarded from Записки Ппилифа (Ppilif)
Про speech2text и скорость смены чудес
Никогда раньше особо не работал со звуком. Максимум — дёргал ручку яндексового speech2text, чтобы вытащить из видосов текст и прогнать его через свои языковые модели.
Появилась задачка — прогнать много гигов записей сапорта через speech2text. Стал искать какую-нибудь SOTA в опенсорсе и узнал про whisper от OpenAI.
Запустил на тестовой пачке аудио мелкую модель, она выдала какой-то странный текст о том, кто первый пойдёт в ванную. Прослушал аудиозапись, там недозвон и нет ничего кроме гудков. Я не понял прикола и стал искать баг в коде, мб что-то закешировалось при загрузке. А потом кааааак понял.
Прослушал запись ещё раз и услышал еле заметные голоса на заднем фоне, которые поймал микрофон сапорта. Люди о чём-то разговаривали. Моё ухо не поймало, зато DL-модель прекласно поймала этот разговор и транскрибировала его. Ещё и в качестве бонуса на лету перевела его с локального языка на английский.
Когда модель выкладывают в паблик, часто сравнивают её качество с человеком. Впервые почувствовал на своей шкуре, как я проиграл модели. Всратые картинки с ImageNet, на которых фиг поймёшь чё нарисовано, меня не впечатляли, а транскрибация впечатлила довольно сильно.
Более того, в интернете валяется ещё и квантизованная, более быстрая и лёгкая версия faster-whisper. Любой школьник со знанием питона может поднять у себя в браузере в течение вечера.
Как впрочем и многие другие модели, выложенные в опенсорс. Мы вообще пока не осознаём, что будущее наступило и как-то слишком дежурно рассуждаем про новые технологии вроде DALLE и ChatGPT. Артур Кларк говорил, что
Хочется поправить великого и воткнуть в середину цитаты лишнее слово:
Технологические чудеса быстро превращаются в обыденность. В школе у меня был кнопочный телефон. Я любил фантастические фильмы. Когда я видел там сенсорные панели на дверях и компьютерах, мне хотелось, чтобы в реальной жизни было также. Проходит несколько лет, появляются планшеты и смартфоны. Поначалу это кажется чудом. Проходит ещё несколько лет, чудо превращается в повседневность.
И такая фигня происходит абсолютно со всеми сферами нашей жизни. Папа записывал мне фильмы на VHS-касcеты. В старшей школе я покупал кино на дисках, в вузе качал с торентов и перекидывал на флешку. Сегодня у ноутбуков нет разъема для дисков. Уже и флэшка - древность. Повсюду облака. За 30 лет несколько технологий для передачи информации сменили друг-друга.
Скорость превращения чудес в обыденность увеличивается. Буквально вчера все удивлялись системам распознавания лиц в крупных городах, дипфейкам и моделям, генерирующим связные тексты. Сегодня этим вообще никого не удивишь.
Моменты такого прорезния, как моё вчерашние офигивание от транскрибации, из-за этого становятся особенно ценными.
Никогда раньше особо не работал со звуком. Максимум — дёргал ручку яндексового speech2text, чтобы вытащить из видосов текст и прогнать его через свои языковые модели.
Появилась задачка — прогнать много гигов записей сапорта через speech2text. Стал искать какую-нибудь SOTA в опенсорсе и узнал про whisper от OpenAI.
Запустил на тестовой пачке аудио мелкую модель, она выдала какой-то странный текст о том, кто первый пойдёт в ванную. Прослушал аудиозапись, там недозвон и нет ничего кроме гудков. Я не понял прикола и стал искать баг в коде, мб что-то закешировалось при загрузке. А потом кааааак понял.
Прослушал запись ещё раз и услышал еле заметные голоса на заднем фоне, которые поймал микрофон сапорта. Люди о чём-то разговаривали. Моё ухо не поймало, зато DL-модель прекласно поймала этот разговор и транскрибировала его. Ещё и в качестве бонуса на лету перевела его с локального языка на английский.
Когда модель выкладывают в паблик, часто сравнивают её качество с человеком. Впервые почувствовал на своей шкуре, как я проиграл модели. Всратые картинки с ImageNet, на которых фиг поймёшь чё нарисовано, меня не впечатляли, а транскрибация впечатлила довольно сильно.
Более того, в интернете валяется ещё и квантизованная, более быстрая и лёгкая версия faster-whisper. Любой школьник со знанием питона может поднять у себя в браузере в течение вечера.
Как впрочем и многие другие модели, выложенные в опенсорс. Мы вообще пока не осознаём, что будущее наступило и как-то слишком дежурно рассуждаем про новые технологии вроде DALLE и ChatGPT. Артур Кларк говорил, что
Любая достаточно развитая технология неотличима от магии.
Хочется поправить великого и воткнуть в середину цитаты лишнее слово:
Любая достаточно развитая технология поначалу неотличима от магии.
Технологические чудеса быстро превращаются в обыденность. В школе у меня был кнопочный телефон. Я любил фантастические фильмы. Когда я видел там сенсорные панели на дверях и компьютерах, мне хотелось, чтобы в реальной жизни было также. Проходит несколько лет, появляются планшеты и смартфоны. Поначалу это кажется чудом. Проходит ещё несколько лет, чудо превращается в повседневность.
И такая фигня происходит абсолютно со всеми сферами нашей жизни. Папа записывал мне фильмы на VHS-касcеты. В старшей школе я покупал кино на дисках, в вузе качал с торентов и перекидывал на флешку. Сегодня у ноутбуков нет разъема для дисков. Уже и флэшка - древность. Повсюду облака. За 30 лет несколько технологий для передачи информации сменили друг-друга.
Скорость превращения чудес в обыденность увеличивается. Буквально вчера все удивлялись системам распознавания лиц в крупных городах, дипфейкам и моделям, генерирующим связные тексты. Сегодня этим вообще никого не удивишь.
Моменты такого прорезния, как моё вчерашние офигивание от транскрибации, из-за этого становятся особенно ценными.
В сборнике "Русская история ужасов" вышел мой рассказ "Воскрешатели" (если кому интересно, книга есть на озоне).
Вообще, история интересная.
Представьте себе. Эдинбург XIX века (вообще и XVII, но XIX какой-то более "мистический", на мой вкус). Наука не стоит на месте. А вместе с ней и медицина. Но медицине для исследований нужен материал. И что же является таким материалом? Правильно - свежие трупы, которые можно вскрыть и вдоволь поисследовать. Но вот беда - на всех трупов не хватает. Возникает превышение спроса над предложением (а предложение есть, ибо казни вполне себе существуют и трупы могут уйти на исследования) и достаточное количество предприимчивых (и не очень высокоморальных) людей. И к чему это приводит? Правильно - к расцвету черных копателей, которые разрывают свежие могилы и продают трупы по сходной цене анатомам.
Некоторые идут дальше, самостоятельно получая трупы (весьма очевидным методом, для которого не нужно быть семи пядей во лбу). Про это хорошо показали в фильме "Руки-ноги за любовь" (забавная черная комедия, кстати). Правда, за свою инновацию в сфере добычи трупов эти предприимчивые ребята поплатились головой, ну да это другая история.
А некоторые иные предприимчивые люди решили не оставаться в стороне и организовали целый бизнес по "защите трупов". Например, так появились т.н. "морт-сейфы" (да, это сейф для трупа, чтобы его было сложнее выкопать). Возникло классическое противостояние "снаряд против брони". Только в очень уж специфичной области.
В итоге получаем мрачный Эдинбург XIX века и копателей могил. И как тут не написать мистический рассказ? Вот я вдохновился и написал. Вроде вышло неплохо. Теперь могу любоваться своим творением на бумаге.
P.S. Кстати, имя Грей - небольшая отсылка к одному из персонажей классического рассказа "Похититель трупов" Р.Л.Стивенсона (это тот, что написал "Остров сокровищ", кстати).
Вообще, история интересная.
Представьте себе. Эдинбург XIX века (вообще и XVII, но XIX какой-то более "мистический", на мой вкус). Наука не стоит на месте. А вместе с ней и медицина. Но медицине для исследований нужен материал. И что же является таким материалом? Правильно - свежие трупы, которые можно вскрыть и вдоволь поисследовать. Но вот беда - на всех трупов не хватает. Возникает превышение спроса над предложением (а предложение есть, ибо казни вполне себе существуют и трупы могут уйти на исследования) и достаточное количество предприимчивых (и не очень высокоморальных) людей. И к чему это приводит? Правильно - к расцвету черных копателей, которые разрывают свежие могилы и продают трупы по сходной цене анатомам.
Некоторые идут дальше, самостоятельно получая трупы (весьма очевидным методом, для которого не нужно быть семи пядей во лбу). Про это хорошо показали в фильме "Руки-ноги за любовь" (забавная черная комедия, кстати). Правда, за свою инновацию в сфере добычи трупов эти предприимчивые ребята поплатились головой, ну да это другая история.
А некоторые иные предприимчивые люди решили не оставаться в стороне и организовали целый бизнес по "защите трупов". Например, так появились т.н. "морт-сейфы" (да, это сейф для трупа, чтобы его было сложнее выкопать). Возникло классическое противостояние "снаряд против брони". Только в очень уж специфичной области.
В итоге получаем мрачный Эдинбург XIX века и копателей могил. И как тут не написать мистический рассказ? Вот я вдохновился и написал. Вроде вышло неплохо. Теперь могу любоваться своим творением на бумаге.
P.S. Кстати, имя Грей - небольшая отсылка к одному из персонажей классического рассказа "Похититель трупов" Р.Л.Стивенсона (это тот, что написал "Остров сокровищ", кстати).
Наткнулся на интересный пост с новой моделькой от умельцев на Hugging Face. Поигрался с этой моделькой и известным анекдотом. Кажется, что вышло прям 🔥🔥🔥 (хе-хе)
Завтра буду на матемаркетинге (да и сегодня был, но забыл написать). Если кто хочет пообщаться на всякие разные темы, то welcome (можно написать мне в телегу, в описании канала контакт)
Forwarded from Denis Sexy IT 🤖
#разное
Начал преподавать DS для менеджеров в совместной магистратуре с ВШЭ.
И вот тут я познал на себе "проклятие знания". Это когда ты вроде все знаешь и для тебя все просто. Но нужно объяснить/изложить твои знания в кратком виде людям, которые не очень-то в твоей области понимают. И начитается веселье. Не то, чтобы совсем непонятные слова вещаю, но когда делаю лекции, иногда ловлю себя на мысли "чего так сложно, не понятно же будет нифига". Ну, в том, наверное и состоит талант преподавателя - донести не самую простую информацию настолько эффективно, чтобы у учеников хоть что-то осталось в голове от рассказанного материала.
P.S. В википедии забавный пример про эксперимент с выстукиванием песни (не слышал про такой раньше). Почитайте, там немного текста.
Начал преподавать DS для менеджеров в совместной магистратуре с ВШЭ.
И вот тут я познал на себе "проклятие знания". Это когда ты вроде все знаешь и для тебя все просто. Но нужно объяснить/изложить твои знания в кратком виде людям, которые не очень-то в твоей области понимают. И начитается веселье. Не то, чтобы совсем непонятные слова вещаю, но когда делаю лекции, иногда ловлю себя на мысли "чего так сложно, не понятно же будет нифига". Ну, в том, наверное и состоит талант преподавателя - донести не самую простую информацию настолько эффективно, чтобы у учеников хоть что-то осталось в голове от рассказанного материала.
P.S. В википедии забавный пример про эксперимент с выстукиванием песни (не слышал про такой раньше). Почитайте, там немного текста.
Forwarded from Записки Ппилифа (Ppilif)
Про мешок с конфетами, стратификацию и сэмплирование
Провёл на этой неделе в Вышке несколько очных пар. Было круто снова сходить в аудиторию и посмотреть на живых людей 💕
На каждой паре мы замутили эксперимент со взвешиванием конфет:
- Известно, что в мешке 100 конфет.
- Конфеты разного размера — большие, маленькие, средние.
- Каждый студент суёт в мешок свою мощную лапищу, вытаскивает горсть конфет и взвешивает конфеты из неё. Можно взвесить вместе, можно по одной.
- Дальше студент строит прогноз, сколько весит весь мешок целиком.
- Тот, кто оказался ближе всех к реальному прогнозу, забирает мешок себе.
В чём фишка?
Чем больше конфета, тем выше вероятность вытянуть её из мешка. Когда я сую в мешок руку и делаю конфетный сэмпл, я получаю на выходе искажённые пропорции между конфетами разных видов. Я сильно завышаю число больших конфет и итоговый вес, который я прикидываю оказывается слишком большим.
Выборка оказывается не
В первый день я продолбал сеттинг экспа полностью. Во-первых, мешок был сетчатый, во вторых я разрешил трогать его. Победитель тупо пересчитал все разновидности конфет и умело сформировал горсть, чтобы взвесить каждую.
Во второй день я запретил трогать мешок. В мешке были мишки на севере, мелкие швейцарские шоколадные плитки и тоблероны. Люди чистили свой сэмпл от выбросов в виде тоблеронов, составляли систему уравнений и получали примерное количество мишек на севере. Их количество было после решения системы завышено, как я и планировал.
Тем не менее, прогнозы люди особо не завышали. У меня не было времени аккуратно подобрать пропорцию между плиточками и мишками. Она оказалась неудачной и из-за этого не вышло поймать ярко выраженное завышение прогнозов.
В следующий раз надо делать это аккуратнее и придумать какое-нибудь развитие этого экспа.
Провёл на этой неделе в Вышке несколько очных пар. Было круто снова сходить в аудиторию и посмотреть на живых людей 💕
На каждой паре мы замутили эксперимент со взвешиванием конфет:
- Известно, что в мешке 100 конфет.
- Конфеты разного размера — большие, маленькие, средние.
- Каждый студент суёт в мешок свою мощную лапищу, вытаскивает горсть конфет и взвешивает конфеты из неё. Можно взвесить вместе, можно по одной.
- Дальше студент строит прогноз, сколько весит весь мешок целиком.
- Тот, кто оказался ближе всех к реальному прогнозу, забирает мешок себе.
В чём фишка?
Чем больше конфета, тем выше вероятность вытянуть её из мешка. Когда я сую в мешок руку и делаю конфетный сэмпл, я получаю на выходе искажённые пропорции между конфетами разных видов. Я сильно завышаю число больших конфет и итоговый вес, который я прикидываю оказывается слишком большим.
Выборка оказывается не
iid
, как нам надо в матстате. Оценки смещенные. Задача студента — допереть до этого и придумать примерный коэффициент для коррекции веса, завязанный на размер конфет. В первый день я продолбал сеттинг экспа полностью. Во-первых, мешок был сетчатый, во вторых я разрешил трогать его. Победитель тупо пересчитал все разновидности конфет и умело сформировал горсть, чтобы взвесить каждую.
Во второй день я запретил трогать мешок. В мешке были мишки на севере, мелкие швейцарские шоколадные плитки и тоблероны. Люди чистили свой сэмпл от выбросов в виде тоблеронов, составляли систему уравнений и получали примерное количество мишек на севере. Их количество было после решения системы завышено, как я и планировал.
Тем не менее, прогнозы люди особо не завышали. У меня не было времени аккуратно подобрать пропорцию между плиточками и мишками. Она оказалась неудачной и из-за этого не вышло поймать ярко выраженное завышение прогнозов.
В следующий раз надо делать это аккуратнее и придумать какое-нибудь развитие этого экспа.