boris_again Telegram Group

Telegram Group Search

Борис опять

This media is not supported in your browser

VIEW IN TELEGRAM

Я ничего не знаю про обработку и генерацию речи. В перелете послушал yet another podcast #41 с Еленой Белобровой (руководитель группы развития речевых технологий), Василием Ершовым (руководитель ML-сервисов Yandex Cloud) и профессиональным диктором Павлом Пуданом.

Рассказывали о том, как записывают голоса для обучения звуковых моделей. Оказывается, за несколько лет скорость клонирования голоса диктора увеличилась в несколько раз: раньше нужно было пятьдесят студийных часов, а сейчас может быть даже в пределах часа. Говорят, что профессия дикторов не под угрозой: универсального синтеза речи с настраиваемыми параметрами пока нет. Ожидаемо, что больше всего проблем с тонкими интонациями.

А еще поговорили о том, как компания внедряет этичные принципы при работе над синтезом речи. Например, команда всегда берет у актеров озвучки согласие на использование голоса перед синтезом, фиксируют, где он будет использоваться и т.д. У Яндекса даже есть внутренний документ (который недавно стал открытым), где описаны принципы при работе над синтезом речи. Инициатива, кстати, полезная: для сферы этот свод правил может стать новым отраслевым стандартом. От этого выиграют как обычные пользователи, так и те же дикторы.

Полную версию подкаста смотрим здесь. Внутри еще много интересных тейков про обучение нейросетей и будущее речевых технологий.

5.0K views16:56

Борис опять

Forwarded from Записки дата-шрушера (Ppilif) (Ppilif)

Дорогие студенты.

Когда я вам рекомендовал эту книгу, я не ожидал что вы пойдете на крайние меры. Верните плиз книги назад.

Уважаемые кандидаты, которых я собеседовал и отказал после алгоритмической сессии. Аналогичная просьба.

Давайте прекратим кошмарить бизнес, им достаточно ставки от ЦБ.

P. S. Вышло второе дополненное издание. Не смейте его воровать!

4.3K views16:02

Борис опять

Давайте мы прямо сейчас договоримся, что когда выйдет моя книга вы попробуете украсть как можно больше экземпляров

4.5K views16:05

Борис опять

Под конец года все бигтехи всполошились и постоянно что-то релизят, так что я задолжал вам собственный контент. К счастью пока летел в самолёте прочитал несколько интересных статей и буду постепенно публиковать обзоры. Начнём с максимально простой статьи.

# LLAVA-CoT: Let Vision Language Models Reason Step-by-Step

Долго думающие модели у всех на слуху.

▫️Эта работа — попытка сделать o1-подобный test-time inference и рассуждения в VLM.

Дообучили VLM (лламу) на синтетическом VQA (visual question answering) датасете, где ответ модели выстроен в виде четырех стадий:
🔹Summary.
🔹Caption.
🔹Reasoning.
🔹Conclusion.
Cтадии разделяются специальными токенами.

Датасет относительно небольшой, всего 100к примеров. Собрали поэтапным промптингом GPT-4o, так что полная синтетика.

Для инференса придумали stage-level beam search, благодаря которому и достигается эффект идентичный натуральному о1: для каждой стадии генерируется N кандидатов, модель выбирает лучший. В отличие от обычного beam search выбор между альтернативными гиппотезами происходит не на уровне токена, а на уровне стадии рассуждения. Так что оно последовательно думает над несколькими вариантами следующего большого шага, затем выбирает лучший.

🔺В результате получили результаты лучше Gemini Pro 1.5 и Gpt-4o-mini, почти догонали Sonnet 3.5. Очень неплохо если учесть, что использовали 11B модель и небольшой синтетический датасет. К сожалению не тестировали на MMMU-Pro, где как раз больше всего нужна какая-то способность рассуждать.

4.8K viewsedited 17:43

Борис опять

Forwarded from epsilon correct

На основе Gemini 2.0 Flash выпустили thinking модель, которая улетела вверх по бенчмаркам:

- Overall: #3 → #1
- Overall (Style Control): #4 → #1
- Math: #2 → #1
- Creative Writing: #2 → #1
- Hard Prompts: #1 → #1 (+14 pts)
- Vision: #1 → #1 (+16 pts)

Всего 32к контекста, зато бесплатно через AI Studio. В отличие от конкурентов, видно внутренний chain of thought. 😛

Please open Telegram to view this post

VIEW IN TELEGRAM

3.9K views21:55

Борис опять

ML Команда Точки выложила обзор на работу FELIX: Feature Engineering with LLMs for Interpretability and Explainability про использование LLM для инжиниринга признаков для NLP задач.
По результатам получается даже лучше, чем использовать эмбеддинги самой LLM, интересно.

Код открытый и можно воспроизвести в коллабе.
Подробности у них в канале .ml

Реклама, АО «Точка», ИНН 9705120864, 2Vtzqwi8z2V, 18 +

4.4K views09:00

Борис опять

Forwarded from .ml

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

4.3K views09:01

Борис опять

OpenAI выпустили модель о3 способную решить очень сложную задачу за $1.5k.

В связи с чем заявляю: решу ваши сложные задачи по $1.3k за штуку. Даже API к себе предоставлю (p90 время ответа 10 дней, в худшем случае месяца два, рейтлимит 1 запрос в месяц) и вы получите доступ к модели (мне) сразу, а не когда-нибудь.

Жду запросы в лс

Upd: в связи с обилием демпингующих предложений решить за $500 (но плохо) предлагаю сервис где вы платите мне $1099, а я нахожу исполнителя за $500 и контролирую его работу

5.3K viewsedited 21:15

Борис опять

Forwarded from Data, Stories and Languages

О насущном: состояние дел в индустрии

3.7K views10:04

Борис опять

Forwarded from Агенты ИИ | AGI_and_RL

Забавные моменты:
* получить 91% на 400 примерах public arc-agi стоило x172 больше ресурсов чем на 82%. Похоже больше ляма баксов (6677*172 = 1148444) если в деньгах.
* авторы ARC-AGI все же не думают что это AGI.

😏

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.5K views11:01

Борис опять

Некоторое время назад я прикидывал на коленке и у меня получалось, что test-time compute это вообще не выгодная по деньгам история. Когда ты тренируешь модель за дорого это делается один раз, а далее идет дешевый инференс. Грубо говоря как здание: построил и сдаешь в аренду. При любых capital expenses рано или поздно затраты отбиваются и чем больше у тебя клиентов, тем быстрее.

Это так же обеспечивало разделение труда и (сейчас будет базворд) демократизацию. Кто-то за огромные деньги обучил LLAMA, а ты её скачал и запускаешь на ноуте.

Если на этапе инференса тоже надо тратить сопоставимый по порядку с обучением компьют то вся прелесть схемы ломается. Чем больше у тебя клиентов тем больше нужно компьюта. Тем меньше у тебя ресурсов на обучение новых моделей. К тому же демократизация убивается полностью: такие модели доступны только тем, кто может постоянно использовать много компьюта.

После выхода о1 был спор про экономику test-time compute. Мне кажется безумные цены о3 говорят, что экономика в текущем виде неподъёмная.

Но я думаю мы скоро увидим как стоимость сильно упадет (когда Гугл сделает как у OpenAI, но лучше и дешевле).

4.3K viewsedited 11:02

Борис опять

Яндекс выпустил бесплатный хендбук по математике для анализа данных.

Там что-то не хватает теории вероятностей и линейной алгебры, но всё равно выглядит хорошо.

https://education.yandex.ru/handbook/math

education.yandex.ru

Хендбук по математике для аналитики и машинного обучения - Высшая математика с нуля

Практическое руководство по математике для начинающих специалистов в анализе данных. Теория, код и задачи для прикладного машинного обучения.

4.5K views13:57

Борис опять

Надо работать не восемь часов в день, а вот так.

Умеет же Дипмайнд продвигать HR бренд.

4.2K viewsedited 16:29

Борис опять

RWP16-016_Lerner.pdf

Воскресенье: читаю про использование вероятностных оценок в ЦРУ, потому что мне надо за одну главу книги продать читателю вероятностное мышление.

В работе экспериментально демонстрируют, что использовать вероятностные оценки лучше, чем слова. Причем не помогает даже создание специальных перечней слов, таких как "Words Of Estimative Probability", где определяется, например, что probable означает шанс 75%-+12%. Использование вероятностей даже для абсолютно субъективных мнений улучшает как точность прогнозов аналитиков, так и понимание этих прогнозов людьми принимающими решения.

4.4K viewsedited 18:21

Борис опять

It's so over

https://kyunghyuncho.me/i-sensed-anxiety-and-frustration-at-neurips24/

3.6K views09:55

Борис опять

Выход есть, PhD берите на заметку

https://www.ndtv.com/feature/made-over-1-million-youtube-zara-dar-quits-phd-to-become-adult-content-creator-7313245

"Made Over $1 Million": YouTuber Zara Dar Quits PhD To Become Adult Content Creator

"Moving on to doing OnlyFans and content creation full-time it's not just a career choice it feels kind of like a gamble on the direction of my entire life," Ms Dar said.

4.0K views11:04

Борис опять

Вот же она, как её там, шкала McKinsey

3.5K views12:11

Борис опять

Please open Telegram to view this post

VIEW IN TELEGRAM

3.2K viewsedited 13:42

Борис опять

3.0K views15:01

2024/12/27 01:33:09
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>