Справочник по генеративному ИИ
Нашли хороший справочник: целых девять разделов, и каждый из них затрагивает ключевые аспекты генеративного ИИ.
➡️ Но прежде чем электронный учебник откроет свои тайны, придется все же вспомнить основы прогнозирования временных рядов: анализ, обучение с подкреплением, рекуррентные нейронные сети и прочее. Когда вспомните об основных моментах, тогда уже можно начать изучать трансформеры, файнтюнинг LLM и узнать, что такое LoRA и RLHF.
➡️ Для тех, кто считает себя подкованным и уверен в своих силах: можете начать чтение с пятого раздела: там вы найдете темы по квантованию и мультимодальным моделям; особенно уделите внимание седьмому разделу, цель которого показать подходы для избежания проблемы квадратичного масштабирования, которым могут страдать трансформеры.
Нашли хороший справочник: целых девять разделов, и каждый из них затрагивает ключевые аспекты генеративного ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11
#Сбер: Middle/Senior Data analyst (команда GigaChat)
#Офис
➡️ Кому подойдет:
Кластер аналитики расширяет команду для лучшего учёта жизненных ситуаций в обслуживании розничных клиентов в контактном центре банка.
🚀 Откликнуться | Все вакансии
#Офис
Кластер аналитики расширяет команду для лучшего учёта жизненных ситуаций в обслуживании розничных клиентов в контактном центре банка.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Инвестиции в отечественный ИИ увеличились на 40%
⚪️ ИИ-разработчики в 2024 году увеличили инвестиции в оборудование на 40%, при этом оно оснащено российскими чипами, сообщает Коммерсант.
⚪️ Отмечается, что стоимость разработки одного готового решения для ИИ начинается с 100 млн руб. По прогнозам аналитиков такая техника составит 24% от всей выручки компаний по производству оборудования.
«На данный момент в России нет ажиотажного спроса на такое оборудование, однако с развитием ИИ уже со следующего года ожидаем серьезный интерес к нему»,— говорит один из участников рынка.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
#ЦИАН: Team Lead Data Scientist
#Офис / #Гибрид /#Удаленно
➡️ Кому подойдет:
Команда разделена на продуктовые стримы. ЦИАН формирует самодостаточные команды (разработчики, аналитики, ML-инженеры) для решения задач бизнес-направления. С процессами интеграции моделей в продакшн помогает команда MLOps-платформы. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу.
🚀 Откликнуться | Все вакансии
#Офис / #Гибрид /#Удаленно
Команда разделена на продуктовые стримы. ЦИАН формирует самодостаточные команды (разработчики, аналитики, ML-инженеры) для решения задач бизнес-направления. С процессами интеграции моделей в продакшн помогает команда MLOps-платформы. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Amazon все же согласился на гибрид?
Вокруг компании Amazon уже несколько месяцев бушует недовольство со стороны работников, которых принуждают вернуться с удаленки в офис.
➡️ Генеральный директор Энди Джесси явно дал понять своим сотрудникам, что если те не вернутся, то их ждет увольнение.
➡️ Однако сейчас всплыли забавные подробности этой ситуации: оказывается, офисы Amazon просто-напросто не готовы к резкому наплыву сотрудников.
➡️ В связи с этим сотрудникам из ряда крупных городов, таких как Нью-Йорк и Хьюстон, позволят работать в гибридном формате предположительно до мая месяца 😮💨
➡️ Комичность ситуации в том, что Amazon уже оказывалась в подобной ситуации в 2023 году, но тогда компания не могла позволить вернуть сотрудников даже на 3 дня в неделю.
Напомним, что многие компании начинают менять свою политику для работников и больше склоняются к полной отмене удаленной работы.
Вокруг компании Amazon уже несколько месяцев бушует недовольство со стороны работников, которых принуждают вернуться с удаленки в офис.
Напомним, что многие компании начинают менять свою политику для работников и больше склоняются к полной отмене удаленной работы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Собрали подборку вакансий для Data-аналитиков:
➡️ Beeline
Data-аналитик (антифрод)
Офис
➡️ X5 Tech
Middle/Senior Data Analyst в команду Мультивариативного анализа
Удаленно
➡️ Яндекс
Аналитик-разработчик в AliceGPT (LLM)
Офис, Гибрид
➡️ Магнит Tech
Senior Data Analyst
Офис, Гибрид, Удаленно
➡️ Ozon
Senior Data analyst, Подгруппа анализа данных
Офис
Data-аналитик (антифрод)
Офис
Middle/Senior Data Analyst в команду Мультивариативного анализа
Удаленно
Аналитик-разработчик в AliceGPT (LLM)
Офис, Гибрид
Senior Data Analyst
Офис, Гибрид, Удаленно
Senior Data analyst, Подгруппа анализа данных
Офис
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Андрей Карпаты поделился своим студенческим опытом. Вот несколько советов, которые он бы дал молодым студентам:
⚪️ Совет 1. График обучения — полезная вещь.
⚪️ Совет 2. Заранее ознакомьтесь с тем, чему вас будут обучать.
⚪️ Совет 3. Чтение и понимание — не то же самое, что воспроизведение содержания.
⚪️ Совет 4. Учитесь вместе с одногруппниками, но не сразу.
⚪️ Совет 5. Общайтесь со всеми одногруппниками.
⚪️ Совет 6. Придите к преподавателю на консультацию, хотя бы один раз.
⚪️ Совет 7. Математика: практика > теория.
⚪️ Совет 8. Находитесь там, где другие учатся.
⚪️ Совет 9. Важно осознать, что никому не будут интересны ваши оценки, если только они не плохие.
⚪️ Совет 10. Напутственные слова:
Составьте график обучения, даже если вы не планируете его придерживаться. Я это делал и делаю до сих пор для того, чтобы у меня возникло представление обо всем, что нужно узнать или сделать.
Во время учебы я старался просмотреть все экзаменационные вопросы до того, как начнется обучение. Это дает не только представление о том, как надо учиться по этому предмету, но еще и позволяет понять метод оценивания преподавателя.
Чтобы не попасть в ловушку "Да, я все понял", попробуйте закрыть учебник и воспроизвести ту формулу, которую только что прочли. Важно убедиться, что вы действительно можете написать ту или иную формулу.
Сначала отточите свои знания самостоятельно, но ближе к экзаменам или тестам активно общайтесь с одногруппниками или преподавателями; они укажут вам на возможные подводные камни в материале.
Общаться не только с сильными, но и со слабыми одногруппниками — очень полезная вещь. Сильные студенты помогут своим своим советом, а слабым студентам вы сможете что-то объяснить, это в свою очередь очень помогает в понимании материала.
Я заметил, что преподаватели охотнее рассказывают об экзамене тет-а-тет, нежели всей группе. Даже если это существенно не поможет, то это даст возможность преподавателю узнать вас с хорошей стороны.
Для таких предметов, как математика, важнее больше выполнять упражнения, чем читать теорию. Когда вы поймете, что с теорией достаточно, закрепляйте ее практикой. Это очень помогает не только закреплять материал, но и заполнять пробелы в знаниях.
Вы будете испытывать чувство стыда от того, что не занимаетесь. По крайней мере, мне это помогало :) Места с большим количеством шума плохи и, как показывают исследования, отрицательно влияют на обучение. Библиотеки и читальные залы подойдут лучше всего.
Ваше время — драгоценный, ограниченный ресурс. Достигните точки, когда вы не облажаетесь на экзаменах, а затем переключайте свое внимание на более важные вещи: получение реального опыта, поиск или создание своих проектов.
Вносите вклад в Open Source, создавайте или помогайте создавать что-то крутое и делитесь этим в своих блогах! Ведь это то, на что люди или работодатели будут смотреть через несколько лет. Ваши оценки? Это всего лишь помеха, с которой придется иметь дело по ходу обучения. Используйте свое время с умом и удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55
#Точка: Team Lead Data Scientist
#Офис / #Гибрид /#Удаленно
До 450 000 ₽
➡️ Кому подойдет:
Сейчас вакансия открыта для трех команд: Продукт, ML Team и Данные новых бизнес линий. В каждом из них решаются разные задачи: от классификации налоговый требований до генерации сайтов.
🚀 Откликнуться | Все вакансии
#Офис / #Гибрид /#Удаленно
До 450 000 ₽
Сейчас вакансия открыта для трех команд: Продукт, ML Team и Данные новых бизнес линий. В каждом из них решаются разные задачи: от классификации налоговый требований до генерации сайтов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Работаем с данными как ML-гуру: 1 часть – выявление выбросов
Все мечтают о том, чтобы лосс уменьшался как показательная функция, где параметр альфа меньше 1, а все метрики сходились к теоретическому идеалу. Но...
Как бы вы ни старались придумать классный алгоритм, оптимизировать вычисления – все это провальная идея, если ваши данные, мягко говоря, не очень. Не зря же бигтех так пристально смотрит на умение кандидата работать с данными.
Очень важно, чтоб данные были качественными и чистыми, ведь скор модели напрямую зависит от них. Поэтому мы начнем нашу серию постов с одной из самых частых проблем – выбросов:
Как же их обнаружить? Всего есть три вида методов:
➡️ Статистические;
➡️ Визуальные;
➡️ Методы на основе ML-алгоритмов.
Статистические методы базируются, как бы внезапно это не звучало, на статистических критериях:
➡️ Интерквартильный размах (IQR) – способ нахождения выбросов, основанный на квартилях. IQR == разница между первым и третим квартилями. Значения, которые находятся за пределами диапазона
➡️ Z-оценка. Показывает, насколько значение отклоняется от среднего и высчитывается, как показано на картинке. Но обязательно помните, что Z-оценка применяется только для нормальных данных (для проверки на нормальность можно воспользоваться критериями Шапиро-Уилка или Хи-квадрат, а если данные не нормальны, их можно попробовать логарифмировать или применить Box-Cox).
Визуальные методы – это про построение всевозможных графиков. Что можно рисовать:
➡️ Если у вас малое количество переменных, то можно построить точечный график для каждой фичи с таргетом;
➡️ Ящик с усами. Классика, которая вызывает у новичков наибольшее недопонимание. На самом деле все довольно просто: границы ящика – это первый и третий квартили, полоска внутри – медиана. Длина усов – ничто иное, как IQR помноженный на полтора. И снова: точки, которые не входят в этот размах – и есть выбросы;
➡️ Гистограмма. Если данные нормальные, ее можно сопоставлять с ящиком с усами и снова смотреть на IQR, как показано на картинке. На самом графике выбросы будут видны в виде длинных хвостов или отдельных "блоков" далеких от основной массы данных.
Наконец, ML-алгоритмы. Они чаще всего метрические, то есть базируются на определении дальности выбросов от скопления остальных точек.
➡️ Но есть и исключения. Например, метод Isolation Forest не является метрическим и основан на идее построения деревьев решений, где в среднем аномальные точки находятся в листьях деревьев близких к корню, то есть в листьях с низкой глубиной. Если у вас многомерные данные – обязательно попробуйте этот способ;
➡️ Если возвращаться к методам, основанным на плотностях точек, то в голову сразу приходит LOF. Этот алгоритм похож на метод k-ближайших соседей, и тоже требует настройки параметра K. Идея в том, что нужно посмотреть на плотность точки относительно ее соседей. Чем ниже плотность, чем больше шансов, что рассматриваемая точка является выбросом;
➡️ Еще есть идейно похожий на LOF метод DBSCAN, но этот алгоритм все же определяет аномалию через кластеризацию и уже требует тюнинга целых двух параметров (ϵ и minPts). Если LOF предоставляет оценку аномалии для каждой точки, то DBSCAN классифицирует точки как часть кластера или шум;
➡️ И последний, но не безызвестный One-Class SVM. One-Class SVM строит гиперплоскость, отделяющую основной кластер данных от выбросов с учетом плотности распределения точек. Если данные плохо линейны разделимы, можно играть с ядрами.
Обратите внимание: выбросы не всегда нужно удалять. Они могут указывать на редкие, но важные события. Учитывайте не только специфику задачи, но и природу данных, а для этого развивайте насмотренность. Больше практики и у вас все получится!
Все мечтают о том, чтобы лосс уменьшался как показательная функция, где параметр альфа меньше 1, а все метрики сходились к теоретическому идеалу. Но...
Как бы вы ни старались придумать классный алгоритм, оптимизировать вычисления – все это провальная идея, если ваши данные, мягко говоря, не очень. Не зря же бигтех так пристально смотрит на умение кандидата работать с данными.
Очень важно, чтоб данные были качественными и чистыми, ведь скор модели напрямую зависит от них. Поэтому мы начнем нашу серию постов с одной из самых частых проблем – выбросов:
Как же их обнаружить? Всего есть три вида методов:
Статистические методы базируются, как бы внезапно это не звучало, на статистических критериях:
[Q1 − 1.5 × IQR, Q3 + 1.5 × IQR]
, считаются выбросами. Довольно надежный метод, но работает плохо, если данные сильно асимметричны;Визуальные методы – это про построение всевозможных графиков. Что можно рисовать:
Наконец, ML-алгоритмы. Они чаще всего метрические, то есть базируются на определении дальности выбросов от скопления остальных точек.
Обратите внимание: выбросы не всегда нужно удалять. Они могут указывать на редкие, но важные события. Учитывайте не только специфику задачи, но и природу данных, а для этого развивайте насмотренность. Больше практики и у вас все получится!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44
Data Analyst (B2C)
Офис, Гибрид
Data Science (Разработка моделей КИБ и СМБ)
Удаленно
Data Engineer
Удаленно
Data Scientist в команду NLP
Удаленно
Computer Vision в качество ПВЗ
Офис, Гибрид
Аналитик данных в Data Office
Офис, Гибрид
Middle MLE/DS + NLP
До 300 000₽
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
AI Engineer World's Fair 2024
🔷 Этим летом прошло интересное мероприятие, на котором были собраны представители "большой технологической четверки": исследователи в области искусственного интеллекта от Google, Amazon, Microsoft, Anthropic и многих других компаний поделились своим опытом на AI Engineer World's Fair 2024.
🔷 Целых три дня с утра до вечера опытные специалисты рассказывали о передовых разработках, а также делились своими хитростями. В программе хоть и преобладающее число докладов было про генеративные модели (в основном про LLM: файтюнинг, RAG, галлюцинации), но также много внимания на мероприятии уделили агентам: создание, улучшение и их масштабирование. Например, вот здесь ребята из MongoDB проводят мастер-класс "The A to Z of Building AI Agents".
🔷 Мероприятие, хоть и рассчитано на специалистов с опытом, но и начинающие найдут для себя много полезного. Рекомендуем всем обязательно изучить эти воркшопы: Low Level Technicals of Large Language Models и Build, Evaluate and Deploy a RAG-based retail copilot with Azure AI. И да, каждый доклад можно посмотреть на YouTube, ссылку на все доклады оставляем здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22
DL-разработчик в группу качества Нейро
Офис
Аналитик данных в AvitoID
Офис, Гибрид, Удаленно
Старший Data Scientist, Эффективность рекламы
Офис
Data Engineer в команду контента
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Нетворкинг для стажера: 5 советов
Технические навыки - это, конечно, хорошо, но также не забываем о прокачке софт-скиллов, потому что каждому приходится взаимодействовать не только с компьютером, но и с различными командами. Ловите 5 советов стажерам по нетворкингу:
⭐ Первое, что нужно сделать новичку на пути в карьеру, это наладить связи с людьми, которые непосредственно связаны с профессией. Если вы хотите быть крутым дата-аналитиком, то резонно познакомиться с уже опытными сотрудниками этой сферы, а также хорошо бы подружиться со смежной ML-командой. Такие связи помогут понять, какие навыки действительно нужны и чем вы будете заниматься.
⭐ Второе, что нужно сделать, - составить список тех, с кем бы вы хотели познакомиться. Здесь очень поможет тактика "снежного кома", когда ты просишь одного человека познакомить тебя с другими. Еще полезные знакомства можно заиметь, посещая различные митапы: так вас не только запомнят, но еще у вас сложится понимание целей компании, где вы стажируетесь.
⭐ Нетворкинг - это важно, но не увлекайтесь слишком сильно. Все же вы пришли на стажировку, чтобы набраться не только новых знакомств, но и практического опыта. Делу время, а нетворкингу час.
⭐ Четвертый пункт - активное обучение. Будьте любопытны, открыты, внимательны и, самое главное, искренними. Старайтесь задавать вопросы, но не перебарщивайте: иногда лучше внести каплю самостоятельности в работу. Не пытайтесь выглядеть вовлеченным в задачи, если вы на самом деле не заинтересованы в этой работе - это сразу видно.
⭐ Даже если вам не предложили оффер по окончании стажировки, не расстраивайтесь и не прекращайте общаться с новыми знакомыми. В случае вопросов вы всегда сможете обратиться к своим бывшим коллегам, а также они смогут порекомендовать вас как добросовестного сотрудника своим знакомым.
Не стесняйтесь спрашивать и просить о помощи! Это будет вам только в плюс. Но и не забывайте, что нетворкинг - это круто и классно, но параллельно не забывайте прокачивать хард-скиллы.
Технические навыки - это, конечно, хорошо, но также не забываем о прокачке софт-скиллов, потому что каждому приходится взаимодействовать не только с компьютером, но и с различными командами. Ловите 5 советов стажерам по нетворкингу:
Не стесняйтесь спрашивать и просить о помощи! Это будет вам только в плюс. Но и не забывайте, что нетворкинг - это круто и классно, но параллельно не забывайте прокачивать хард-скиллы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14
#Lamoda: Senior Big Data Engineer
#Офис
Будет плюсом:
⭐ Опыт сбора и обработки требований;
⭐ Опыт работы с Docker.
🚀 Откликнуться | Все вакансии
#Офис
Будет плюсом:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Нашли курс по Deep Learning от Женевского университета
➖ Программа курса охватывает все основные темы, необходимые для глубокого обучения. В начале лекций рассказывается база DL без которой нельзя двигаться дальше: основы ML, работа перцептрона и метод обратного распространения ошибок.
➖ Далее объясняется работа оптимизаторов, L1 и L2 регуляризации, а также полный разбор нейронных сетей, включая батч-нормализацию, слои dropout, остаточные сети и использование графических процессоров.
➖ Курс также включает в себя изучение автокодировщиков, разбор задач обнаружения объектов, а также рассмотрение современных подходов, таких как GAN и трансформеры.
Все лекции есть в видео-формате и сопровождаются презентациями и раздаточным материалом.
Все лекции есть в видео-формате и сопровождаются презентациями и раздаточным материалом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13
#VK: Программист-исследователь в AI VK
#Офис / #Гибрид / #Удаленно
➡️ Кому подойдет:
Команда решает задачу поиска релевантных рекламных объявлений для пользователя. Если пользователь видит только полезную рекламу, а рекламодатель быстро находит нужное число пользователей своего продукта — значит, мы хорошо сделали свою работу.
🚀 Откликнуться | Все вакансии
#Офис / #Гибрид / #Удаленно
Команда решает задачу поиска релевантных рекламных объявлений для пользователя. Если пользователь видит только полезную рекламу, а рекламодатель быстро находит нужное число пользователей своего продукта — значит, мы хорошо сделали свою работу.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8
Вы думали, что только в российском бигтехе нужно проходить 100500 собеседований? Вот из чего состоит отбор на MLE в небольшом американском стартапе 🔵
Парень в своем блоге поделился опытом прохождения технического собеседования на должность MLE:
Парень в своем блоге поделился опытом прохождения технического собеседования на должность MLE:
На первом этапе мне дали решить две задачи уровня medium. Они оказались простыми, поэтому я решил их достаточно быстро. После мне задали вопросы по NLP, включая объяснение трансформеров и вопросы по позиционному кодированию. Еще попросили объяснить устройство моделей типа GPT или LLaMA, и вскользь спрашивали про Gemma и PaliGenMA. В целом само интервью было посвящено проверке понимания глубокого обучения и математики, что находится «под капотом» моделей.
После мне назначили еще одно собеседование с лидом, где задавали вопросы про RAG, ViTs, CLIP, SigLIp. Также спросили: «Как получить эмбеддинги для чанков из 100 слов?» и «Объясните работу энкодеров и декодеров».
На финальном этапе я потратил 20 минут на интервью с гендиректором, где меня уже спрашивали о моем опыте и проектах. На этом же собеседовании мне сказали ждать письмо о приеме в штат.
Надеюсь, мой опыт поможет другим кандидатам устроиться на работу🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45
Аналитик данных/Data analyst
Офис
От 105 000 ₽
Аналитик данных в команду монетизации Авито Работы
Офис
ML engineer (поиск)
Удаленно
Дата-Инженер
Офис
200 000 ₽
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7
Сколько платят инженерам в стартапах?
➡️ Недавно было проведено исследование зарплат в стартапах, в котором участвовало 450 таких компаний. По словам исследователей, они не устраивали опрос среди работников, а смотрели на реальные зарплаты.
➡️ Выяснилось, что джуны получают в среднем 90 000 до 130 000 долларов США, а инженеры уровня сеньер от 160 000 до 210 000 долларов США.
➡️ Для сравнения: средняя зарплата в Европе меньше. Например, на должность джуна платят 40 000 фунтов стерлингов (полная статистика тут), при этом если сравнивать сеньера и гендиректора, работающих в одном стартапе, то в среднем гендиректор получает меньше (132 000 долларов США).
Появилось желание пойти работать в стартап, чтобы потом рассказывать, что зарплата выше чем у начальника😁
Появилось желание пойти работать в стартап, чтобы потом рассказывать, что зарплата выше чем у начальника
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11