data_secrets_career 895 Telegram Group

Data Secrets | Карьера

Справочник по генеративному ИИ

Нашли хороший справочник: целых девять разделов, и каждый из них затрагивает ключевые аспекты генеративного ИИ.

➡️ Но прежде чем электронный учебник откроет свои тайны, придется все же вспомнить основы прогнозирования временных рядов: анализ, обучение с подкреплением, рекуррентные нейронные сети и прочее. Когда вспомните об основных моментах, тогда уже можно начать изучать трансформеры, файнтюнинг LLM и узнать, что такое LoRA и RLHF.

➡️ Для тех, кто считает себя подкованным и уверен в своих силах: можете начать чтение с пятого раздела: там вы найдете темы по квантованию и мультимодальным моделям; особенно уделите внимание седьмому разделу, цель которого показать подходы для избежания проблемы квадратичного масштабирования, которым могут страдать трансформеры.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11

2.78K views13:53

Data Secrets | Карьера

#Сбер: Middle/Senior Data analyst (команда GigaChat)
#Офис

➡️

Кому подойдет:
Кластер аналитики расширяет команду для лучшего учёта жизненных ситуаций в обслуживании розничных клиентов в контактном центре банка.

🚀

Откликнуться | Все вакансии

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

2.63K views09:54

Data Secrets | Карьера

Инвестиции в отечественный ИИ увеличились на 40%

⚪️ ИИ-разработчики в 2024 году увеличили инвестиции в оборудование на 40%, при этом оно оснащено российскими чипами, сообщает Коммерсант.

⚪️ Отмечается, что стоимость разработки одного готового решения для ИИ начинается с 100 млн руб. По прогнозам аналитиков такая техника составит 24% от всей выручки компаний по производству оборудования.

«На данный момент в России нет ажиотажного спроса на такое оборудование, однако с развитием ИИ уже со следующего года ожидаем серьезный интерес к нему»,— говорит один из участников рынка.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

2.67K views14:14

Data Secrets | Карьера

#ЦИАН: Team Lead Data Scientist
#Офис / #Гибрид /#Удаленно

➡️

Кому подойдет:
Команда разделена на продуктовые стримы. ЦИАН формирует самодостаточные команды (разработчики, аналитики, ML-инженеры) для решения задач бизнес-направления. С процессами интеграции моделей в продакшн помогает команда MLOps-платформы. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу.

🚀

Откликнуться | Все вакансии

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

2.64K views08:57

Data Secrets | Карьера

Amazon все же согласился на гибрид?

Вокруг компании Amazon уже несколько месяцев бушует недовольство со стороны работников, которых принуждают вернуться с удаленки в офис.

➡️ Генеральный директор Энди Джесси явно дал понять своим сотрудникам, что если те не вернутся, то их ждет увольнение.

➡️ Однако сейчас всплыли забавные подробности этой ситуации: оказывается, офисы Amazon просто-напросто не готовы к резкому наплыву сотрудников.

➡️В связи с этим сотрудникам из ряда крупных городов, таких как Нью-Йорк и Хьюстон, позволят работать в гибридном формате предположительно до мая месяца 😮‍💨

➡️Комичность ситуации в том, что Amazon уже оказывалась в подобной ситуации в 2023 году, но тогда компания не могла позволить вернуть сотрудников даже на 3 дня в неделю.

Напомним, что многие компании начинают менять свою политику для работников и больше склоняются к полной отмене удаленной работы.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.64K views13:48

Data Secrets | Карьера

Собрали подборку вакансий для Data-аналитиков:

➡️ Beeline
Data-аналитик (антифрод)
Офис

➡️ X5 Tech
Middle/Senior Data Analyst в команду Мультивариативного анализа
Удаленно

➡️ Яндекс
Аналитик-разработчик в AliceGPT (LLM)
Офис, Гибрид

➡️ Магнит Tech
Senior Data Analyst
Офис, Гибрид, Удаленно

➡️ Ozon
Senior Data analyst, Подгруппа анализа данных
Офис

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.68K views09:45

Data Secrets | Карьера

Андрей Карпаты поделился своим студенческим опытом. Вот несколько советов, которые он бы дал молодым студентам:

⚪️

Совет 1. График обучения — полезная вещь.

Составьте график обучения, даже если вы не планируете его придерживаться. Я это делал и делаю до сих пор для того, чтобы у меня возникло представление обо всем, что нужно узнать или сделать.

⚪️

Совет 2. Заранее ознакомьтесь с тем, чему вас будут обучать.

Во время учебы я старался просмотреть все экзаменационные вопросы до того, как начнется обучение. Это дает не только представление о том, как надо учиться по этому предмету, но еще и позволяет понять метод оценивания преподавателя.

⚪️

Совет 3. Чтение и понимание — не то же самое, что воспроизведение содержания.

Чтобы не попасть в ловушку "Да, я все понял", попробуйте закрыть учебник и воспроизвести ту формулу, которую только что прочли. Важно убедиться, что вы действительно можете написать ту или иную формулу.

⚪️

Совет 4. Учитесь вместе с одногруппниками, но не сразу.

Сначала отточите свои знания самостоятельно, но ближе к экзаменам или тестам активно общайтесь с одногруппниками или преподавателями; они укажут вам на возможные подводные камни в материале.

⚪️

Совет 5. Общайтесь со всеми одногруппниками.

Общаться не только с сильными, но и со слабыми одногруппниками — очень полезная вещь. Сильные студенты помогут своим своим советом, а слабым студентам вы сможете что-то объяснить, это в свою очередь очень помогает в понимании материала.

⚪️

Совет 6. Придите к преподавателю на консультацию, хотя бы один раз.

Я заметил, что преподаватели охотнее рассказывают об экзамене тет-а-тет, нежели всей группе. Даже если это существенно не поможет, то это даст возможность преподавателю узнать вас с хорошей стороны.

⚪️

Совет 7. Математика: практика > теория.

Для таких предметов, как математика, важнее больше выполнять упражнения, чем читать теорию. Когда вы поймете, что с теорией достаточно, закрепляйте ее практикой. Это очень помогает не только закреплять материал, но и заполнять пробелы в знаниях.

⚪️

Совет 8. Находитесь там, где другие учатся.

Вы будете испытывать чувство стыда от того, что не занимаетесь. По крайней мере, мне это помогало :) Места с большим количеством шума плохи и, как показывают исследования, отрицательно влияют на обучение. Библиотеки и читальные залы подойдут лучше всего.

⚪️

Совет 9. Важно осознать, что никому не будут интересны ваши оценки, если только они не плохие.

Ваше время — драгоценный, ограниченный ресурс. Достигните точки, когда вы не облажаетесь на экзаменах, а затем переключайте свое внимание на более важные вещи: получение реального опыта, поиск или создание своих проектов.

⚪️

Совет 10. Напутственные слова:

Вносите вклад в Open Source, создавайте или помогайте создавать что-то крутое и делитесь этим в своих блогах! Ведь это то, на что люди или работодатели будут смотреть через несколько лет. Ваши оценки? Это всего лишь помеха, с которой придется иметь дело по ходу обучения. Используйте свое время с умом и удачи!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤55

3.25K views15:06

Data Secrets | Карьера

#Точка: Team Lead Data Scientist
#Офис / #Гибрид /#Удаленно
До 450 000 ₽

➡️

Кому подойдет:
Сейчас вакансия открыта для трех команд: Продукт, ML Team и Данные новых бизнес линий. В каждом из них решаются разные задачи: от классификации налоговый требований до генерации сайтов.

🚀

Откликнуться | Все вакансии

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.66K views08:57

Data Secrets | Карьера

Работаем с данными как ML-гуру: 1 часть – выявление выбросов

Все мечтают о том, чтобы лосс уменьшался как показательная функция, где параметр альфа меньше 1, а все метрики сходились к теоретическому идеалу. Но...

Как бы вы ни старались придумать классный алгоритм, оптимизировать вычисления – все это провальная идея, если ваши данные, мягко говоря, не очень. Не зря же бигтех так пристально смотрит на умение кандидата работать с данными.

Очень важно, чтоб данные были качественными и чистыми, ведь скор модели напрямую зависит от них. Поэтому мы начнем нашу серию постов с одной из самых частых проблем – выбросов:

Как же их обнаружить? Всего есть три вида методов:

➡️ Статистические;
➡️ Визуальные;
➡️ Методы на основе ML-алгоритмов.

Статистические методы базируются, как бы внезапно это не звучало, на статистических критериях:

➡️ Интерквартильный размах (IQR) – способ нахождения выбросов, основанный на квартилях. IQR == разница между первым и третим квартилями. Значения, которые находятся за пределами диапазона
[Q1 − 1.5 × IQR, Q3 + 1.5 × IQR], считаются выбросами. Довольно надежный метод, но работает плохо, если данные сильно асимметричны;

➡️ Z-оценка. Показывает, насколько значение отклоняется от среднего и высчитывается, как показано на картинке. Но обязательно помните, что Z-оценка применяется только для нормальных данных (для проверки на нормальность можно воспользоваться критериями Шапиро-Уилка или Хи-квадрат, а если данные не нормальны, их можно попробовать логарифмировать или применить Box-Cox).

Визуальные методы – это про построение всевозможных графиков. Что можно рисовать:

➡️ Если у вас малое количество переменных, то можно построить точечный график для каждой фичи с таргетом;

➡️ Ящик с усами. Классика, которая вызывает у новичков наибольшее недопонимание. На самом деле все довольно просто: границы ящика – это первый и третий квартили, полоска внутри – медиана. Длина усов – ничто иное, как IQR помноженный на полтора. И снова: точки, которые не входят в этот размах – и есть выбросы;

➡️ Гистограмма. Если данные нормальные, ее можно сопоставлять с ящиком с усами и снова смотреть на IQR, как показано на картинке. На самом графике выбросы будут видны в виде длинных хвостов или отдельных "блоков" далеких от основной массы данных.

Наконец, ML-алгоритмы. Они чаще всего метрические, то есть базируются на определении дальности выбросов от скопления остальных точек.

➡️ Но есть и исключения. Например, метод Isolation Forest не является метрическим и основан на идее построения деревьев решений, где в среднем аномальные точки находятся в листьях деревьев близких к корню, то есть в листьях с низкой глубиной. Если у вас многомерные данные – обязательно попробуйте этот способ;

➡️ Если возвращаться к методам, основанным на плотностях точек, то в голову сразу приходит LOF. Этот алгоритм похож на метод k-ближайших соседей, и тоже требует настройки параметра K. Идея в том, что нужно посмотреть на плотность точки относительно ее соседей. Чем ниже плотность, чем больше шансов, что рассматриваемая точка является выбросом;

➡️ Еще есть идейно похожий на LOF метод DBSCAN, но этот алгоритм все же определяет аномалию через кластеризацию и уже требует тюнинга целых двух параметров (ϵ и minPts). Если LOF предоставляет оценку аномалии для каждой точки, то DBSCAN классифицирует точки как часть кластера или шум;

➡️ И последний, но не безызвестный One-Class SVM. One-Class SVM строит гиперплоскость, отделяющую основной кластер данных от выбросов с учетом плотности распределения точек. Если данные плохо линейны разделимы, можно играть с ядрами.

Обратите внимание: выбросы не всегда нужно удалять. Они могут указывать на редкие, но важные события. Учитывайте не только специфику задачи, но и природу данных, а для этого развивайте насмотренность. Больше практики и у вас все получится!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤44

3.06K views14:48

Data Secrets | Карьера

➡️

Сбер
Data Analyst (B2C)
Офис, Гибрид

➡️ Иннотех
Data Science (Разработка моделей КИБ и СМБ)
Удаленно

➡️

Авиасейлс
Data Engineer
Удаленно

➡️

2GIS
Data Scientist в команду NLP
Удаленно

➡️

Wildberries
Computer Vision в качество ПВЗ
Офис, Гибрид

➡️

VK Team
Аналитик данных в Data Office
Офис, Гибрид

➡️

Автомакон
Middle MLE/DS + NLP
До 300 000₽
Удаленно

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.68K views09:34

Data Secrets | Карьера

AI Engineer World's Fair 2024

🔷 Этим летом прошло интересное мероприятие, на котором были собраны представители "большой технологической четверки": исследователи в области искусственного интеллекта от Google, Amazon, Microsoft, Anthropic и многих других компаний поделились своим опытом на AI Engineer World's Fair 2024.

🔷 Целых три дня с утра до вечера опытные специалисты рассказывали о передовых разработках, а также делились своими хитростями. В программе хоть и преобладающее число докладов было про генеративные модели (в основном про LLM: файтюнинг, RAG, галлюцинации), но также много внимания на мероприятии уделили агентам: создание, улучшение и их масштабирование. Например, вот здесь ребята из MongoDB проводят мастер-класс "The A to Z of Building AI Agents".

🔷 Мероприятие, хоть и рассчитано на специалистов с опытом, но и начинающие найдут для себя много полезного. Рекомендуем всем обязательно изучить эти воркшопы: Low Level Technicals of Large Language Models и Build, Evaluate and Deploy a RAG-based retail copilot with Azure AI. И да, каждый доклад можно посмотреть на YouTube, ссылку на все доклады оставляем здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.88K views15:10

Data Secrets | Карьера

В канун Нового Года работа дарит не горящую елку, а горящие дедлайны 🥲

Please open Telegram to view this post

VIEW IN TELEGRAM

❤22

2.65K views13:46

Data Secrets | Карьера

➡️

Яндекс
DL-разработчик в группу качества Нейро
Офис

➡️ Авито
Аналитик данных в AvitoID
Офис, Гибрид, Удаленно

➡️

Ozon
Старший Data Scientist, Эффективность рекламы
Офис

➡️

Wildberries
Data Engineer в команду контента
Удаленно

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.56K views09:04

Data Secrets | Карьера

Нетворкинг для стажера: 5 советов

Технические навыки - это, конечно, хорошо, но также не забываем о прокачке софт-скиллов, потому что каждому приходится взаимодействовать не только с компьютером, но и с различными командами. Ловите 5 советов стажерам по нетворкингу:

⭐ Первое, что нужно сделать новичку на пути в карьеру, это наладить связи с людьми, которые непосредственно связаны с профессией. Если вы хотите быть крутым дата-аналитиком, то резонно познакомиться с уже опытными сотрудниками этой сферы, а также хорошо бы подружиться со смежной ML-командой. Такие связи помогут понять, какие навыки действительно нужны и чем вы будете заниматься.

⭐ Второе, что нужно сделать, - составить список тех, с кем бы вы хотели познакомиться. Здесь очень поможет тактика "снежного кома", когда ты просишь одного человека познакомить тебя с другими. Еще полезные знакомства можно заиметь, посещая различные митапы: так вас не только запомнят, но еще у вас сложится понимание целей компании, где вы стажируетесь.

⭐

Нетворкинг - это важно, но не увлекайтесь слишком сильно. Все же вы пришли на стажировку, чтобы набраться не только новых знакомств, но и практического опыта. Делу время, а нетворкингу час.

⭐ Четвертый пункт - активное обучение. Будьте любопытны, открыты, внимательны и, самое главное, искренними. Старайтесь задавать вопросы, но не перебарщивайте: иногда лучше внести каплю самостоятельности в работу. Не пытайтесь выглядеть вовлеченным в задачи, если вы на самом деле не заинтересованы в этой работе - это сразу видно.

⭐ Даже если вам не предложили оффер по окончании стажировки, не расстраивайтесь и не прекращайте общаться с новыми знакомыми. В случае вопросов вы всегда сможете обратиться к своим бывшим коллегам, а также они смогут порекомендовать вас как добросовестного сотрудника своим знакомым.

Не стесняйтесь спрашивать и просить о помощи! Это будет вам только в плюс. Но и не забывайте, что нетворкинг - это круто и классно, но параллельно не забывайте прокачивать хард-скиллы.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14

2.83K views14:54

Data Secrets | Карьера

#Lamoda: Senior Big Data Engineer
#Офис

Будет плюсом:
⭐Опыт сбора и обработки требований;
⭐Опыт работы с Docker.

🚀

Откликнуться | Все вакансии

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

2.67K views08:39

Data Secrets | Карьера

Нашли курс по Deep Learning от Женевского университета

➖ Программа курса охватывает все основные темы, необходимые для глубокого обучения. В начале лекций рассказывается база DL без которой нельзя двигаться дальше: основы ML, работа перцептрона и метод обратного распространения ошибок.

➖ Далее объясняется работа оптимизаторов, L1 и L2 регуляризации, а также полный разбор нейронных сетей, включая батч-нормализацию, слои dropout, остаточные сети и использование графических процессоров.

➖ Курс также включает в себя изучение автокодировщиков, разбор задач обнаружения объектов, а также рассмотрение современных подходов, таких как GAN и трансформеры.

Все лекции есть в видео-формате и сопровождаются презентациями и раздаточным материалом.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13

2.82K views14:27

Data Secrets | Карьера

#VK: Программист-исследователь в AI VK
#Офис / #Гибрид / #Удаленно

➡️

Кому подойдет:
Команда решает задачу поиска релевантных рекламных объявлений для пользователя. Если пользователь видит только полезную рекламу, а рекламодатель быстро находит нужное число пользователей своего продукта — значит, мы хорошо сделали свою работу.

🚀

Откликнуться | Все вакансии

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8

2.53K views09:02

Data Secrets | Карьера

Вы думали, что только в российском бигтехе нужно проходить 100500 собеседований? Вот из чего состоит отбор на MLE в небольшом американском стартапе

🔵

Парень в своем блоге поделился опытом прохождения технического собеседования на должность MLE:

На первом этапе мне дали решить две задачи уровня medium. Они оказались простыми, поэтому я решил их достаточно быстро. После мне задали вопросы по NLP, включая объяснение трансформеров и вопросы по позиционному кодированию. Еще попросили объяснить устройство моделей типа GPT или LLaMA, и вскользь спрашивали про Gemma и PaliGenMA. В целом само интервью было посвящено проверке понимания глубокого обучения и математики, что находится «под капотом» моделей.

После мне назначили еще одно собеседование с лидом, где задавали вопросы про RAG, ViTs, CLIP, SigLIp. Также спросили: «Как получить эмбеддинги для чанков из 100 слов?» и «Объясните работу энкодеров и декодеров».

На финальном этапе я потратил 20 минут на интервью с гендиректором, где меня уже спрашивали о моем опыте и проектах. На этом же собеседовании мне сказали ждать письмо о приеме в штат.

Надеюсь, мой опыт поможет другим кандидатам устроиться на работу 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

❤45

2.72K views14:41

Data Secrets | Карьера

➡️

Сбер
Аналитик данных/Data analyst
Офис
От 105 000 ₽

➡️

Авито
Аналитик данных в команду монетизации Авито Работы
Офис

➡️

Магнит Tech
ML engineer (поиск)
Удаленно

➡️

LSR Group
Дата-Инженер
Офис
200 000 ₽

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

2.66K views09:20

Data Secrets | Карьера

Сколько платят инженерам в стартапах?

➡️ Недавно было проведено исследование зарплат в стартапах, в котором участвовало 450 таких компаний. По словам исследователей, они не устраивали опрос среди работников, а смотрели на реальные зарплаты.

➡️ Выяснилось, что джуны получают в среднем 90 000 до 130 000 долларов США, а инженеры уровня сеньер от 160 000 до 210 000 долларов США.

➡️ Для сравнения: средняя зарплата в Европе меньше. Например, на должность джуна платят 40 000 фунтов стерлингов (полная статистика тут), при этом если сравнивать сеньера и гендиректора, работающих в одном стартапе, то в среднем гендиректор получает меньше (132 000 долларов США).

Появилось желание пойти работать в стартап, чтобы потом рассказывать, что зарплата выше чем у начальника

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11

2.58K views14:50

2025/09/11 02:02:45
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>