Что общего у гвоздей, флуоресцентной мыши и искусственного интеллекта?
На встрече с Юрием Вяткиным, директором по инновациям компании NOVEL, мы говорили о карьерных треках в биоинформатике, трендах развития отрасли и о том, почему главный навык в профессии - энтузиазм.
Мы собрали самые яркие цитаты Юрия из эфира - листайте карточки! А запись встречи можно найти по ссылке➡️
#openbio_career #openbio_webinar #openbio_interview
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
На встрече с Юрием Вяткиным, директором по инновациям компании NOVEL, мы говорили о карьерных треках в биоинформатике, трендах развития отрасли и о том, почему главный навык в профессии - энтузиазм.
✨ Кстати, в NOVEL сейчас открыты стажировки для студентов по специальностям "информационные технологии" и "data science", "биоинформатика" и "естественные науки" - отличная возможность попробовать себя в реальных проектах!
Мы собрали самые яркие цитаты Юрия из эфира - листайте карточки! А запись встречи можно найти по ссылке
#openbio_career #openbio_webinar #openbio_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🐳5🔥1
Машинное обучение в биологии и биомедицине | OpenBio.Edu
Новый гость третьего сезона встреч с экспертами - встречайте Фёдора Колпакова на вебинаре «Карьерный путь биоинформатика: от студента до лидера»! 🧬 Фёдор Анатольевич - научный руководитель направления «Вычислительная биология» в НТУ «Сириус» и заведующий…
В 19:00 по Мск начинаем открытую встречу про карьеру в биоинформатике, перспективы вычислительной биологии и будущее геномных исследований.
До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤1
Функция потерь Хубера, также известная как сглаженная средняя абсолютная ошибка, представляет собой кусочно-квадратичную функцию: квадратичная для малых ошибок и линейная для больших. Она параметризуется пороговым значением δ (дельта), определяющим точку перехода от квадратичной к линейной форме потерь.
Математически определяется как:
Lδ =
⎧ 1/2 (y - ŷ)² ,если |y - ŷ| < δ
⎨
⎩ δ (|y - ŷ| - 1/2 δ) , иначе
Функция Хубера сочетает в себе чувствительность к небольшим ошибкам MSE (обеспечивая плавные градиенты, полезные при оптимизации) с устойчивостью к выбросам, характерной для MAE.
Применяется в задачах регрессии с ожидаемыми выбросами, обеспечивая стабильный и менее чувствительный показатель потерь по сравнению с MAE.
Функция потерь логарифмического косинуса имеет логарифмическую и гиперболическую косинусную составляющие, что обеспечивает гладкую, выпуклую функцию.
Она определяется как:
Llog-cosh(y, ŷ) = log(cosh(y - ŷ))
Ключевое преимущество Log-Cosh заключается в его дифференцируемости везде, включая нулевое значение, в отличие от MAE, которая не дифференцируема в нуле. Это свойство обеспечивает бесперебойную работу методов градиентного спуска, исключая проблемы недифференцируемости. Log-Cosh сочетает преимущества MSE (плавные градиенты для оптимизации) и MAE (устойчивость к выбросам), что делает его идеальным для задач регрессии, особенно когда важно правильно прогнозировать тренд, а не устранять каждый выброс.
Когда использовать?
А как именно их применять к реальным биологическим данным и что выбрать в конкретной задаче — мы подробно разбираем на курсе по машинному обучению в биологии и медицине. Всё — с практикой и понятными примерами.
Использовали ли Вы Log-cosh или Huber? Делитесь в комментариях!
#openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3
Media is too big
VIEW IN TELEGRAM
Переобучение в биомедицине: как не обмануться «идеальной» моделью?
Представьте студента, который готовится к экзамену. Не пытается понять предмет, а зазубривает ответы на 30 билетов из методички. На экзамене блестяще отвечает на эти 30 вопросов и получает "отлично". Но столкнись он с реальной задачей, даже немного отличающейся от билета, - провал.
В машинном обучении это называется переобучение (overfitting). Модель не выявляет общие биологические закономерности, а "запоминает" конкретные образцы из обучающей выборки, включая случайный шум. Результат? Идеальные метрики на тренировочных данных и провал на новых, реальных пациентах или клеточных линиях.
Переобучение встречается везде, но модели для биомедицинских данных ей особенно подвержены.
Основные причины:
1️⃣ Проклятие размерности (P >> N)
2️⃣ Батч-эффекты
3️⃣ Биологическая гетерогенность
Переобучение: как заметить проблему вовремя?
Основной признак переобучения - расхождение метрик качества обучения. Модель, как студент, должна хорошо решать и тренировочные задачи, и тестовые.
✔️ Хорошая модель: Метрики сопоставимы. При глубоком обучении кривые качества обучения на тренировочных и тестовых данных растут, а кривые функций потерь падают. Студент учится и хорошо сдает пробные тесты.
➗ Переобученная модель: отличные метрики на тренировочных данных и плохие на тестовых. При глубоком обучении кривая качества обучения на тренировочных данных растет, в то время как на тестовых замирает или начинает падать. Студент идеально выучил билеты, но его способность решать новые задачи ухудшается, так как он уже заучивает ответы, а не думает над ними. Иногда модель почти мгновенно начинает идеально предсказывать тренировочные данные, но плохо предсказывает тестовые – она сразу переобучилась, запомнила тренировочные данные даже не пытаясь их понять.
#openbio_python #openbio_practice #openbio_education
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Представьте студента, который готовится к экзамену. Не пытается понять предмет, а зазубривает ответы на 30 билетов из методички. На экзамене блестяще отвечает на эти 30 вопросов и получает "отлично". Но столкнись он с реальной задачей, даже немного отличающейся от билета, - провал.
В машинном обучении это называется переобучение (overfitting). Модель не выявляет общие биологические закономерности, а "запоминает" конкретные образцы из обучающей выборки, включая случайный шум. Результат? Идеальные метрики на тренировочных данных и провал на новых, реальных пациентах или клеточных линиях.
Переобучение встречается везде, но модели для биомедицинских данных ей особенно подвержены.
Основные причины:
У вас может быть 20 000 признаков (генов, белков, метаболитов, клинических параметров) и всего 50 образцов (пациентов). Достаточно сложные модели могут найти тысячи способов идеально "подогнать" данные под ответ, даже если ответа нет вовсе.
Всегда есть технические артефакты, связанные с разным оборудованием, реагентами, условиями экспериментов и они часто оказываются более сильным сигналом, чем сама биология. Переобученная модель с радостью "выучит" эти артефакты и будет предсказывать номер секвенатора, комнату в виварии или кабинет МРТ, а не действительно разные группы клеток, животных или пациентов.
Каждый пациент и каждый образец уникален, а наши критерии для их разделения в разные группы могут быть неточны или вовсе неправильны. Плюс биологические данные априорно "шумные", ведь природа в своем слепом творчестве работает не по нашим техническим заданиям.
Переобучение: как заметить проблему вовремя?
Основной признак переобучения - расхождение метрик качества обучения. Модель, как студент, должна хорошо решать и тренировочные задачи, и тестовые.
Смотрите первую часть практической иллюстрации о том, как ловить переобучение в нашем скринкасте от Дмитрия Хочанского - между прочим, выпускника нашего курса по машинному обучению 😎
#openbio_python #openbio_practice #openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4🔥4
В рамках подготовки к курсу «Машинное обучение в биологии и биомедицине» мы регулярно проводим открытые встречи с экспертами в области биоинформатики, биомедицины и инженерии машинного обучения. На последней встрече с Федором Колпаковым мы обсудили текущие тенденции в научной сфере и ключевые навыки для профессионального успеха.
Сегодня делимся выдержками из этого интервью:
1️⃣ Почему вы решили идти до конца и защищать и кандидатскую, и докторскую?
2️⃣ Как проходила работа над проектом GenNet и чем она была для вас особенной?
3️⃣ Что делать с ошибками в математических моделях и можно ли им доверять?
4️⃣ Как вам удаётся совмещать академическую науку и коммерческую деятельность?
Найти другие интервью можно в нашем канале по тегу #openbio_interview, а уже скоро - следующая встреча с экспертом!
#openbio_career #openbio_webinar #openbio_expert
📍 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Сегодня делимся выдержками из этого интервью:
Накопительный эффект - очень важная концепция. Если мы посмотрим на другие профессии, то к 40–50 годам людям тяжело устроиться на рынке. А у учёных есть несгораемые достижения - кандидатская, докторская, профессорская степени - которые остаются на всю жизнь и позволяют быть востребованным даже в преклонном возрасте.
В ходе работы я впервые встретился с эффектом, когда несколько человек, работая вместе, находят решение, которое одному было бы недоступно. Причём это не критика, а использование совместного разума - коллективное высказывание пожеланий и требований, из которых рождается понимание, как реализовать задачу. Иногда даже несколько голов дают результат, который ни один специалист в одиночку не смог бы придумать.
Есть два взгляда на математические модели. Одни считают, что они нужны, чтобы предсказывать будущее, а я больше придерживаюсь мнения, что модели нужны, чтобы убедиться, что мы правильно понимаем процессы. Когда читаешь статьи, всё выглядит логично, но когда пытаешься описать это математически, сразу видно пробелы и противоречия. И если модель совпадает с экспериментом - значит, мы действительно что-то поняли.
В совмещении есть свои плюсы и минусы. На гранты учёные создают открытые продукты, и они часто не хуже коммерческих. Но коммерческая составляющая даёт гибкость: можно принять человека за день, решить задачу быстро. Поэтому в нужный момент выступаем как академическая структура, а в другой - как бизнес. Это сочетание позволяет и сохранить глубину исследований, и получить гибкость исследований.
Найти другие интервью можно в нашем канале по тегу #openbio_interview, а уже скоро - следующая встреча с экспертом!
#openbio_career #openbio_webinar #openbio_expert
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👍2
Media is too big
VIEW IN TELEGRAM
Тактика борьбы с переобучением: не бейте студента книжкой по голове, или вторая часть статьи от Дмитрия Хочанского!
1️⃣ Упрощение модели
2️⃣ Регуляризация
3️⃣ Ранняя остановка (Early Stopping)
4️⃣ Подготовка и аугментация данных
Всегда стоит помнить, что вы, как ученый в науке данных, являетесь учителем, а ваша модель - вашим учеником. Ваша задача - хорошо ее подготовить, чтобы не пришлось краснеть, когда она покинет стены учебного заведения в реальный мир, где все не по учебникам, а цена ошибки это не неуд в зачетке. Хотите знать как - приходите к нам, и вы на практике научитесь:
🔺 Работать в условиях "проклятия размерности" и не бояться его.
🔺 Осознанно применять регуляризацию на реальных геномных, транскриптомных данных и в анализе изображений.
🔺 Выстраивать надежные пайплайны с кросс-валидацией, которые дадут честную оценку вашей модели.
🔺 Интерпретировать результаты так, чтобы отличать реальный биологический сигнал от статистического артефакта.
Не обманывайтесь идеальными метриками и научитесь строить модели, которые действительно работают с OpenBio - следующий поток курса уже скоро!
#openbio_python #openbio_practice #openbio_education
📍 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Гвоздь можно забить и конфокальным микроскопом, но зачем? Начните с более простых моделей (например, логистической регрессии) - им не так страшен шум и нужно меньше данных, их сложнее переобучить. Ваша задача – найти максимально сложную модель, которая на ваших данных не переобучится. Иногда это довольно простая модель. Иногда простота лучше коварства!
Это способ "оштрафовать" модель за излишнюю сложность и количество параметров. Их много и разные классы алгоритмов машинного обучения используют свои методы регуляризации.
Если мы учим модель эпохами, то прекращаем обучение, когда метрика на тестовой выборке перестает улучшаться. Не даем нашему студенту от скуки начать зазубривать номера страниц в учебнике, особенно если он изначально учился правильно.
Иногда модель переобучается, потому что тренировочные данные плохие или их недостаточно даже для самого умного ученика. Тогда мы обязаны вернуться к тренировочным данным и почистить их и, если возможно, аугментировать или синтезировать дополнительные.
Всегда стоит помнить, что вы, как ученый в науке данных, являетесь учителем, а ваша модель - вашим учеником. Ваша задача - хорошо ее подготовить, чтобы не пришлось краснеть, когда она покинет стены учебного заведения в реальный мир, где все не по учебникам, а цена ошибки это не неуд в зачетке. Хотите знать как - приходите к нам, и вы на практике научитесь:
Не обманывайтесь идеальными метриками и научитесь строить модели, которые действительно работают с OpenBio - следующий поток курса уже скоро!
#openbio_python #openbio_practice #openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2😍1🤓1
Мы продолжаем серию встреч с экспертами в сфере биоинформатики, и уже 10 сентября к нам в гости придёт Антон Чугунов — кандидат физико-математических наук, старший научный сотрудник Института биоорганической химии РАН и специалист в области структурной биоинформатики.
Антон занимается моделированием пространственной структуры и динамики белков, уделяя особое внимание мембранным рецепторам и ионным каналам. Он окончил биофак МГУ, читает курс по моделированию биомолекул в МФТИ, известен как сооснователь и главный редактор научно-популярного проекта «Биомолекула», а также — выпускник нашего курса!
На встрече мы обсудим:
🔺 путь Антона в науке и ключевые проекты в структурной биоинформатике
🔺 как моделирование помогает раскрывать свойства белков и ионных каналов
🔺 перспективы применения структурных методов в биомедицине
🔺 опыт популяризации науки и проект «Биомолекула»
Встреча состоится 10 сентября в 19:00 по Мск
✔️ Зарегистрируйтесь, чтобы получить ссылку на трансляцию и запись вебинара.
❔ Оставляйте вопросы спикеру в комментариях — мы обязательно их озвучим.
Увидимся в эфире!
#openbio_career #openbio_webinar #openbio_interview
📍 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь! ➡️
Антон занимается моделированием пространственной структуры и динамики белков, уделяя особое внимание мембранным рецепторам и ионным каналам. Он окончил биофак МГУ, читает курс по моделированию биомолекул в МФТИ, известен как сооснователь и главный редактор научно-популярного проекта «Биомолекула», а также — выпускник нашего курса!
Трансляции проходят в рамках курса «Машинное обучение в биологии и биомедицине» от OpenBio.
Следующее повышение цен уже скоро — успейте присоединиться по минимальной цене↗️
На встрече мы обсудим:
Встреча состоится 10 сентября в 19:00 по Мск
Увидимся в эфире!
#openbio_career #openbio_webinar #openbio_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥10😍3👍2
Media is too big
VIEW IN TELEGRAM
В биомеде особенно любят табличные данные - от RNAseq и клинических показателей пациентов до выборок из эпидемиологических исследований. И часто перед исследователем стоит задача классифицировать эти данные. Что применять в первую очередь? Глубокие нейросети - это модно, но стоит ли сразу начинать с них?
Сегодня биоинформатика - это плотно набитый рюкзак с инструментами, и на каждый случай в нем найдется свой ключ. Но если таскать с собой полный рюкзак - есть риск надорвать спину.
Что выбрать в первую очередь? Промышленным стандартом работы с табличными данными в биоинформатике были и остаются бустинги - ансамбли моделей, основанные чаще всего на деревьях решений:
Они просты в применении, хорошо масштабируются, легко интерпретируются и устанавливаются -
pip install xgboost
и готово. Долгие годы они считались королями таблиц, но не так давно для работы с табличными данными стали разрабатывать специализированные нейросети, некоторые из которых в ряде задач превосходят методы бустинга:
Их преимущество - гибкость архитектур, способность работать с большими и мультимодальными наборами данных. Но пока они остаются скорее экспериментальными: не всегда поддерживаются авторами, трудно найти предобученные модели, особенно в биомедицинских задачах, и еще только входят в рутинную практику.
Что можно рекомендовать на практике? На стандартных биомедицинских табличных данных оптимально начинать именно с бустингов. Если они дают хорошие результаты, а вы располагаете временем и ресурсами - можно попробовать нейронные сети. Если обучение на основе бустинга плохо работает с вашими данными, то нейронные сети скорее всего лучше не сделают. Но сразу нырять глубоко, не попробовав воду в мелководье не стоит - спасатели есть не везде!
#openbio_python #openbio_practice #openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4😍2🤓1
Наши выпускники: спустя время 🌱
Мы часто делимся с вами свежими кейсами и разбираем сложные темы. Но сегодня хотим сделать немного иначе и поговорить о самом ценном - о ваших долгосрочных результатах.
Курс "Машинное обучению в биологии и биомедицине" от OpenBio - это не просто повышение квалификации. Наша программа становится точкой старта для больших перемен, и мы с огромным теплом и гордостью продолжаем собирать отзывы от наших выпускников и делимся с вами впечатлением участников спустя время! Речь не только о том, как прошла учеба у нас, а о том, что реализовалось благодаря новым знаниям с нашего курса.
Кто-то, придя на курс с идеей «просто разобраться», спустя месяц уже вовсю писал главу для диссертации, а сейчас пишет нам о поступлении в аспирантуру. Кто-то смог блестяще защитить диплом, потому что на курсе нашел и идею, и инструмент для его реализации. А кто-то нашел новую работу, где успешно применяет приобретенные знания.
Эти истории бесконечно вдохновляют нас и показывают, что самое важное - это не просто дать знания, а помочь вам сделать с ними следующий шаг в своей карьере.
Следите за рубрикой #openbio_graduates - в ближайшее время мы начнем делиться с вами этими искренними и такими важными историями. Уверены, они помогут и тем, кто только задумывается о своем пути в Data Science для биологии и медицины!
📍 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь! 🔭
Мы часто делимся с вами свежими кейсами и разбираем сложные темы. Но сегодня хотим сделать немного иначе и поговорить о самом ценном - о ваших долгосрочных результатах.
Курс "Машинное обучению в биологии и биомедицине" от OpenBio - это не просто повышение квалификации. Наша программа становится точкой старта для больших перемен, и мы с огромным теплом и гордостью продолжаем собирать отзывы от наших выпускников и делимся с вами впечатлением участников спустя время! Речь не только о том, как прошла учеба у нас, а о том, что реализовалось благодаря новым знаниям с нашего курса.
На курсе участники получают не только теорию, но и практические инструменты, реальные кейсы для github, поддержку экспертов и однокурсников, что помогает сразу применять знания на практике и делать первый шаг к новым карьерным достижениям.
Кто-то, придя на курс с идеей «просто разобраться», спустя месяц уже вовсю писал главу для диссертации, а сейчас пишет нам о поступлении в аспирантуру. Кто-то смог блестяще защитить диплом, потому что на курсе нашел и идею, и инструмент для его реализации. А кто-то нашел новую работу, где успешно применяет приобретенные знания.
Эти истории бесконечно вдохновляют нас и показывают, что самое важное - это не просто дать знания, а помочь вам сделать с ними следующий шаг в своей карьере.
Следите за рубрикой #openbio_graduates - в ближайшее время мы начнем делиться с вами этими искренними и такими важными историями. Уверены, они помогут и тем, кто только задумывается о своем пути в Data Science для биологии и медицины!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4🔥2
Машинное обучение в биологии и биомедицине | OpenBio.Edu
Мы продолжаем серию встреч с экспертами в сфере биоинформатики, и уже 10 сентября к нам в гости придёт Антон Чугунов — кандидат физико-математических наук, старший научный сотрудник Института биоорганической химии РАН и специалист в области структурной биоинформатики.…
В 19:00 по Мск начинаем открытую встречу про карьеру в биоинформатике, моделирование пространственной структуры и популяризацию науки.
До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
😍3❤2👍2
Media is too big
VIEW IN TELEGRAM
В биомедицине любят и часто работают с табличными данными. Такие данные порой «проблемные» по меркам дата-сайенса: много параметров, мало наблюдений, высокий уровень шума. Чтобы извлечь из них максимум пользы, полезно иметь в арсенале не только классические методы, например ансамбли алгоритмов машинного обучения типа XGBoost, о которых мы говорили в предыдущих постах, но и более мощные инструменты.
Глубокие нейросети, специально разработанные для работы с табличными данными, появились относительно недавно. Одним из таких подходов является TabNet, предложенный исследователями из Google Cloud в 2019 году.
TabNet можно применять к любым задачам классификации и регрессии. При правильно подобранных гиперпараметрах он способен превосходить бустинг-алгоритмы. В отличие от многих других методов глубокого обучения, TabNet умеет самостоятельно обрабатывать данные в процессе обучения. Он хорошо работает с «сырыми» или минимально подготовленными данными, что особенно полезно при анализе больших наборов данных с множеством признаков, например RNA-seq. Тем не менее данные всё равно стоит предварительно очистить и проанализировать.
Ещё одно преимущество - интерпретируемость. Он позволяет понять, какие признаки важны для модели, что важно для научных исследований.
Главный недостаток TabNet - он «тяжелее» и требует больше вычислительных ресурсов по сравнению с ансамблевыми методами. Кроме того, у него много гиперпараметров, и качество работы модели сильно зависит от их грамотного подбора.
Бустинг-алгоритмы проще в использовании «из коробки» и быстрее обучаются, тогда как TabNet более гибкий и мощный инструмент. Какой метод выбрать - зависит от задачи и ресурсов исследователя. При этом вычислительные ресурсы для глубокого обучения становятся всё дешевле, что делает эксперименты с TabNet более доступными.
#openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤1
Делимся историями наших выпускников!
Каждый из них пришёл на курс "Машинное обучению в биологии и биомедицине" со своей мотивацией и бэкграундом, а вышел - с новым опытом, проектами и планами на будущее.
Кто-то переехал учиться во Францию, кто-то защитил диссертацию, кто-то готовится к стажировке в Яндекс, а кто-то ищет новые пути, чтобы применить знания в работе и дипломе.
➡️ Листайте карточки, чтобы вдохновиться их историями.
#openbio_graduates
📌 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь! 🔭
Каждый из них пришёл на курс "Машинное обучению в биологии и биомедицине" со своей мотивацией и бэкграундом, а вышел - с новым опытом, проектами и планами на будущее.
Кто-то переехал учиться во Францию, кто-то защитил диссертацию, кто-то готовится к стажировке в Яндекс, а кто-то ищет новые пути, чтобы применить знания в работе и дипломе.
#openbio_graduates
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥3
С Днём программиста! 🔭
От лица команды OpenBio сегодня поздравляем всех, кто любит превращать данные в знания - от строк кода до строк генома. Благодаря программистам и биоинформатикам мы можем анализировать RNAseq, строить модели болезней и находить новые закономерности в биомедицине.
Пусть ваш код всегда компилируется, а эксперименты сходятся с моделью!
#openbio_moments
📌 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь! 🔭
От лица команды OpenBio сегодня поздравляем всех, кто любит превращать данные в знания - от строк кода до строк генома. Благодаря программистам и биоинформатикам мы можем анализировать RNAseq, строить модели болезней и находить новые закономерности в биомедицине.
Пусть ваш код всегда компилируется, а эксперименты сходятся с моделью!
#openbio_moments
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👏3