кросс-валидация
и бутстрэппинг
, которые помогают лучше использовать доступную информацию и честно оценивать модель.Кросс-валидация
Кросс-валидация
— это метод оценки качества модели, при котором данные делят на несколько частей (фолдов); модель обучают на большинстве частей и тестируют на оставшейся. Этот процесс повторяют так, чтобы каждая часть использовалась в роли тестовой хотя бы один раз. Например, при k
-fold данные разбиваются на k
равных частей, модель обучается на k
-1 частей, на оставшейся части тестируется, и процедура повторяется k
раз.Этот метод использует все данные для обучения и оценки поэтапно, что позволяет эффективно использовать каждый образец, повышая тем самым объективность, что особенно полезно при малых выборках, а также облегчает сравнение моделей и настройку гиперпараметров. Однако он чувствителен к особенностям разбиения и при очень малых объемах (
k
<5) может давать менее надежные результаты.Бутстрэппинг
Бутстрэппинг
— это метод случайной выборки с возвращением. Из исходных данных формируется множество бутстрэп
-выборок одинакового размера равного по размеру исходной выборки с помощью случайного выбора элементов (причем элементы могут и будут повторяться). На каждой такой выборке модель обучается, а её качество оценивается на тех данных, которые не попали в эту выборку (out-of-bag данные).Этот метод позволяет оценить стабильность и доверительные интервалы метрик, что повышает надежность результатов, при этом не требуя строгого разбиения данных, что особенно важно при очень малых выборках. Однако при очень небольшом объеме данных оценки могут быть менее точными, а большое число повторных обучений увеличивает время вычислений, что может стать недостатком при работе с большими наборами данных или при необходимости быстрого получения результатов.
Что выбрать?
Хотите оценить точность модели — используйте
кросс-валидацию
, устойчивость — применяйте бутстрэппинг
. В идеале — комбинируйте оба метода для получения ясного представления о качестве модели.Как выглядит код на практике можно узнать здесь. Узнать больше о
кросс-валидации
и бутстрэппинге
можно здесь и здесь, ну и, конечно, на нашем курсе.#openbio_education #openbio_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤3👍2
Поставьте отметку в пяти коротких опросах ниже — это займёт минуту, а нам поможет сделать контент в нашем канале чуть более прицельным!
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤6👍3🐳1
Как вы определили ваш уровень программирования и опыта в Data Science?
Anonymous Poll
37%
Начальный (или почти начальный) — ничего или почти ничего не умею делать с сырыми данными
39%
Новичок — есть опыт обработки данных в R или Python, простые таблички могу посчитать
18%
Средний — уже более 2-3 лет занимаюсь обработкой данных, сделал несколько проектов
7%
Продвинутый — набил руку во многих проектах, занимаюсь углублением знаний
Для каких задач вы примеряете для себя знания по машинному обучению?
Anonymous Poll
33%
Геномика, транскриптомика, эпигеномика
16%
Протеомика и структурная биология
18%
Анализ медицинских изображений и патология
20%
Клинические исследования и персонализированная медицина
47%
Начинаю свой путь в ML / Хочу понять общие принципы применения ML в биологии.
8%
Другое (напишите в комментариях!)
Какие трудности вы чаще всего встречаете, когда пытаетесь применять машинное обучение в своих биологических задачах?
Anonymous Poll
27%
Подготовка и очистка биологических данных — слишком много «шума», пропуски
26%
Выбор правильного ML-алгоритма — много вариантов, не понимаю, что выбрать
26%
Интерпретация результатов модели — как понять, что модель делает и почему
23%
Нехватка вычислительных ресурсов — медленно работает, нет доступа к мощным серверам
28%
Интеграция ML с биологическими знаниями — как связать возможности ML с моей спецификой
21%
Поиск и понимание релевантных инструментов и библиотек
34%
Пока не применяю, но читаю полезные материалы на будущее
4%
Другое (напишите в комментариях!)
❤4👍2👏2
Собрали всё: от NGS и биостатистики до диффузионных моделей и мультимодальных омикс-данных. Позиции открыты — резюме в бой!
Требования: 3+ лет опыта построения и эксплуатации ML-систем: Python 3.*, PyTorch/TF, scikit-learn, NumPy/Pandas. Стек Data Engineering: SQL/NoSQL, Spark или Dask, Airflow/Prefect, REST/gRPC-сервисы. Опыт работы с HPC или облачными GPU-ресурсами, оптимизацией вычислений (CUDA, mixed-precision, distributed training). Глубокие знания статистики, экспериментального дизайна и методов оценки неопределённости. Умение читать и реализовывать state-of-the-art статьи (NeurIPS, ICML, Nature Methods).
Уровень дохода не указан
Требования: уверенные навыки программирования: знание R (Bioconductor), Python (Biopython, Pandas, Numpy); уверенное владение Linux, знание Bash; опыт работы с NGS-данными на уровне разработки биоинформатических пайплайнов анализа данных (геном, транскриптом, метилом, таргетное секвенирование панелей генов); опыт работы с Docker, Git; опыт работы с SQL; знание биомедицинской статистики; опыт научной деятельности не менее 2 лет;
Уровень дохода не указан
Требования: Постдок, Возможны любые специальности в области естественных и медицинских наук
100 - 120 тыс. руб. + надбавки с грантов
Требования: BostonGene ищет CV-инженера для анализа MxIF, H&E, IHC изображений и разработки мультимодальных DL-моделей (на базе diffusion), с соблюдением GCP/GCLP.
Уровень дохода не указан
Требования: BostonGene ищет дата-аналитика для работы с multi-omics (NGS, CyTOF), построения моделей ответа на терапию и анализа биомаркеров в онкоисследованиях
Уровень дохода не указан, но предусмотрена помощь в релокации
#openbio_вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍1🔥1
Уверены, вы уже знакомы с ChatGPT или его аналогами. Готовы обновить знания?
Предлагаем вам🤫 🫠 🤥 😶 !
За 5 дней дадим концентрат методов использования LLM в профессиональной деятельности прицельно для биомеда. Готовьтесь тестить инструменты!
Старт —1️⃣ 4️⃣ июля прямо здесь в нашем телеграм - канале.
Каждый день посвятим разбору практических подходов и покажем как их сразу внедрить в работу:
✔️ разберем, какие LLM полезны в биологии (спойлер: не только ChatGPT)
✔️ сравним модели друг с другом и обсудим практики промт-инжиниринга
✔️ расскажем как учиться с ИИ-ассистентами и выполнять задачи на работе
✔️ ну и, конечно, дадим примеры как это работает у нас :)
🎁 Бонусы для тех, кто дойдет до конца
🔥 До начала — всего 6 дней. Не пропусти! 🔥
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Предлагаем вам
За 5 дней дадим концентрат методов использования LLM в профессиональной деятельности прицельно для биомеда. Готовьтесь тестить инструменты!
Старт —
Каждый день посвятим разбору практических подходов и покажем как их сразу внедрить в работу:
🔥 До начала — всего 6 дней. Не пропусти! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤24👍9🔥5🤔1🐳1
👋 Сегодня погрузимся в мир, где данных слишком много, но информации — мало. Речь о методах понижения размерности — ключевом инструменте в анализе сложных биологических данных, который помогает увидеть главное, отбросив "шум".
Что это и зачем нужно биологу?
Современные биомедицинские исследования часто сталкиваются с огромными объемами данных: например, у пациентов записаны тысячи характеристик — возраст, уровни веществ в крови, генетическая информация и так далее... Это "многомерное" пространство. Понижение размерности помогает "сжать" эти данные, сохранив при этом их наиболее важные свойства, чтобы:
🔺 визуализировать кластеры и группы (которые иначе не увидеть);
🔺 удалить избыточную и зашумлённую информацию;
🔺 ускорить работу алгоритмов машинного обучения.
Но какой метод выбрать?
Смотрите в карусели и делитесь, какие методы понижения размерности вы используете чаще всего в своей работе? Какие "подводные камни" встречали? Поделитесь своим опытом в комментариях! 👇
Еще больше о PCA, t-SNE, UMAP, VAE.
В следующий раз поговорим о том, как с помощью методов аугментации можно создавать дополнительные образцы.
#openbio_education
🔥До старта LLM-спринта осталось 4 дня!🔥
📌 Машинное обучение в биологии и биомедицине | OpenBio.Edu — подписывайтесь!
Что это и зачем нужно биологу?
Современные биомедицинские исследования часто сталкиваются с огромными объемами данных: например, у пациентов записаны тысячи характеристик — возраст, уровни веществ в крови, генетическая информация и так далее... Это "многомерное" пространство. Понижение размерности помогает "сжать" эти данные, сохранив при этом их наиболее важные свойства, чтобы:
Но какой метод выбрать?
Смотрите в карусели и делитесь, какие методы понижения размерности вы используете чаще всего в своей работе? Какие "подводные камни" встречали? Поделитесь своим опытом в комментариях! 👇
Еще больше о PCA, t-SNE, UMAP, VAE.
Кстати, на нашем курсе по машинному обучению мы уделяем несколько семинаров на практику с методами снижения размерности.
В следующий раз поговорим о том, как с помощью методов аугментации можно создавать дополнительные образцы.
#openbio_education
🔥До старта LLM-спринта осталось 4 дня!🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11✍4👍2🤔1
Курс вполне оправдал мои ожидания: ко мне как главному редактору Биомолекулы обратились для рекламы еще первого потока, и я сразу подумал, что было бы круто взамен пройти курс самому. Дело в том, что я уже 20 лет занимаюсь структурной биоинформатикой и в принципе много чего знаю и умею, но вот машинное обучение и нейросети как-то оставались у меня за бортом.
После целого семестра очень интенсивных занятий, которые, не скрою, потребовали большого упорства, чтобы просто сделать всё что требовалось (посмотреть все лекции, поприсутствовать на онлайн-семинарах, сделать домашки, созвониться в группах для обсуждения решений, ну и наконец поучаствовать в соревновании на Кагл), я действительно могу сказать, что что-то начал понимать в этой сфере. Разумеется, реальный опыт еще предстоит получить, когда я применю эти знания в своих научных проектах, но теперь я уже по крайней мере буду знать, когда это стоит сделать и с какой стороны подступиться.
Понравилось, что во время курса начало формироваться некоторое сообщество людей, уже имеющих определенный опыт в конкретных сферах биоинформатики, причем не только новичков, но и уже сложившихся специалистов.
Моя благодарность команде за то, что создали этот действительно востребованный своевременный курс, далеко выходящий за рамки стандартных учебных программ: когда я сам учился в университете, методы ML в биологии еще были практически не распространены, но теперь это не так. Здорово, что появилась возможность добрать квалификацию таким образом, ведь вновь отучиться в университете 20 лет спустя уже вряд ли получится)
Также благодарю за возможность поучаствовать в этом курсе и моему сыну, без ложной скромности думаю, что это уникальный случай, когда школьник (сейчас уже выпускник и в скором времени - студент вуза) на равных участвовал во вполне взрослой программе и мог конкурировать с людьми с опытом исследовательской работы.
Если вы тоже задумывались о том, чтобы расширить свои научные горизонты с помощью машинного обучения, будем рады видеть вас среди участников! Возможно, именно ваш опыт и вопросы сделают наше сообщество ещё сильнее.
#openbio_review #openbio_education #openbio_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤6🔥3 2
В программе:
- арсенал LLM для биологии и биомедицины
- стандарты промптинга и способы сравнения моделей между собой
- наши рекомендации по внедрению LLM в учебу, в т.ч. для точечного подтягивания навыков
- схема запуска пошагового диалога с ИИ в ролевых моделях с примерами
- практические задания для отработки новых инструментов, бонусы и многое другое.
Не стесняйтесь дополнять нас в комментариях, мы хотим дать как можно больше знаний для тех, кто работает в биомед секторе и будем рады дополнениям и дискуссиям
До старта осталось менее 24 часов
OpenBio делает тренды доступными для вас
#openbio_education
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2🤔1😍1
Добро пожаловать на наш LLM-спринт 🚀🚀🚀
Сегодня, когда всё быстро меняется, важно не просто учиться, а уметь быстро вникать в новую тему, тестировать и адаптироваться. Мы предлагаем вам в формате спринта за 5 дней сделать апгрейд в теме LLM - попробовать инструменты на практике, сравнить подходы, а лучшие идеи внедрить в работу. Поехали!
Популярные LLM
Самые популярные LLM-ки сейчас: ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google AI), Grok (xAI). Модели, доступные в России без VPN: YandexGPT, GigaChat, DeepSeek. Если вы ещё не пробовали все модели из списка - обязательно загляните.
LLM в науке: специализированные помощники
Для работы с научной литературой доступно огромное количество тулов, способных подбирать релевантные статьи, быстро вникать в новую тему, писать саммари и литобзоры и даже визуализировать связи между публикациями при помощи графов. Мы приводим самые популярные:
Elicit помогает быстро понять тему через саммари множества статей, Science.os уточнит конкретный вопрос, а AskMicrobe специализирован на микробиологических темах. Consensus даёт чёткие ответы на вопросы, приводя цитаты из статей, SciSpace и Paperguide облегчают чтение отдельных статей, выделяя самую суть. Для обзоров и построения графов научных статей полезны Connected Papers, Litmaps, Inciteful. При помощи таких графов можно визуально оценить кто и что делает в вашей научнoй теме. А Sourcely и Getliner помогают собрать текст и оформить литературный обзор.
Код-ревью работает на многих общих моделях, одна из лучших - ChatGPT o3 mini-high, но есть парочка специализированных - Cursor и Windsurf.
LLM для профессиональной работы
В отличие от привычных LLM вроде ChatGPT, которые работают "из коробки" и ориентированы на диалог, ниже мы привели специализированные инструменты для работы с биологическими последовательностями, которые нужно адаптировать под свои задачи:
✔️ DNABERT – модель на основе трансформера, предварительно обученная на последовательностях ДНК для понимания геномного «языка» с использованием токенизации k-меров. Хорошо справляется с такими задачами, как прогнозирование регуляторных элементов (промоторы, энхансеры), выявление консервативных мотивов.
✔️ GENA-LM от AIRI – набор моделей от наших соотечественников на основе трансформеров, специально разработанный для работы с длинными последовательностями ДНК. Способны обрабатывать до 36 000 пар оснований благодаря использованию механизма рекуррентной памяти (Recurrent Memory), который позволяет эффективно сохранять и использовать информацию из предыдущих фрагментов последовательности, что отличает их от DNABERT, который эффективно работает с более короткими последовательностями. Есть видеоразбор. Модель можно протестировать на Hugging Face и веб-сервере.
✔️ Evo2 – генеративная модель для синтетической биологии, в отличие от других она может генерировать новые ДНК-последовательности (например, митохондриальные и бактериальные геномы) с заданными свойствами. Потестить можно здесь.
✔️ ESM-3 (Evolutionary Scale Modeling) от Meta позволяет не только предсказывать структуру белков, но и участвовать в их дизайне, ускоряя разработку новых ферментов или терапевтических молекул. В связке с инструментом ESM Fold может использоваться прямо из коробки, без сложной настройки.
Больше bio-foundation моделей для ДНК\РНК\single cell можно найти здесь.
Делитесь ссылками с друзьями, желаем приятного погружения🔬
Завтра мы научимся сравнивать модели между собой - по качеству ответов, скорости и применимости к реальным задачам, не переключайтесь🦠
#openbio_education #openbio_LLM_Sprint
📍 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь!
Сегодня, когда всё быстро меняется, важно не просто учиться, а уметь быстро вникать в новую тему, тестировать и адаптироваться. Мы предлагаем вам в формате спринта за 5 дней сделать апгрейд в теме LLM - попробовать инструменты на практике, сравнить подходы, а лучшие идеи внедрить в работу. Поехали!
Популярные LLM
Самые популярные LLM-ки сейчас: ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google AI), Grok (xAI). Модели, доступные в России без VPN: YandexGPT, GigaChat, DeepSeek. Если вы ещё не пробовали все модели из списка - обязательно загляните.
LLM в науке: специализированные помощники
Для работы с научной литературой доступно огромное количество тулов, способных подбирать релевантные статьи, быстро вникать в новую тему, писать саммари и литобзоры и даже визуализировать связи между публикациями при помощи графов. Мы приводим самые популярные:
Elicit помогает быстро понять тему через саммари множества статей, Science.os уточнит конкретный вопрос, а AskMicrobe специализирован на микробиологических темах. Consensus даёт чёткие ответы на вопросы, приводя цитаты из статей, SciSpace и Paperguide облегчают чтение отдельных статей, выделяя самую суть. Для обзоров и построения графов научных статей полезны Connected Papers, Litmaps, Inciteful. При помощи таких графов можно визуально оценить кто и что делает в вашей научнoй теме. А Sourcely и Getliner помогают собрать текст и оформить литературный обзор.
Код-ревью работает на многих общих моделях, одна из лучших - ChatGPT o3 mini-high, но есть парочка специализированных - Cursor и Windsurf.
LLM для профессиональной работы
В отличие от привычных LLM вроде ChatGPT, которые работают "из коробки" и ориентированы на диалог, ниже мы привели специализированные инструменты для работы с биологическими последовательностями, которые нужно адаптировать под свои задачи:
Больше bio-foundation моделей для ДНК\РНК\single cell можно найти здесь.
Делитесь ссылками с друзьями, желаем приятного погружения
Завтра мы научимся сравнивать модели между собой - по качеству ответов, скорости и применимости к реальным задачам, не переключайтесь
#openbio_education #openbio_LLM_Sprint
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33❤9🤓3😍2
Как понять, какая LLM лучше справится с вашей задачей?
Ответ кроется в бенчмарках и лидербордах - специализированных платформах, которые оценивают ответы моделей по различным критериям. Например, сравнить ответы двух моделей в бою на один вопрос можно на LLM Arena. Сайт имеет user-friendly интерфейс, там же можно заценить ответы платных премиум подписок 🤓
А на Vellum Leaderboard вы найдете рейтинг LLM в различных областях, например, по данным теста GPQA Diamond в области биологии, физики и химии лидирует Gemini 2.5, за ним с небольшим разрывом следует Grok 3. Можно сразу найти данные по объему input/output, скорости их работы, стоимости платных версий.
Настоящие ML-ресёрчеры постоянно следят за батлами LLM-мок - оцените и вы! Очень удобно заходить, если “вдруг” забыли, какая модель прямо сейчас в топе (спойлер: их несколько!)
#openbio_education #openbio_LLM_Sprint
📍 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь! ➡️
Ответ кроется в бенчмарках и лидербордах - специализированных платформах, которые оценивают ответы моделей по различным критериям. Например, сравнить ответы двух моделей в бою на один вопрос можно на LLM Arena. Сайт имеет user-friendly интерфейс, там же можно заценить ответы платных премиум подписок 🤓
А на Vellum Leaderboard вы найдете рейтинг LLM в различных областях, например, по данным теста GPQA Diamond в области биологии, физики и химии лидирует Gemini 2.5, за ним с небольшим разрывом следует Grok 3. Можно сразу найти данные по объему input/output, скорости их работы, стоимости платных версий.
Настоящие ML-ресёрчеры постоянно следят за батлами LLM-мок - оцените и вы! Очень удобно заходить, если “вдруг” забыли, какая модель прямо сейчас в топе (спойлер: их несколько!)
#openbio_education #openbio_LLM_Sprint
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍4
Лидерборды - это, несомненно, полезно. Но чтобы получить адекватный ответ от модели, важно правильно задать вопрос. Принятые стандарты эффективного промптинга включают 5 моментов: будьте конкретны, делайте контекст понятным, дробите сложные задачи на шаги, проверяйте и уточняйте, оценивайте ответ и ре-промтите.
Допустим вы это умеете, тогда можно повышать свой уровень работы с контекстом, например:
➖ ключевые фрагменты промпта стоит размещать в парсируемые теги <...>, обеспечивая LLM ясные и организованные вводные.
➖ попробуйте встроить динамические потоки данных (будь то логи или экспериментальные показатели) в ваши промпты с использованием Python или R.
➖ делайте многоходовочку - попробуйте "перебросить" ответы от одной LLM к другой, формируя новые запросы для комплексного анализа или синтеза. Например, из ChatGPT 4o можно что-то передать в ChatGPT o3 mini-high, потому что последняя работает лучше с кодом.
Стоит отметить, что классические языковые модели (GPT-4 или DeepSeek-V3) склонны подстраиваться под структуру вашего ввода и "угадывать", что нужно, не понимая глубинный смысл задачи. Reasoning-LLM (OpenAI o1-o3, DeepSeek R1 и Claude 3.7 Sonnet) уже способны к более абстрактному мышлению и анализу. Однако можно прибегнуть к приему "chain-of-thought", чтобы повысить долю правильных ответов классической модели через промежуточные шаги. Для этого попросите ее "думать пошагово".
Где искать вдохновение и готовые промпты? Ловите ссылочки:
🔹 Углубиться в контекст-инжиниринг
🔹 Репозиторий раз и два с примерами промптов для самых разных задач
🔹 Ролевые промпты для глубокого анализа.
🔹 Больше материалов “для маньяков” по промпт-инжинирингу от Google
🔹 Полноценный курс по промпт-инжинирингу от Море данных и ВШЭ.
✔️ Good practiсe - сделать себе чат для генерации промптов и их донастройки.
➡️ Предлагаем вам попрактиковаться: попросите ИИ объяснить в одном абзаце, как работает технология CRISPR-Cas разными способами. Делитесь в комментариях промптами и ответами — посмотрим, кто получит самый чёткий результат от модели.
А завтра поговорим, как LLM меняют подход к обучению и что можно делать, чтобы успевать за всем этим без перегруза.
#openbio_education #openbio_LLM_Sprint
📍 Курс "Машинное обучение в биологии и биомедицине" | OpenBio.Edu — подписывайтесь! ➡️
Допустим вы это умеете, тогда можно повышать свой уровень работы с контекстом, например:
Стоит отметить, что классические языковые модели (GPT-4 или DeepSeek-V3) склонны подстраиваться под структуру вашего ввода и "угадывать", что нужно, не понимая глубинный смысл задачи. Reasoning-LLM (OpenAI o1-o3, DeepSeek R1 и Claude 3.7 Sonnet) уже способны к более абстрактному мышлению и анализу. Однако можно прибегнуть к приему "chain-of-thought", чтобы повысить долю правильных ответов классической модели через промежуточные шаги. Для этого попросите ее "думать пошагово".
Где искать вдохновение и готовые промпты? Ловите ссылочки:
А завтра поговорим, как LLM меняют подход к обучению и что можно делать, чтобы успевать за всем этим без перегруза.
#openbio_education #openbio_LLM_Sprint
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍4