group-telegram.com/ai_machinelearning_big_data/6846
Last Update:
NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни.
Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены.
Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной.
Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека.
Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком.
Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты
Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей:
@ai_machinelearning_big_data
#AI #ML #Evo2 #NVIDIA