Telegram Group & Telegram Channel
⚡️ Evo-2: модель для генерации генома, которая знает все древо жизни.

NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни.

Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены.

Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной.

Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека.

Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком.

Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты

Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей:

🟢Evo 2 - 7B и 40B, обученные последовательности длиной до 1 млн;
🟠Evo 2 Base - 1B, 7B и 40B, обученные последовательности длиной 8192.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🟡Датасет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Evo2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/6846
Create:
Last Update:

⚡️ Evo-2: модель для генерации генома, которая знает все древо жизни.

NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни.

Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены.

Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной.

Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека.

Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком.

Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты

Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей:

🟢Evo 2 - 7B и 40B, обученные последовательности длиной до 1 млн;
🟠Evo 2 Base - 1B, 7B и 40B, обученные последовательности длиной 8192.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🟡Датасет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Evo2 #NVIDIA

BY Machinelearning






Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6846

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from cn


Telegram Machinelearning
FROM American