Telegram Group & Telegram Channel
Forwarded from Machinelearning
⚡️ Evo-2: модель для генерации генома, которая знает все древо жизни.

NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни.

Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены.

Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной.

Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека.

Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком.

Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты

Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей:

🟢Evo 2 - 7B и 40B, обученные последовательности длиной до 1 млн;
🟠Evo 2 Base - 1B, 7B и 40B, обученные последовательности длиной 8192.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🟡Датасет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Evo2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3237
Create:
Last Update:

⚡️ Evo-2: модель для генерации генома, которая знает все древо жизни.

NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни.

Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены.

Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной.

Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека.

Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком.

Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты

Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей:

🟢Evo 2 - 7B и 40B, обученные последовательности длиной до 1 млн;
🟠Evo 2 Base - 1B, 7B и 40B, обученные последовательности длиной 8192.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🟡Датасет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Evo2 #NVIDIA

BY Анализ данных (Data analysis)






Share with your friend now:
group-telegram.com/data_analysis_ml/3237

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from us


Telegram Анализ данных (Data analysis)
FROM American