group-telegram.com/ai_newz/2770
Last Update:
K2 - лучшая воспроизводимая модель
65B модель на уровне LLaMa 2. Главная фишка - (практически) полностью открытый процесс тренировки. Код, данные, веса и даже часть промежуточных чекпоинтов.
Архитектурно модель почти идентична оригинальной LLaMa. Тренировали всё это в две стадии первая 1.3T токенов, вторая ~70B токенов, суммарно ~1.4T токенов (LLaMa 2 тренировали на 2 триллионах).
Но есть и нюансы:
➖ Из-за использования архитектуры оригинальной LLaMa модель сильно медленнее в инференсе
➖ Чат версия сильно зацензурена, так как модель тренировали на деньги ОАЭ
➖ Пока что опубликовали только данные первой стадии, она так всё равно лучшая воспроизводимая модель, но не до уровня LLaMa 2
Веса
Технический отчёт
Претрейн код
Код датасета
@ai_newz
BY эйай ньюз

Share with your friend now:
group-telegram.com/ai_newz/2770