Forwarded from эйай ньюз
Не прошло и недели, а у Mistral новый релиз!
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
group-telegram.com/dlinnlp/1768
Create:
Last Update:
Last Update:
Не прошло и недели, а у Mistral новый релиз!
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.
NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?
С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.
Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12
Веса
Блог
@ai_newz
BY DL in NLP
Share with your friend now:
group-telegram.com/dlinnlp/1768