group-telegram.com/ai_newz/3208
Last Update:
В гонке быстрого инференса новый участник
SambaNova запустили Llama 3.1: 405B на подтверждённой скорости в 132 токена в секунду, 70B - на скорости 461 токен в секунду и 8B - на скорости 1066 токенов в секунду. Это всё в bf16, без квантизации. На лидерборде Artificial Analysis у SambaNova точность 405B выше всех других провайдеров, но с моделями поменьше не всё так радужно.
Я потестил их инференс, скорость и правда очень высокая - у меня 405B выдавала от 110 до 124 токенов в секунду, что очень близко к заявленным числам. 8B доходила до 1100 токенов в секунду, а вот 70B, хоть и выдавала до 466 в секунду на пике (в твиттере стартап вообще заявлял скорость до 570 в секунду), но у части запросов скорость была аж в два раза меньше.
Цена 405B - $5/mt на вход и $10/mt на выход. Есть на рынке провайдеры и подешевле, но они все запускают модель с уменьшенной точностью.
API уже доступно разработчикам для теста. Бесплатно, но с очень низкими лимитами. Возможность платить за API добавят позже.
Попробовать можно тут
Предыдущий пост из серии про быстрый инференс: тык.
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/3208