Notice: file_put_contents(): Write of 12871 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/2618 -
Telegram Group & Telegram Channel
LLM дайджест за неделю

LLaMa 3 - главная звезда недели, открытые веса, три размера: 8, 70 и 405 миллиардов параметров, последняя ещё тренируется, что не удивительно, ведь датасет для неё это 15 триллионов токенов. Попробовать можете тут, пока только с VPN или можете скачать квантизированные веса с Huggingface, но тогда у вас не будет прекрасной функции Imagine Flash, которую тренировал ваш покорный слуга (да, я).

Pile-T5 - у всех версий T5 довольно плохой токенизатор где отсутствует куча специальных символов, ребята из EleutherAI решили это пофиксить и заменили его токенизатором от второй ламы. Вышла модель чуть лучше базовой T5, но отстающая от FLAN файнтюнов. T5 – это рабочая лошадка, юзаемая как в проде бессчётного количества компаний, так и в новомодном ресёрче вроде SD3 и ReALM, так что пользы от такой "пофикшеной" версии будет немало. А ещё это напоминание что enc-dec модели живее всех живых.

Reka-Core - ещё один encoder-decoder от выходцев из Google, проприетарная модель на уровне примерно LLaMa 3 70B и ниже Gemini Ultra. Мультимодальная, кроме картинок умеет в видео и аудио. Её всё ещё тренируют, факт релиза сырой модели удивляет, походу у стартапа просто заканчиваются деньги. Цены API на уровне GPT-4 Turbo, так что непонятно кому это вообще нужно.

Mixtral 8x22B Instruct - тюн оригинального Mixtral 8x22B, который держал первое место среди открытых моделей по ряду бенчей вроде MMLU целых 26 часов, а потом случилась LLaMa 3.

RWKV EagleX v2 - модель без аттеншна перегнала LLaMA 2 7B и почти догнала Mistral 7B. При том, что на большей длине контекста она СИЛЬНО быстрее. Очень хорошо показывает себя на языках отличных от английского. Модель всё ещё тренируют (общая тема этого дайджеста), так что скорее всего Mistral они догонят.

Хочу отметить что за последние 30 дней рекорд по MMLU среди открытых моделей (который держала Mixtral 8x7B почти 4 месяца) били ПЯТЬ раз: Grok - 73.0%, DBRX - 73.7%, Command R - 75.7%, Mixtral Instruct - 77.75% и LLaMA 3 - 82.0%.

Как вам вообще такой формат дайджеста именно по LLM, стоит продолжать?

#дайджест
@ai_newz



group-telegram.com/ai_newz/2618
Create:
Last Update:

LLM дайджест за неделю

LLaMa 3 - главная звезда недели, открытые веса, три размера: 8, 70 и 405 миллиардов параметров, последняя ещё тренируется, что не удивительно, ведь датасет для неё это 15 триллионов токенов. Попробовать можете тут, пока только с VPN или можете скачать квантизированные веса с Huggingface, но тогда у вас не будет прекрасной функции Imagine Flash, которую тренировал ваш покорный слуга (да, я).

Pile-T5 - у всех версий T5 довольно плохой токенизатор где отсутствует куча специальных символов, ребята из EleutherAI решили это пофиксить и заменили его токенизатором от второй ламы. Вышла модель чуть лучше базовой T5, но отстающая от FLAN файнтюнов. T5 – это рабочая лошадка, юзаемая как в проде бессчётного количества компаний, так и в новомодном ресёрче вроде SD3 и ReALM, так что пользы от такой "пофикшеной" версии будет немало. А ещё это напоминание что enc-dec модели живее всех живых.

Reka-Core - ещё один encoder-decoder от выходцев из Google, проприетарная модель на уровне примерно LLaMa 3 70B и ниже Gemini Ultra. Мультимодальная, кроме картинок умеет в видео и аудио. Её всё ещё тренируют, факт релиза сырой модели удивляет, походу у стартапа просто заканчиваются деньги. Цены API на уровне GPT-4 Turbo, так что непонятно кому это вообще нужно.

Mixtral 8x22B Instruct - тюн оригинального Mixtral 8x22B, который держал первое место среди открытых моделей по ряду бенчей вроде MMLU целых 26 часов, а потом случилась LLaMa 3.

RWKV EagleX v2 - модель без аттеншна перегнала LLaMA 2 7B и почти догнала Mistral 7B. При том, что на большей длине контекста она СИЛЬНО быстрее. Очень хорошо показывает себя на языках отличных от английского. Модель всё ещё тренируют (общая тема этого дайджеста), так что скорее всего Mistral они догонят.

Хочу отметить что за последние 30 дней рекорд по MMLU среди открытых моделей (который держала Mixtral 8x7B почти 4 месяца) били ПЯТЬ раз: Grok - 73.0%, DBRX - 73.7%, Command R - 75.7%, Mixtral Instruct - 77.75% и LLaMA 3 - 82.0%.

Как вам вообще такой формат дайджеста именно по LLM, стоит продолжать?

#дайджест
@ai_newz

BY эйай ньюз



❌Photos not found?❌Click here to update cache.


Share with your friend now:
group-telegram.com/ai_newz/2618

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from it


Telegram эйай ньюз
FROM American