Telegram Group & Telegram Channel
Qwen-7B: Alibaba зарелизили свою опен-соурсную LLM на 7B параметров

Qwen-7B натренили на 2.2 трлн токенов, размер контекста во вреия тренировки был 2048, а на тесте можно впихнуть до 8192 (у Llama-2 - 4096). Это первая открытая LLM от Alibaba.

Что по бенчмаркам?
В репе есть куча таблиц, и китайцы заявляют, что они бьют LLama-2. Особенно большая разница на бенчмарке по написанию кода Human-Eval: 24.4 vs 12.8. Но я бы осторожно смотрел на эти числа. Если по некоторым бенчмаркам Qwen-7B обходит ванильную LLama-2-7B, и даже LLaMA-2-13B, то вот с зафайнтюнеными версиями Llama-2 разрыв уже не такой большой. И, честно сказать, никто точно не знает, как они трениновали свою базовую модель.

По аналогии с LLaMa2-chat, у Qwen тоже есть чатовая версия Qwen-7B-Chat, которая затюнена отвечать на запросы пользователя и, кроме того, пользоваться разными тулами и API.

Для любителей деталей, архитектура похожа на LLaMA. Со следующими различиями:

> The following are the main differences from the standard transformer: 1) using untied embedding, 2) using rotary positional embedding, 3) no biases except for QKV in attention, 4) RMSNorm instead of LayerNorm, 5) SwiGLU instead of ReLU, and 6) adopting flash attention to accelerate training. The model has 32 layers, the embedding dimension is 4096, and the number of attention heads is 32.

Лицензия тоже как у Llama-2: Можно использовать в коммерчески целях, но только пока у вас нет 100 млн активных пользователей в месяц (у Llama-2 можно до 700 млн).

Больше деталей в этом репорте (да, это тупо .md файл в репозитории).

Демо (на китайском)

@ai_newz



group-telegram.com/ai_newz/2113
Create:
Last Update:

Qwen-7B: Alibaba зарелизили свою опен-соурсную LLM на 7B параметров

Qwen-7B натренили на 2.2 трлн токенов, размер контекста во вреия тренировки был 2048, а на тесте можно впихнуть до 8192 (у Llama-2 - 4096). Это первая открытая LLM от Alibaba.

Что по бенчмаркам?
В репе есть куча таблиц, и китайцы заявляют, что они бьют LLama-2. Особенно большая разница на бенчмарке по написанию кода Human-Eval: 24.4 vs 12.8. Но я бы осторожно смотрел на эти числа. Если по некоторым бенчмаркам Qwen-7B обходит ванильную LLama-2-7B, и даже LLaMA-2-13B, то вот с зафайнтюнеными версиями Llama-2 разрыв уже не такой большой. И, честно сказать, никто точно не знает, как они трениновали свою базовую модель.

По аналогии с LLaMa2-chat, у Qwen тоже есть чатовая версия Qwen-7B-Chat, которая затюнена отвечать на запросы пользователя и, кроме того, пользоваться разными тулами и API.

Для любителей деталей, архитектура похожа на LLaMA. Со следующими различиями:

> The following are the main differences from the standard transformer: 1) using untied embedding, 2) using rotary positional embedding, 3) no biases except for QKV in attention, 4) RMSNorm instead of LayerNorm, 5) SwiGLU instead of ReLU, and 6) adopting flash attention to accelerate training. The model has 32 layers, the embedding dimension is 4096, and the number of attention heads is 32.

Лицензия тоже как у Llama-2: Можно использовать в коммерчески целях, но только пока у вас нет 100 млн активных пользователей в месяц (у Llama-2 можно до 700 млн).

Больше деталей в этом репорте (да, это тупо .md файл в репозитории).

Демо (на китайском)

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2113

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from hk


Telegram эйай ньюз
FROM American