Telegram Group & Telegram Channel
Qwen-7B: Alibaba зарелизили свою опен-соурсную LLM на 7B параметров

Qwen-7B натренили на 2.2 трлн токенов, размер контекста во вреия тренировки был 2048, а на тесте можно впихнуть до 8192 (у Llama-2 - 4096). Это первая открытая LLM от Alibaba.

Что по бенчмаркам?
В репе есть куча таблиц, и китайцы заявляют, что они бьют LLama-2. Особенно большая разница на бенчмарке по написанию кода Human-Eval: 24.4 vs 12.8. Но я бы осторожно смотрел на эти числа. Если по некоторым бенчмаркам Qwen-7B обходит ванильную LLama-2-7B, и даже LLaMA-2-13B, то вот с зафайнтюнеными версиями Llama-2 разрыв уже не такой большой. И, честно сказать, никто точно не знает, как они трениновали свою базовую модель.

По аналогии с LLaMa2-chat, у Qwen тоже есть чатовая версия Qwen-7B-Chat, которая затюнена отвечать на запросы пользователя и, кроме того, пользоваться разными тулами и API.

Для любителей деталей, архитектура похожа на LLaMA. Со следующими различиями:

> The following are the main differences from the standard transformer: 1) using untied embedding, 2) using rotary positional embedding, 3) no biases except for QKV in attention, 4) RMSNorm instead of LayerNorm, 5) SwiGLU instead of ReLU, and 6) adopting flash attention to accelerate training. The model has 32 layers, the embedding dimension is 4096, and the number of attention heads is 32.

Лицензия тоже как у Llama-2: Можно использовать в коммерчески целях, но только пока у вас нет 100 млн активных пользователей в месяц (у Llama-2 можно до 700 млн).

Больше деталей в этом репорте (да, это тупо .md файл в репозитории).

Демо (на китайском)

@ai_newz



group-telegram.com/ai_newz/2113
Create:
Last Update:

Qwen-7B: Alibaba зарелизили свою опен-соурсную LLM на 7B параметров

Qwen-7B натренили на 2.2 трлн токенов, размер контекста во вреия тренировки был 2048, а на тесте можно впихнуть до 8192 (у Llama-2 - 4096). Это первая открытая LLM от Alibaba.

Что по бенчмаркам?
В репе есть куча таблиц, и китайцы заявляют, что они бьют LLama-2. Особенно большая разница на бенчмарке по написанию кода Human-Eval: 24.4 vs 12.8. Но я бы осторожно смотрел на эти числа. Если по некоторым бенчмаркам Qwen-7B обходит ванильную LLama-2-7B, и даже LLaMA-2-13B, то вот с зафайнтюнеными версиями Llama-2 разрыв уже не такой большой. И, честно сказать, никто точно не знает, как они трениновали свою базовую модель.

По аналогии с LLaMa2-chat, у Qwen тоже есть чатовая версия Qwen-7B-Chat, которая затюнена отвечать на запросы пользователя и, кроме того, пользоваться разными тулами и API.

Для любителей деталей, архитектура похожа на LLaMA. Со следующими различиями:

> The following are the main differences from the standard transformer: 1) using untied embedding, 2) using rotary positional embedding, 3) no biases except for QKV in attention, 4) RMSNorm instead of LayerNorm, 5) SwiGLU instead of ReLU, and 6) adopting flash attention to accelerate training. The model has 32 layers, the embedding dimension is 4096, and the number of attention heads is 32.

Лицензия тоже как у Llama-2: Можно использовать в коммерчески целях, но только пока у вас нет 100 млн активных пользователей в месяц (у Llama-2 можно до 700 млн).

Больше деталей в этом репорте (да, это тупо .md файл в репозитории).

Демо (на китайском)

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2113

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future.
from nl


Telegram эйай ньюз
FROM American