Telegram Group & Telegram Channel
Mistral выпустили две новые 7B модели

MathΣtral - тюн Mistral 7B, ориентированный на математику и технические дисциплины. На бенчах заметно лучше конкурентов среди открытых математических LLM, но до закрытых моделей всё ещё далеко - специализированные на математике варианты Gemini 1.5 Pro на MATH выдают за 90%.

Создали модель в коллаборации с Project Numina, победителями недавнего AIMO Progress Prize, где модели соревновались в решении задач с международной математической олимпиады (IMO). На том соревновании первые 4 места заняли тюны DeepSeek Math 7B, видимо, Mistral захотели своего конкурента.

Codestral Mamba - модель для кода, основанная на архитектуре Mamba V2, первый не трансформер который натренили в Mistral.

Результаты неплохие, но результатами бенчей слегка манипулируют - сравнивают с довольно старыми моделями, а с сильными конкурентами, вроде Llama 3 8B и DeepSeek Coder V2 Lite - нет. Результат Llama 3 8B на HumanEval выше чем у других моделей с которыми сравнивают Codestral. А DeepSeek Coder V2 Lite на HumanEval обгоняет не только Codestral Mamba, но и Codestral 22B.

Mamba, в теории, обещает "линейный" инференс с "бесконечным контекстом. Конкурентов трансформерам всегда интересно видеть, но я пока что не видел нормальных тестов контекста более чем 16к токенов, так что отношусь к архитектуре скептически. Если хотите, могу написать про неё поподробнее.

@ai_newz



group-telegram.com/ai_newz/3008
Create:
Last Update:

Mistral выпустили две новые 7B модели

MathΣtral - тюн Mistral 7B, ориентированный на математику и технические дисциплины. На бенчах заметно лучше конкурентов среди открытых математических LLM, но до закрытых моделей всё ещё далеко - специализированные на математике варианты Gemini 1.5 Pro на MATH выдают за 90%.

Создали модель в коллаборации с Project Numina, победителями недавнего AIMO Progress Prize, где модели соревновались в решении задач с международной математической олимпиады (IMO). На том соревновании первые 4 места заняли тюны DeepSeek Math 7B, видимо, Mistral захотели своего конкурента.

Codestral Mamba - модель для кода, основанная на архитектуре Mamba V2, первый не трансформер который натренили в Mistral.

Результаты неплохие, но результатами бенчей слегка манипулируют - сравнивают с довольно старыми моделями, а с сильными конкурентами, вроде Llama 3 8B и DeepSeek Coder V2 Lite - нет. Результат Llama 3 8B на HumanEval выше чем у других моделей с которыми сравнивают Codestral. А DeepSeek Coder V2 Lite на HumanEval обгоняет не только Codestral Mamba, но и Codestral 22B.

Mamba, в теории, обещает "линейный" инференс с "бесконечным контекстом. Конкурентов трансформерам всегда интересно видеть, но я пока что не видел нормальных тестов контекста более чем 16к токенов, так что отношусь к архитектуре скептически. Если хотите, могу написать про неё поподробнее.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3008

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike.
from no


Telegram эйай ньюз
FROM American