GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет
Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.
Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.
Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).
Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.
GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет
Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.
Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.
Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).
Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.
At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram.
from br