group-telegram.com/nlpwanderer/49
Last Update:
GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет
Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.
Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.
Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).
Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/b7KlvZDzg55nCSmxxNDjd_0dY81f_3ef7G5o9UmYJ8XAyijHj-ZLVup8IX1o-CV0q8HdFEpsx08YaZVWKNEhfLqLaWQoFNXXwNC8PYDnVWyOmP9XheUoGTfPSW6qzDCBo4WSngcT7tofrMOTCklYu46U1b4qbFJV9t-kW8C83CyGwPj4UWpojxbdxSv_GVNPGZhl0zmjr4av1sG-I8eXgExwOJAyzZ3xPzWdZdPn6TXonUy29JcamKROgoV5ZV0sCA7GiaN5913fBKeq2t8wrReRIGzSlx42cVkkfh2OEROZ5OUSfkPVMGvhdhda8SIeO5vHjRR_eHKIMPQBXbJo0g.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/49