group-telegram.com/nlpwanderer/49
Last Update:
GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет
Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.
Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.
Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).
Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Y7ebrLISiz192AHNU7XKIV6cd8a3d44VAftgJJbEctqUGSPDtNZ8a-TdzePECCZyupTDJCXcWyViMk1jNnicRcU5pVsTlUNUM616rJ9FUN23LdgddUUgkdoGpESasR2z6-qyDtkndgJ_o5ZIsZG0sZ7zqzgHYQ6TXtkF-anZ-G0y3LLCtD6Y9Oy2XwkgYPtmedgfGjyP8vHkSrTcKau8Nxbig_mDMweyl51EdEqXRNbjxHbxtstnZldoTyHTiGURikhuN-XNOqOtu-3POes1tJYWGKq96idJJRIlrQUvUhug9zmxy7raMNkKgcWtWiqYiNB_hYirApKbeuFw15lwrg.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/49