Telegram Group & Telegram Channel
FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz



group-telegram.com/ai_newz/2764
Create:
Last Update:

FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2764

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights.
from ru


Telegram эйай ньюз
FROM American