Telegram Group & Telegram Channel
FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz



group-telegram.com/ai_newz/2764
Create:
Last Update:

FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2764

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from br


Telegram эйай ньюз
FROM American