Telegram Group & Telegram Channel
FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz



group-telegram.com/ai_newz/2764
Create:
Last Update:

FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2764

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. False news often spreads via public groups, or chats, with potentially fatal effects. Anastasia Vlasova/Getty Images
from us


Telegram эйай ньюз
FROM American