Telegram Group & Telegram Channel
FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz



group-telegram.com/ai_newz/2764
Create:
Last Update:

FineWeb-Edu - самый качественный опенсорс датасет для претрейна

Вышел довольно детальный техрепорт о создании FineWeb. Одновременно с ним выпустили FineWeb-Edu - версию датасета размером поменьше, но бьющую по качеству ВСЕ существующие опенсорс датасеты. Есть две версии: 5.4 триллиона токенов и 1.3 триллиона токенов, отличаются они строгостью фильтрации.

Алгоритм фильтрации довольно простой: авторы попросили LLaMa 3 70B оценить познавательность полумиллиона семплов по шкале от 0 до 5. На этих данных затюнили классификатор, который проставил оценки остальному датасету. Дальше отсекли все семплы с низкими оценками: для большой версии всё с оценкой ниже двух, для маленькой всё что ниже трёх.

Ещё тестировали версию датасета с семплами, оценёнными 4 и выше, но так проявились минусы подхода: если фильтровать токены только по познавательности, то с ростом бенчей вроде MMLU и ARC (оценка знаний), начинают проседать Hellaswag и PIQA (ризонинг).

Однобокость выборки, скорее всего, можно исправить фильтрацией семплов по нескольким критериям, но это уже тема будущих работ. А пока юзаем версии датасета с большим разнообразием.

Блогпост
1.3T верия датасета (более качественная)
5.4T версия

Для поста с детальным разбором основных бенчмарков ставьте ⚡️, для разбора процесса фильтрации оригинального FineWeb - 🦄, победитель будет один

@ai_newz

BY эйай ньюз






Share with your friend now:
group-telegram.com/ai_newz/2764

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from sa


Telegram эйай ньюз
FROM American