Telegram Group & Telegram Channel
FineWeb - открытый датасет масштаба LLaMa 3

Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.

Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.

Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!

Датасет
Пайплайн фильтрации

@ai_newz



group-telegram.com/ai_newz/2624
Create:
Last Update:

FineWeb - открытый датасет масштаба LLaMa 3

Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.

Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.

Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!

Датасет
Пайплайн фильтрации

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2624

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram.
from in


Telegram эйай ньюз
FROM American