Telegram Group & Telegram Channel
FineWeb - открытый датасет масштаба LLaMa 3

Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.

Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.

Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!

Датасет
Пайплайн фильтрации

@ai_newz



group-telegram.com/ai_newz/2624
Create:
Last Update:

FineWeb - открытый датасет масштаба LLaMa 3

Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.

Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.

Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!

Датасет
Пайплайн фильтрации

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2624

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from ye


Telegram эйай ньюз
FROM American