Telegram Group & Telegram Channel
FineWeb - открытый датасет масштаба LLaMa 3

Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.

Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.

Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!

Датасет
Пайплайн фильтрации

@ai_newz



group-telegram.com/ai_newz/2624
Create:
Last Update:

FineWeb - открытый датасет масштаба LLaMa 3

Взяли CommonCrawl, отфильтровали оттуда 15 триллионов токенов (прям как у LLaMa 3). Вышло лучше большинства других датасетов для претрейна. Тестят они это натренировав на ~350 миллиардах токенов из каждого датасета 1.8B модель, а вообще в процессе разработки датасета натренировали 200+ мини-моделей. График красивый но слегка устарел - у датасета Dolma (в котором всего 3 триллиона токенов) на днях вышла версия получше, с ней сравнить не успели и кто из них лучше - пока непонятно.

Иметь хороший датасет крайне важно, "garbage in, garbage out" распространяется на ИИ больше чем на всё остальное и именно в качестве датасетов огромное преимущество больших лаб. Это видно, например, на Falcon 180B, который тренировали на 3.5 триллионов токенов ($30 миллионов в AWS, ничему жизнь не учит), только затем чтобы слегка обогнать LLaMa 3 8B (~2.5x меньше компьюта) и безнадёжно отстать от LLaMa 3 70B (~2x больше компьюта). И, несмотря на то что Falcon оптимальный по Шиншилле (соотношение токенов/параметров чтобы модель вышла наилучшей при фиксированном компьюте), он не добивается особо выдающихся результатов по сравнению с моделью которая в десятки раз быстрее и в разы дешевле в тренировке. И всё (по крайне мере) из-за датасета.

Пока релизнули только англоязычный датасет, многоязычный обещают чуть позже, и я обязательно напишу о его релизе. Плюс открыли не только датасет, но и скрипты которыми его фильтровали!

Датасет
Пайплайн фильтрации

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2624

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Some privacy experts say Telegram is not secure enough At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look.
from kr


Telegram эйай ньюз
FROM American