Telegram Group & Telegram Channel
Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz



group-telegram.com/ai_newz/2792
Create:
Last Update:

Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2792

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday.
from fr


Telegram эйай ньюз
FROM American