Notice: file_put_contents(): Write of 11344 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
эйай ньюз | Telegram Webview: ai_newz/2792 -
Telegram Group & Telegram Channel
Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz



group-telegram.com/ai_newz/2792
Create:
Last Update:

Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2792

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from pl


Telegram эйай ньюз
FROM American