Telegram Group & Telegram Channel
Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz



group-telegram.com/ai_newz/2792
Create:
Last Update:

Когда у нас закончатся данные для тренировки?

Короткий ответ - осталось на донышке. Если говорить о текстовых.

Ребята из Epoch AI провели добротную оценку оставшейся текстовой информации во всем вебе.

Всего примерно 500Т токенов, из них юзабельно от силы 100Т. Иии закончатся они уже к 28 году... если брать историческую скорость развития.

Но уважаемые коллеги из Мета показали нам, что количество токенов, которое оптимально использовать для модели фиксированного размера (шиншила оптимал), сильно занижено. А точнее, если есть лишний компьют, то можно и потренировать и дольше, чтобы выжать из модели всё до конца.

Так вот если перетренировывать модели в 5 раз, то дата у нас закончится в 27м, а если в 100 раз, то на следующий новый год в 25м : )
Для справки, если забыли, то LlaMa3-8B перетренировали в 70 раз. Вот здесь об этом писал подробнее.

Что делать?

Оказалось, что у соцсетей есть жёсткий читкод. До этого говорилось только об открытой инфе, которую можно нагуглить. Оказывается, в чатиках в 10 раз (очень примерно) больше данных чем во всем вебе.

Поэтому те компании, которые научатся использовать эти данные могут оказаться на коне. Хотя данные из соцсетей и так парсят все кому не лень, но сделать это на большом масштабе по-черному вряд-ли получится из-за лимитов и банов.

Еще есть второй способ выхода из данного плато (все равно в чатиках какая-то дичь) – это synthetic data, когда нейросетки "учат" друг друга. Но там есть свои ещё нерешённые проблемы с качеством таких данных.

Ещё добавлю сюда, что мультимодальные данные (вроде видео с YouTube) будут в скором времени тоже очень сильно решать для больших нейросетей. Пока ведь этот богатый ресурс из миллионов часов видео никто активно не использует для обучения.

В общем, если с текстовыми данными и будет затык в ближайшие 5 лет, то есть ещё куча мультимодальных данных (подкасты, видео, игры). А ещё мы сможем запустить роботов собирать данные в реальном мире, как например это делает Тесла.

Тред
Репорт 

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2792

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from jp


Telegram эйай ньюз
FROM American