Notice: file_put_contents(): Write of 1979 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 14267 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Системный Блокъ | Telegram Webview: sysblok/1052 -
Telegram Group & Telegram Channel
Еще 5 слов машинного обучения

Объясняем еще несколько терминов машинного обучения из глоссария «Системного Блока». Из материала узнаете о недообучении, переобучении и глубинном обучении, а также о галлюцинациях и эмбеддингах.

Недообучение

Недообучение модели — обучение, которое ограничено потенциалом модели, и/или обучающей выборки, и/или самой процедурой обучения. Оно приводит к плохому качеству модели как на обучающих данных, так и на тестовых. В таких случаях говорят, что модели не хватает выразительной способности.

Недообучение случается, когда модель слишком простая, чтобы аппроксимировать зависимость. Оно также может возникнуть, если объём данных слишком велик, и у модели не хватает параметров для их обработки. Или наоборот, если данных недостаточно для качественного обучения. Недообучение также может возникнуть при неверном подборе способа настройки параметров модели или недостаточном количестве шагов обучения.

Переобучение

Переобучением модели называют обучение модели, при котором итоговая модель хорошо работает на обучающих данных, но плохо — на тестовых. В таких случаях говорят, что модель обладает низкой обобщающей способностью.

Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. Например, если обучающих данных значительно меньше, чем параметров модели, существует высокая вероятность, что модель «запишет» всю обучающую выборку в свои параметры, что приведёт к нулевой ошибке на обучающих данных, но высокой на тестовых.

Чтобы избежать переобучения, применяют техники регуляризации. Например, аугментацию данных — создание новых обучающих данных на основе исходных.

Глубинное обучение

Это подобласть машинного обучения, которая занимается изучением нейросетей с большим количеством параметров. Эти нейросети представляют особый интерес, так как увеличение числа параметров значительно улучшает качество их предсказаний и усиливает их способность к обобщению.

Галлюцинации

Галлюцинации — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Их важная черта — правдоподобность. Примеры галлюцинаций — это случаи, когда языковая модель говорит о несуществующем рассказе известного писателя, приводит ложную статистику об обороте компании, дает неверный совет.

Галлюцинации возникают из-за несовершенства большого массива обучающих данных, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода.

Для уменьшения количества галлюцинаций в моделях используется, например, метод Retrieval-Augmented Generation (RAG). ОН позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов.

Эмбеддинги

Синоним эмбеддингов — векторное представление данных, которое обычно получают с помощью моделей машинного обучения. Это компактные наборы чисел фиксированной длины. Каждое число в таком наборе отвечает за определённую характеристику данных, а весь набор в целом описывает данные. Например, эмбеддинг слова может состоять из 128 чисел, где пятое число указывает на род слова, а 100-е — на принадлежность слова к категории, описывающей животных.

В виде эмбеддинга можно представить изображения, видео, тексты, аудио, а также более специфичные данные: профиль пользователя соцсети, товар в магазине или молекулы. Такие числовые наборы легко хранить в памяти компьютера, и он может оценивать степень их сходства. Благодаря этим свойствам эмбеддинги позволяют оперировать данными на уровне их смысла.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1052
Create:
Last Update:

Еще 5 слов машинного обучения

Объясняем еще несколько терминов машинного обучения из глоссария «Системного Блока». Из материала узнаете о недообучении, переобучении и глубинном обучении, а также о галлюцинациях и эмбеддингах.

Недообучение

Недообучение модели — обучение, которое ограничено потенциалом модели, и/или обучающей выборки, и/или самой процедурой обучения. Оно приводит к плохому качеству модели как на обучающих данных, так и на тестовых. В таких случаях говорят, что модели не хватает выразительной способности.

Недообучение случается, когда модель слишком простая, чтобы аппроксимировать зависимость. Оно также может возникнуть, если объём данных слишком велик, и у модели не хватает параметров для их обработки. Или наоборот, если данных недостаточно для качественного обучения. Недообучение также может возникнуть при неверном подборе способа настройки параметров модели или недостаточном количестве шагов обучения.

Переобучение

Переобучением модели называют обучение модели, при котором итоговая модель хорошо работает на обучающих данных, но плохо — на тестовых. В таких случаях говорят, что модель обладает низкой обобщающей способностью.

Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. Например, если обучающих данных значительно меньше, чем параметров модели, существует высокая вероятность, что модель «запишет» всю обучающую выборку в свои параметры, что приведёт к нулевой ошибке на обучающих данных, но высокой на тестовых.

Чтобы избежать переобучения, применяют техники регуляризации. Например, аугментацию данных — создание новых обучающих данных на основе исходных.

Глубинное обучение

Это подобласть машинного обучения, которая занимается изучением нейросетей с большим количеством параметров. Эти нейросети представляют особый интерес, так как увеличение числа параметров значительно улучшает качество их предсказаний и усиливает их способность к обобщению.

Галлюцинации

Галлюцинации — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Их важная черта — правдоподобность. Примеры галлюцинаций — это случаи, когда языковая модель говорит о несуществующем рассказе известного писателя, приводит ложную статистику об обороте компании, дает неверный совет.

Галлюцинации возникают из-за несовершенства большого массива обучающих данных, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода.

Для уменьшения количества галлюцинаций в моделях используется, например, метод Retrieval-Augmented Generation (RAG). ОН позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов.

Эмбеддинги

Синоним эмбеддингов — векторное представление данных, которое обычно получают с помощью моделей машинного обучения. Это компактные наборы чисел фиксированной длины. Каждое число в таком наборе отвечает за определённую характеристику данных, а весь набор в целом описывает данные. Например, эмбеддинг слова может состоять из 128 чисел, где пятое число указывает на род слова, а 100-е — на принадлежность слова к категории, описывающей животных.

В виде эмбеддинга можно представить изображения, видео, тексты, аудио, а также более специфичные данные: профиль пользователя соцсети, товар в магазине или молекулы. Такие числовые наборы легко хранить в памяти компьютера, и он может оценивать степень их сходства. Благодаря этим свойствам эмбеддинги позволяют оперировать данными на уровне их смысла.

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/sysblok/1052

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look.
from fr


Telegram Системный Блокъ
FROM American