Telegram Group & Telegram Channel
Еще 5 слов машинного обучения

Объясняем еще несколько терминов машинного обучения из глоссария «Системного Блока». Из материала узнаете о недообучении, переобучении и глубинном обучении, а также о галлюцинациях и эмбеддингах.

Недообучение

Недообучение модели — обучение, которое ограничено потенциалом модели, и/или обучающей выборки, и/или самой процедурой обучения. Оно приводит к плохому качеству модели как на обучающих данных, так и на тестовых. В таких случаях говорят, что модели не хватает выразительной способности.

Недообучение случается, когда модель слишком простая, чтобы аппроксимировать зависимость. Оно также может возникнуть, если объём данных слишком велик, и у модели не хватает параметров для их обработки. Или наоборот, если данных недостаточно для качественного обучения. Недообучение также может возникнуть при неверном подборе способа настройки параметров модели или недостаточном количестве шагов обучения.

Переобучение

Переобучением модели называют обучение модели, при котором итоговая модель хорошо работает на обучающих данных, но плохо — на тестовых. В таких случаях говорят, что модель обладает низкой обобщающей способностью.

Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. Например, если обучающих данных значительно меньше, чем параметров модели, существует высокая вероятность, что модель «запишет» всю обучающую выборку в свои параметры, что приведёт к нулевой ошибке на обучающих данных, но высокой на тестовых.

Чтобы избежать переобучения, применяют техники регуляризации. Например, аугментацию данных — создание новых обучающих данных на основе исходных.

Глубинное обучение

Это подобласть машинного обучения, которая занимается изучением нейросетей с большим количеством параметров. Эти нейросети представляют особый интерес, так как увеличение числа параметров значительно улучшает качество их предсказаний и усиливает их способность к обобщению.

Галлюцинации

Галлюцинации — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Их важная черта — правдоподобность. Примеры галлюцинаций — это случаи, когда языковая модель говорит о несуществующем рассказе известного писателя, приводит ложную статистику об обороте компании, дает неверный совет.

Галлюцинации возникают из-за несовершенства большого массива обучающих данных, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода.

Для уменьшения количества галлюцинаций в моделях используется, например, метод Retrieval-Augmented Generation (RAG). ОН позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов.

Эмбеддинги

Синоним эмбеддингов — векторное представление данных, которое обычно получают с помощью моделей машинного обучения. Это компактные наборы чисел фиксированной длины. Каждое число в таком наборе отвечает за определённую характеристику данных, а весь набор в целом описывает данные. Например, эмбеддинг слова может состоять из 128 чисел, где пятое число указывает на род слова, а 100-е — на принадлежность слова к категории, описывающей животных.

В виде эмбеддинга можно представить изображения, видео, тексты, аудио, а также более специфичные данные: профиль пользователя соцсети, товар в магазине или молекулы. Такие числовые наборы легко хранить в памяти компьютера, и он может оценивать степень их сходства. Благодаря этим свойствам эмбеддинги позволяют оперировать данными на уровне их смысла.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1052
Create:
Last Update:

Еще 5 слов машинного обучения

Объясняем еще несколько терминов машинного обучения из глоссария «Системного Блока». Из материала узнаете о недообучении, переобучении и глубинном обучении, а также о галлюцинациях и эмбеддингах.

Недообучение

Недообучение модели — обучение, которое ограничено потенциалом модели, и/или обучающей выборки, и/или самой процедурой обучения. Оно приводит к плохому качеству модели как на обучающих данных, так и на тестовых. В таких случаях говорят, что модели не хватает выразительной способности.

Недообучение случается, когда модель слишком простая, чтобы аппроксимировать зависимость. Оно также может возникнуть, если объём данных слишком велик, и у модели не хватает параметров для их обработки. Или наоборот, если данных недостаточно для качественного обучения. Недообучение также может возникнуть при неверном подборе способа настройки параметров модели или недостаточном количестве шагов обучения.

Переобучение

Переобучением модели называют обучение модели, при котором итоговая модель хорошо работает на обучающих данных, но плохо — на тестовых. В таких случаях говорят, что модель обладает низкой обобщающей способностью.

Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. Например, если обучающих данных значительно меньше, чем параметров модели, существует высокая вероятность, что модель «запишет» всю обучающую выборку в свои параметры, что приведёт к нулевой ошибке на обучающих данных, но высокой на тестовых.

Чтобы избежать переобучения, применяют техники регуляризации. Например, аугментацию данных — создание новых обучающих данных на основе исходных.

Глубинное обучение

Это подобласть машинного обучения, которая занимается изучением нейросетей с большим количеством параметров. Эти нейросети представляют особый интерес, так как увеличение числа параметров значительно улучшает качество их предсказаний и усиливает их способность к обобщению.

Галлюцинации

Галлюцинации — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Их важная черта — правдоподобность. Примеры галлюцинаций — это случаи, когда языковая модель говорит о несуществующем рассказе известного писателя, приводит ложную статистику об обороте компании, дает неверный совет.

Галлюцинации возникают из-за несовершенства большого массива обучающих данных, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода.

Для уменьшения количества галлюцинаций в моделях используется, например, метод Retrieval-Augmented Generation (RAG). ОН позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов.

Эмбеддинги

Синоним эмбеддингов — векторное представление данных, которое обычно получают с помощью моделей машинного обучения. Это компактные наборы чисел фиксированной длины. Каждое число в таком наборе отвечает за определённую характеристику данных, а весь набор в целом описывает данные. Например, эмбеддинг слова может состоять из 128 чисел, где пятое число указывает на род слова, а 100-е — на принадлежность слова к категории, описывающей животных.

В виде эмбеддинга можно представить изображения, видео, тексты, аудио, а также более специфичные данные: профиль пользователя соцсети, товар в магазине или молекулы. Такие числовые наборы легко хранить в памяти компьютера, и он может оценивать степень их сходства. Благодаря этим свойствам эмбеддинги позволяют оперировать данными на уровне их смысла.

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/sysblok/1052

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Some privacy experts say Telegram is not secure enough Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from de


Telegram Системный Блокъ
FROM American