Telegram Group & Telegram Channel
Как оценить AI-модель

Второй и последний пост про AI на этой неделе. Вот здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки! 🔥

Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров

Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.

Итого - оценка человеком.

В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.

Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.

Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.

Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера, остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.

"Ассистент систематически обращается к пользователю по имени" - да / нет

"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5

"Ассистент завершил задачу пользователя до конца" - да / нет

"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет

"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5


#PG_education



group-telegram.com/productgames/1052
Create:
Last Update:

Как оценить AI-модель

Второй и последний пост про AI на этой неделе. Вот здесь - первый про UX. Если хотите больше про AI в продукте - ставьте огонечки! 🔥

Есть несколько основных способов оценить, насколько хорошо работает AI модель:
1. Оценка человеком
2. Автоматическая оценка кодом
3. Фидбек от юзеров

Автоматическую оценку кодом пока опустим, фидбек от юзеров - вещь полезная, но перед тем, как катить на юзеров, нужно понять самим, не будет ли наш AI посылать куда подальше.

Итого - оценка человеком.

В общем подход здесь такой: нужно представить, что вы оцениваете эссе. Каждое из них уникально как и результаты модели, но при этом должны быть критерии оценки, чтобы а) можно было справедливо оценить б) делегировать потом оценку другим.

Шаги, которые нужно сделать, чтобы составить критерии для оценки, на иллюстрации. В идеале у вас должна появиться таблица, в которой будет -дцать вопросов формата да / нет, а также с оценкой от 1 до 5.

Поначалу с ее помощью тестит результат продакт, а дальше можно нанять тестировщиков.

Примеры вопросов для AI-ассистента Google, который помогает пользователям гугла в случае проблем. Пару покажу без спойлера, остальные - под спойлером, чтобы вы могли подумать и раскрыть их для проверки.

"Ассистент систематически обращается к пользователю по имени" - да / нет

"Ассистент предоставил пользователю больше ценности за меньшее время, чем если бы пользователь сделал это сам" - оценка по шкале от 1 до 5

"Ассистент завершил задачу пользователя до конца" - да / нет

"Ассистент следил за выполнением задачи пользователя и уточнял её статус" - да / нет

"Ассистент предоставил пользователю качественные варианты" - оценка по шкале от 1 до 5


#PG_education

BY Product games с Кристиной Гусевой




Share with your friend now:
group-telegram.com/productgames/1052

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields.
from us


Telegram Product games с Кристиной Гусевой
FROM American