ChatGPT опять наврал? Расследование на примере ANOVA-теста
Я обожаю экспериментировать с ИИ в своей аналитической работе. Скорость — это здорово, но для меня точность — абсолютный приоритет. К сожалению, ИИ ошибается, и я регулярно сталкиваюсь с этим.
Проверять всё вручную — нереально при объёме моих задач, поэтому я постоянно ищу способы валидации результатов прямо в процессе работы с промптами.
Вот один из моих экспериментов: я решила протестировать возможности ChatGPT в анализе данных с помощью ANOVA-теста. Задача была простая — на представленном дата-сете оценить влияние разных моделей напоминаний в мобильном приложении на количество опозданий студентов на занятия.
🔤 Как я проверяла результаты?
1️⃣Я специально сформулировала промпты так, чтобы ChatGPT не только провел тест, но и подробно описал каждый шаг расчета, включая формулы и промежуточные результаты. 2️⃣Более того, я попросила его выполнить ANOVA-тест тремя разными способами: используя стандартную функцию из библиотеки scipy.stats, вручную и с помощью матричного подхода. ▶️Это был своего рода тест на вшивость. Цель — убедиться в корректности работы ИИ, сравнив результаты разных методов.
Все три варианта дали удивительно похожие результаты: p-значение значительно превысило 0.05, что подтвердило гипотезу об отсутствии статистически значимой разницы между моделями напоминаний.
Конечно, данные в этом примере были выдуманные, и поэтому на практике результат не столь важен. Но сам подход к валидации, — именно его я хочу подчеркнуть.
🐈⬛Убедили ли бы меня такие результаты в корректности расчетов ИИ? Да, в данном случае — безусловно. Совпадение результатов, полученных тремя разными методами, — это весомый аргумент в пользу достоверности выводов. А вас?
ChatGPT опять наврал? Расследование на примере ANOVA-теста
Я обожаю экспериментировать с ИИ в своей аналитической работе. Скорость — это здорово, но для меня точность — абсолютный приоритет. К сожалению, ИИ ошибается, и я регулярно сталкиваюсь с этим.
Проверять всё вручную — нереально при объёме моих задач, поэтому я постоянно ищу способы валидации результатов прямо в процессе работы с промптами.
Вот один из моих экспериментов: я решила протестировать возможности ChatGPT в анализе данных с помощью ANOVA-теста. Задача была простая — на представленном дата-сете оценить влияние разных моделей напоминаний в мобильном приложении на количество опозданий студентов на занятия.
🔤 Как я проверяла результаты?
1️⃣Я специально сформулировала промпты так, чтобы ChatGPT не только провел тест, но и подробно описал каждый шаг расчета, включая формулы и промежуточные результаты. 2️⃣Более того, я попросила его выполнить ANOVA-тест тремя разными способами: используя стандартную функцию из библиотеки scipy.stats, вручную и с помощью матричного подхода. ▶️Это был своего рода тест на вшивость. Цель — убедиться в корректности работы ИИ, сравнив результаты разных методов.
Все три варианта дали удивительно похожие результаты: p-значение значительно превысило 0.05, что подтвердило гипотезу об отсутствии статистически значимой разницы между моделями напоминаний.
Конечно, данные в этом примере были выдуманные, и поэтому на практике результат не столь важен. Но сам подход к валидации, — именно его я хочу подчеркнуть.
🐈⬛Убедили ли бы меня такие результаты в корректности расчетов ИИ? Да, в данном случае — безусловно. Совпадение результатов, полученных тремя разными методами, — это весомый аргумент в пользу достоверности выводов. А вас?
On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from kr