ChatGPT опять наврал? Расследование на примере ANOVA-теста
Я обожаю экспериментировать с ИИ в своей аналитической работе. Скорость — это здорово, но для меня точность — абсолютный приоритет. К сожалению, ИИ ошибается, и я регулярно сталкиваюсь с этим.
Проверять всё вручную — нереально при объёме моих задач, поэтому я постоянно ищу способы валидации результатов прямо в процессе работы с промптами.
Вот один из моих экспериментов: я решила протестировать возможности ChatGPT в анализе данных с помощью ANOVA-теста. Задача была простая — на представленном дата-сете оценить влияние разных моделей напоминаний в мобильном приложении на количество опозданий студентов на занятия.
🔤 Как я проверяла результаты?
1️⃣Я специально сформулировала промпты так, чтобы ChatGPT не только провел тест, но и подробно описал каждый шаг расчета, включая формулы и промежуточные результаты. 2️⃣Более того, я попросила его выполнить ANOVA-тест тремя разными способами: используя стандартную функцию из библиотеки scipy.stats, вручную и с помощью матричного подхода. ▶️Это был своего рода тест на вшивость. Цель — убедиться в корректности работы ИИ, сравнив результаты разных методов.
Все три варианта дали удивительно похожие результаты: p-значение значительно превысило 0.05, что подтвердило гипотезу об отсутствии статистически значимой разницы между моделями напоминаний.
Конечно, данные в этом примере были выдуманные, и поэтому на практике результат не столь важен. Но сам подход к валидации, — именно его я хочу подчеркнуть.
🐈⬛Убедили ли бы меня такие результаты в корректности расчетов ИИ? Да, в данном случае — безусловно. Совпадение результатов, полученных тремя разными методами, — это весомый аргумент в пользу достоверности выводов. А вас?
ChatGPT опять наврал? Расследование на примере ANOVA-теста
Я обожаю экспериментировать с ИИ в своей аналитической работе. Скорость — это здорово, но для меня точность — абсолютный приоритет. К сожалению, ИИ ошибается, и я регулярно сталкиваюсь с этим.
Проверять всё вручную — нереально при объёме моих задач, поэтому я постоянно ищу способы валидации результатов прямо в процессе работы с промптами.
Вот один из моих экспериментов: я решила протестировать возможности ChatGPT в анализе данных с помощью ANOVA-теста. Задача была простая — на представленном дата-сете оценить влияние разных моделей напоминаний в мобильном приложении на количество опозданий студентов на занятия.
🔤 Как я проверяла результаты?
1️⃣Я специально сформулировала промпты так, чтобы ChatGPT не только провел тест, но и подробно описал каждый шаг расчета, включая формулы и промежуточные результаты. 2️⃣Более того, я попросила его выполнить ANOVA-тест тремя разными способами: используя стандартную функцию из библиотеки scipy.stats, вручную и с помощью матричного подхода. ▶️Это был своего рода тест на вшивость. Цель — убедиться в корректности работы ИИ, сравнив результаты разных методов.
Все три варианта дали удивительно похожие результаты: p-значение значительно превысило 0.05, что подтвердило гипотезу об отсутствии статистически значимой разницы между моделями напоминаний.
Конечно, данные в этом примере были выдуманные, и поэтому на практике результат не столь важен. Но сам подход к валидации, — именно его я хочу подчеркнуть.
🐈⬛Убедили ли бы меня такие результаты в корректности расчетов ИИ? Да, в данном случае — безусловно. Совпадение результатов, полученных тремя разными методами, — это весомый аргумент в пользу достоверности выводов. А вас?
Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from ru