ChatGPT опять наврал? Расследование на примере ANOVA-теста
Я обожаю экспериментировать с ИИ в своей аналитической работе. Скорость — это здорово, но для меня точность — абсолютный приоритет. К сожалению, ИИ ошибается, и я регулярно сталкиваюсь с этим.
Проверять всё вручную — нереально при объёме моих задач, поэтому я постоянно ищу способы валидации результатов прямо в процессе работы с промптами.
Вот один из моих экспериментов: я решила протестировать возможности ChatGPT в анализе данных с помощью ANOVA-теста. Задача была простая — на представленном дата-сете оценить влияние разных моделей напоминаний в мобильном приложении на количество опозданий студентов на занятия.
🔤 Как я проверяла результаты?
1️⃣Я специально сформулировала промпты так, чтобы ChatGPT не только провел тест, но и подробно описал каждый шаг расчета, включая формулы и промежуточные результаты. 2️⃣Более того, я попросила его выполнить ANOVA-тест тремя разными способами: используя стандартную функцию из библиотеки scipy.stats, вручную и с помощью матричного подхода. ▶️Это был своего рода тест на вшивость. Цель — убедиться в корректности работы ИИ, сравнив результаты разных методов.
Все три варианта дали удивительно похожие результаты: p-значение значительно превысило 0.05, что подтвердило гипотезу об отсутствии статистически значимой разницы между моделями напоминаний.
Конечно, данные в этом примере были выдуманные, и поэтому на практике результат не столь важен. Но сам подход к валидации, — именно его я хочу подчеркнуть.
🐈⬛Убедили ли бы меня такие результаты в корректности расчетов ИИ? Да, в данном случае — безусловно. Совпадение результатов, полученных тремя разными методами, — это весомый аргумент в пользу достоверности выводов. А вас?
ChatGPT опять наврал? Расследование на примере ANOVA-теста
Я обожаю экспериментировать с ИИ в своей аналитической работе. Скорость — это здорово, но для меня точность — абсолютный приоритет. К сожалению, ИИ ошибается, и я регулярно сталкиваюсь с этим.
Проверять всё вручную — нереально при объёме моих задач, поэтому я постоянно ищу способы валидации результатов прямо в процессе работы с промптами.
Вот один из моих экспериментов: я решила протестировать возможности ChatGPT в анализе данных с помощью ANOVA-теста. Задача была простая — на представленном дата-сете оценить влияние разных моделей напоминаний в мобильном приложении на количество опозданий студентов на занятия.
🔤 Как я проверяла результаты?
1️⃣Я специально сформулировала промпты так, чтобы ChatGPT не только провел тест, но и подробно описал каждый шаг расчета, включая формулы и промежуточные результаты. 2️⃣Более того, я попросила его выполнить ANOVA-тест тремя разными способами: используя стандартную функцию из библиотеки scipy.stats, вручную и с помощью матричного подхода. ▶️Это был своего рода тест на вшивость. Цель — убедиться в корректности работы ИИ, сравнив результаты разных методов.
Все три варианта дали удивительно похожие результаты: p-значение значительно превысило 0.05, что подтвердило гипотезу об отсутствии статистически значимой разницы между моделями напоминаний.
Конечно, данные в этом примере были выдуманные, и поэтому на практике результат не столь важен. Но сам подход к валидации, — именно его я хочу подчеркнуть.
🐈⬛Убедили ли бы меня такие результаты в корректности расчетов ИИ? Да, в данном случае — безусловно. Совпадение результатов, полученных тремя разными методами, — это весомый аргумент в пользу достоверности выводов. А вас?
The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from br