Telegram Group & Telegram Channel
🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math



group-telegram.com/IDS_Math/284
Create:
Last Update:

🌀#گام_به_گام

علم داده در ۳۶۵ روز

💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار

🔸آمار، ستون فقرات تجزیه و تحلیل داده‌ها است. این علم به ما کمک می‌کند تا با خلاصه‌سازی، تجزیه و تحلیل و نتیجه‌گیری، داده‌ها را بهتر درک کنیم.

🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینه‌ساز سفر شما به دنیای علم داده، از تجزیه و تحلیل داده‌ها تا یادگیری ماشین، خواهد بود.

☑️ یکی از مهم‌ترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق می‌شود که شما علاقه‌مند به مطالعه آن هستید. نمونه نیز زیرمجموعه‌ای از جامعه است که داده‌ها را از آن جمع‌آوری می‌کنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکان‌پذیر نیست، می‌توانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.

☑️ انواع داده‌ها
برای تجزیه و تحلیل داده‌ها، باید انواع مختلف داده‌ها را بشناسید:

• داده‌های کمی: این داده‌ها قابل اندازه‌گیری و بیان عددی هستند (مانند سن یا حقوق).

• داده‌های طبقه‌بندی: این داده‌ها ویژگی‌های توصیفی هستند که نمی‌توان آنها را به صورت عددی اندازه‌گیری کرد (مانند جنسیت یا رنگ مو).

درک نوع داده‌ها بسیار مهم است زیرا تعیین‌کننده روش‌های آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای داده‌های عددی و از آزمون کای دو برای داده‌های طبقه‌بندی استفاده کنید.

☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک می‌کنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.

• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه می‌شود.

• میانه: مقدار میانی در یک مجموعه داده مرتب.

• مد: مقداری که بیشترین تکرار را دارد.

هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" داده‌ها ارائه می‌دهد. به عنوان مثال، ممکن است از میانگین برای داده‌های توزیع شده معمولی، از میانه برای داده‌های اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای داده‌های طبقه‌بندی یا یافتن رایج‌ترین مقدار استفاده کنید.

☑️ معیارهای پراکندگی
درک گسترش داده‌ها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشان‌دهنده میزان تفاوت نقاط داده هستند:

• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.

• واریانس: میزان تفاوت نقاط داده با میانگین.

• انحراف استاندارد: جذر واریانس که نشان‌دهنده فاصله متوسط از میانگین است.

این معیارها به ارزیابی سازگاری داده‌ها کمک می‌کنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده می‌شوند که نشان‌دهنده تنوع بیشتر است.

☑️ توزیع داده‌ها
داده‌ها همیشه از یک الگوی دقیق پیروی نمی‌کنند، اما بسیاری از مجموعه‌های داده با توزیع‌های رایج همخوانی دارند. یکی از شناخته‌شده‌ترین توزیع‌ها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر می‌شود. همچنین ممکن است با توزیع‌های اریب مواجه شوید:

• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.

• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.

☑️ کشیدگی و داده‌های پرت
کشیدگی به ما کمک می‌کند تا متوجه شویم که توزیع چگونه و چه مقدار از داده‌ها در دم‌ها متمرکز شده‌اند.

• توزیع لپتوکورتیک (کشش زیاد): نشان‌دهنده وجود دم‌های سنگین و نقاط پرت.

• توزیع پلاتیکورتیک (کشش کم): نشان‌دهنده دم‌های سبک و نقاط پرت کمتر.

درک این مفاهیم به شما کمک می‌کند تا روش‌های آماری مناسب‌تری انتخاب کنید و ناهنجاری‌ها را در مجموعه داده شناسایی کنید.

☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدوده‌ای را ارائه می‌دهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، می‌توانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.

💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل می‌دهند. تسلط بر آنها به شما کمک می‌کند تا داده‌هایی را که با آنها کار می‌کنید بهتر درک کنید و شما را قادر می‌سازد تصمیمات آگاهانه‌تری بگیرید.

📚منبع

#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math

🩵@IDSchools
🩵@IDS_Math

BY ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/IDS_Math/284

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from hk


Telegram ریاضی، آمار و علوم کامپیوتر - مدارس میان‌رشته‌ای
FROM American