group-telegram.com/IDS_Math/284
Last Update:
🌀#گام_به_گام
✨علم داده در ۳۶۵ روز
💠 به اولین درس خود در مجموعه مبانی علم داده و هوش مصنوعی خوش آمدید!
درس امروز: آمار
🔸آمار، ستون فقرات تجزیه و تحلیل دادهها است. این علم به ما کمک میکند تا با خلاصهسازی، تجزیه و تحلیل و نتیجهگیری، دادهها را بهتر درک کنیم.
🔹در این درس، برخی از مفاهیم اساسی آماری را بررسی خواهیم کرد که زمینهساز سفر شما به دنیای علم داده، از تجزیه و تحلیل دادهها تا یادگیری ماشین، خواهد بود.
☑️ یکی از مهمترین تمایزات در آمار، تفکیک بین "نمونه" و "جامعه" است.
جامعه به کل گروهی اطلاق میشود که شما علاقهمند به مطالعه آن هستید. نمونه نیز زیرمجموعهای از جامعه است که دادهها را از آن جمعآوری میکنید. به عنوان مثال، اگر بخواهید میانگین حقوق دانشمندان داده در سطح جهانی را بدانید، جامعه شما شامل همه دانشمندان داده خواهد بود. از آنجا که بررسی همه افراد امکانپذیر نیست، میتوانید یک نمونه را برای نمایندگی از جامعه انتخاب کرده و از آن برای استنتاج استفاده کنید.
☑️ انواع دادهها
برای تجزیه و تحلیل دادهها، باید انواع مختلف دادهها را بشناسید:
• دادههای کمی: این دادهها قابل اندازهگیری و بیان عددی هستند (مانند سن یا حقوق).
• دادههای طبقهبندی: این دادهها ویژگیهای توصیفی هستند که نمیتوان آنها را به صورت عددی اندازهگیری کرد (مانند جنسیت یا رنگ مو).
درک نوع دادهها بسیار مهم است زیرا تعیینکننده روشهای آماری است که برای تجزیه و تحلیل آنها استفاده خواهید کرد. به عنوان مثال، ممکن است از آزمون t برای دادههای عددی و از آزمون کای دو برای دادههای طبقهبندی استفاده کنید.
☑️ معیارهای گرایش مرکزی
معیارهای گرایش مرکزی به ما کمک میکنند تا یک مجموعه داده را با یک عدد خلاصه کنیم.
• میانگین: معدل حسابی که با جمع کردن تمام نقاط داده و تقسیم بر تعداد آنها محاسبه میشود.
• میانه: مقدار میانی در یک مجموعه داده مرتب.
• مد: مقداری که بیشترین تکرار را دارد.
هر یک از این معیارها دیدگاه متفاوتی درباره "مرکز" دادهها ارائه میدهد. به عنوان مثال، ممکن است از میانگین برای دادههای توزیع شده معمولی، از میانه برای دادههای اریب یا زمانی که با موارد پرت سر و کار دارید و از مد برای دادههای طبقهبندی یا یافتن رایجترین مقدار استفاده کنید.
☑️ معیارهای پراکندگی
درک گسترش دادهها به اندازه شناخت مرکز آن اهمیت دارد. معیارهای پراکندگی نشاندهنده میزان تفاوت نقاط داده هستند:
• محدوده: تفاوت بین بالاترین و کمترین مقادیر یک مجموعه داده.
• واریانس: میزان تفاوت نقاط داده با میانگین.
• انحراف استاندارد: جذر واریانس که نشاندهنده فاصله متوسط از میانگین است.
این معیارها به ارزیابی سازگاری دادهها کمک میکنند. برای مثال، در یک مجموعه داده با واریانس بالا، نقاط داده دور از میانگین پراکنده میشوند که نشاندهنده تنوع بیشتر است.
☑️ توزیع دادهها
دادهها همیشه از یک الگوی دقیق پیروی نمیکنند، اما بسیاری از مجموعههای داده با توزیعهای رایج همخوانی دارند. یکی از شناختهشدهترین توزیعها، توزیع نرمال (منحنی زنگ) است. در این توزیع، بیشتر نقاط داده نزدیک به میانگین هستند و با دور شدن از آن، تعداد کمتری ظاهر میشود. همچنین ممکن است با توزیعهای اریب مواجه شوید:
• توزیع با انحراف مثبت: مشاهدات بیشتری در انتهای پایینی دارد.
• توزیع با انحراف منفی: مشاهدات بیشتری در انتهای بالاتر دارد.
☑️ کشیدگی و دادههای پرت
کشیدگی به ما کمک میکند تا متوجه شویم که توزیع چگونه و چه مقدار از دادهها در دمها متمرکز شدهاند.
• توزیع لپتوکورتیک (کشش زیاد): نشاندهنده وجود دمهای سنگین و نقاط پرت.
• توزیع پلاتیکورتیک (کشش کم): نشاندهنده دمهای سبک و نقاط پرت کمتر.
درک این مفاهیم به شما کمک میکند تا روشهای آماری مناسبتری انتخاب کنید و ناهنجاریها را در مجموعه داده شناسایی کنید.
☑️ فواصل اطمینان
هنگام استنتاج از یک نمونه به جامعه، فواصل اطمینان محدودهای را ارائه میدهند که انتظار داریم پارامتر واقعی جمعیت در آن قرار گیرد. به عنوان مثال، اگر میانگین دستمزد دانشمندان داده را 100000 دلار با فاصله اطمینان 95٪ بین 90000 تا 110000 دلار تخمین بزنیم، میتوانیم 95٪ مطمئن باشیم که میانگین واقعی در این محدوده قرار دارد.
💠 این مفاهیم اصلی، پایه و اساس آمار در علم داده را تشکیل میدهند. تسلط بر آنها به شما کمک میکند تا دادههایی را که با آنها کار میکنید بهتر درک کنید و شما را قادر میسازد تصمیمات آگاهانهتری بگیرید.
📚منبع
#️⃣#IDSchools
#️⃣#IDS
#️⃣#IDS_Math
🩵@IDSchools
🩵@IDS_Math
BY ریاضی، آمار و علوم کامپیوتر - مدارس میانرشتهای
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/IDS_Math/284