با استفاده از Python و کتابخانه pandas یک فایل CSV شامل ویژگیهای عددی را بخوان، مقادیر گمشده را با میانگین هر ستون جایگزین کن، ستونهای عددی را با روش Z‑score استانداردسازی کن، سپس دادهها را به نسبت ۸۰/۲۰ به مجموعه آموزش و آزمون تقسیم کرده و آمار توصیفی نهایی هر مجموعه را چاپ کن.
1.0 بازدید آخرین ویرایش در 221 روز قبل ساعت 01:24برای حل این مسئله از pandas.read_csv برای بارگذاری داده استفاده کن، سپس با df.select_dtypes(include=[float, int]) ستونهای عددی را انتخاب کن؛ مقادیر گمشده را با df[col].fillna(df[col].mean(), inplace=True) یا کل دیتافریم با df.fillna(df.mean(), inplace=True) پر کن. برای استانداردسازی میتوانی از (df_num - df_num.mean()) / df_num.std() استفاده کنی یا از sklearn.preprocessing.StandardScaler بهره ببری. برای تقسیم دادهها قبل از جدا کردن آموزش/آزمون دیتافریم را با df.sample(frac=1, random_state=42) شافل کن و سپس با برش ایندکسها ۸۰/۲۰ تقسیم کن یا از train_test_split در sklearn استفاده کن؛ در پایان از df.describe() برای چاپ آمار توصیفی استفاده کن. نکتهها: حفظ random_state تکرارپذیری را تضمین میکند و فقط ستونهای عددی را استاندارد کن تا ستونهای غیرعددی دستنخورده بمانند.
برای پایداری نتایج، تنها ستونهای عددی را با df.select_dtypes(include=[float, int]) انتخاب کنید و مقادیر گمشده را با میانگین هر ستون پر کنید تا مقیاس دادهها تغییر نکند. استانداردسازی با Z‑score (x−mean)/std روی ستونهای عددی انجام دهید تا مقیاسها یکسان شود. برای تقسیم ۸۰/۲۰، دادهها را با df.sample(frac=1, random_state=42) شافل کنید و برش ایندکسها را برای ۸۰/۲۰ اعمال کنید یا از train_test_split استفاده کنید. در پایان از df.describe() برای چاپ آمار توصیفی نهایی هر مجموعه استفاده کنید و مطمئن شوید که فقط روی دادههای عددی این کار انجام شده است.
گزارش