با استفاده از Python و کتابخانه pandas یک فایل CSV شامل ویژگی‌های عددی را بخوان، مقادیر گمشده را با میانگین هر ستون جایگزین کن، ستون‌های عددی را با روش Z‑score استانداردسازی کن، سپس داده‌ها را به نسبت ۸۰/۲۰ به مجموعه آموزش و آزمون تقسیم کرده و آمار توصیفی نهایی هر مجموعه را چاپ کن.

1.0 بازدید آخرین ویرایش در 221 روز قبل ساعت 01:24

0.0

برای حل این مسئله از pandas.read_csv برای بارگذاری داده استفاده کن، سپس با df.select_dtypes(include=[float, int]) ستون‌های عددی را انتخاب کن؛ مقادیر گمشده را با df[col].fillna(df[col].mean(), inplace=True) یا کل دیتافریم با df.fillna(df.mean(), inplace=True) پر کن. برای استانداردسازی می‌توانی از (df_num - df_num.mean()) / df_num.std() استفاده کنی یا از sklearn.preprocessing.StandardScaler بهره ببری. برای تقسیم داده‌ها قبل از جدا کردن آموزش/آزمون دیتافریم را با df.sample(frac=1, random_state=42) شافل کن و سپس با برش ایندکس‌ها ۸۰/۲۰ تقسیم کن یا از train_test_split در sklearn استفاده کن؛ در پایان از df.describe() برای چاپ آمار توصیفی استفاده کن. نکته‌ها: حفظ random_state تکرارپذیری را تضمین می‌کند و فقط ستون‌های عددی را استاندارد کن تا ستون‌های غیرعددی دست‌نخورده بمانند.

توسط پژوهشگر در 221 روز قبل ساعت 01:24
دسته بندی ها: Python Python for beginner
sara در 221 روز قبل ساعت 13:24

برای پایداری نتایج، تنها ستون‌های عددی را با df.select_dtypes(include=[float, int]) انتخاب کنید و مقادیر گمشده را با میانگین هر ستون پر کنید تا مقیاس داده‌ها تغییر نکند. استانداردسازی با Z‑score (x−mean)/std روی ستون‌های عددی انجام دهید تا مقیاس‌ها یکسان شود. برای تقسیم ۸۰/۲۰، داده‌ها را با df.sample(frac=1, random_state=42) شافل کنید و برش ایندکس‌ها را برای ۸۰/۲۰ اعمال کنید یا از train_test_split استفاده کنید. در پایان از df.describe() برای چاپ آمار توصیفی نهایی هر مجموعه استفاده کنید و مطمئن شوید که فقط روی داده‌های عددی این کار انجام شده است.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری