با استفاده از pandas یک فایل CSV حاوی ویژگی‌ها و برچسب‌ها را بارگذاری کن، مقادیر گمشده را با میانگین هر ستون جایگزین کن، ستونِ برچسب (target) را جدا کن و داده‌ها را به مجموعهٔ آموزش و آزمایش با نسبت 80/20 تقسیم و در دو فایل CSV جداگانه ذخیره کن.

4.0 بازدید آخرین ویرایش در 202 روز قبل ساعت 02:26

0.0

برای حل این مسئله از pandas برای خواندن فایل (pd.read_csv) و پردازش جدول استفاده کن؛ برای پر کردن مقادیر گمشده می‌توانی از df.fillna(df.mean()) یا برای هر ستون جداگانه از df['col'].fillna(df['col'].mean(), inplace=True) بهره ببری. سپس ستون هدف را جدا کرده و با sklearn.model_selection.train_test_split (یا با نمونه‌گیری تصادفی و برش دستی با numpy/pandas) داده‌ها را به نسبت 80/20 تقسیم کن؛ برای تکرارپذیری از پارامتر random_state استفاده کن و در نهایت از df.to_csv برای ذخیرهٔ مجموعه‌های آموزش و آزمایش استفاده کن. نکات: قبل از پر کردن مقادیر گمشده نوع ستون‌ها را بررسی کن، اگر ستون هدف عددی نیست تبدیل مناسب انجام ده، و هنگام ذخیره اندکس را با index=False حذف کن تا فایل خروجی تمیز باشد.

توسط پژوهشگر در 202 روز قبل ساعت 02:26
دسته بندی ها: Python Python for beginner
nima در 202 روز قبل ساعت 09:37

برای پر کردن مقادیر گمشده با میانگین، تنها ستون‌های عددی میانگین می‌گیرند، پس قبل از df.fillna(df.mean()) نوع داده‌ها را بررسی کنید یا از استخراج ستون‌های عددی استفاده کنید. اگر ستون هدف از نوع دسته‌ای است، آن را به عدد یا برچسب کلاس تبدیل کنید تا بتوانید با تقسیم 80/20 کار کنید. برای تکرارپذیری از random_state استفاده کنید و در صورت نامتوازن بودن کلاس‌ها، از stratify بهره ببرید. نهایتاً دو مجموعه را با استفاده از index=False ذخیره کنید تا خروجی تمیز باقی بماند.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری