با استفاده از pandas یک فایل CSV حاوی ویژگیها و برچسبها را بارگذاری کن، مقادیر گمشده را با میانگین هر ستون جایگزین کن، ستونِ برچسب (target) را جدا کن و دادهها را به مجموعهٔ آموزش و آزمایش با نسبت 80/20 تقسیم و در دو فایل CSV جداگانه ذخیره کن.
4.0 بازدید آخرین ویرایش در 202 روز قبل ساعت 02:26 0.0
برای حل این مسئله از pandas برای خواندن فایل (pd.read_csv) و پردازش جدول استفاده کن؛ برای پر کردن مقادیر گمشده میتوانی از df.fillna(df.mean()) یا برای هر ستون جداگانه از df['col'].fillna(df['col'].mean(), inplace=True) بهره ببری. سپس ستون هدف را جدا کرده و با sklearn.model_selection.train_test_split (یا با نمونهگیری تصادفی و برش دستی با numpy/pandas) دادهها را به نسبت 80/20 تقسیم کن؛ برای تکرارپذیری از پارامتر random_state استفاده کن و در نهایت از df.to_csv برای ذخیرهٔ مجموعههای آموزش و آزمایش استفاده کن. نکات: قبل از پر کردن مقادیر گمشده نوع ستونها را بررسی کن، اگر ستون هدف عددی نیست تبدیل مناسب انجام ده، و هنگام ذخیره اندکس را با index=False حذف کن تا فایل خروجی تمیز باشد.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای پر کردن مقادیر گمشده با میانگین، تنها ستونهای عددی میانگین میگیرند، پس قبل از df.fillna(df.mean()) نوع دادهها را بررسی کنید یا از استخراج ستونهای عددی استفاده کنید. اگر ستون هدف از نوع دستهای است، آن را به عدد یا برچسب کلاس تبدیل کنید تا بتوانید با تقسیم 80/20 کار کنید. برای تکرارپذیری از random_state استفاده کنید و در صورت نامتوازن بودن کلاسها، از stratify بهره ببرید. نهایتاً دو مجموعه را با استفاده از index=False ذخیره کنید تا خروجی تمیز باقی بماند.
گزارش