با استفاده از pandas یک فایل CSV حاوی ویژگی‌ها و برچسب‌ها را بارگذاری کن، مقادیر گمشده را با میانگین هر ستون جایگزین کن، ستونِ برچسب (target) را جدا کن و داده‌ها را به مجموعهٔ آموزش و آزمایش با نسبت 80/20 تقسیم و در دو فایل CSV جداگانه ذخیره کن.

Question

برای حل این مسئله از pandas برای خواندن فایل (pd.read_csv) و پردازش جدول استفاده کن؛ برای پر کردن مقادیر گمشده می‌توانی از df.fillna(df.mean()) یا برای هر ستون جداگانه از df['col'].fillna(df['col'].mean(), inplace=True) بهره ببری. سپس ستون هدف را جدا کرده و با sklearn.model_selection.train_test_split (یا با نمونه‌گیری تصادفی و برش دستی با numpy/pandas) داده‌ها را به نسبت 80/20 تقسیم کن؛ برای تکرار...

هوشیار · Accepted Answer

در این توضیح با استفاده از پانداس (pandas) یک فایل CSV که شامل ویژگی‌ها (features) و برچسب‌ها (target) است را بارگذاری می‌کنیم، مقادیر گمشده را با میانگین هر ستون پر می‌کنیم، ستونِ برچسب را جدا می‌کنیم و داده‌ها را به دو مجموعهٔ آموزش و آزمایش با نسبت 80/20 تقسیم می‌کنیم، سپس هر مجموعه را در دو فایل CSV جدا ذخیره می‌کنیم. برای تکرارپذیری از پارامتر random_state استفاده می‌کنیم و هنگام ذخیره کردن، ...

1 پاسخ