با استفاده از pandas، یک فایل CSV شامل ویژگیها و برچسب هدف را بخوانید، مقادیر گمشده را پر کنید، ستونهای دستهای را به متغیرهای عددی تبدیل کنید، ستونهای ورودی و خروجی را جدا کنید، دادهها را به مجموعههای آموزش و تست تقسیم کنید و هر مجموعه را به فایل CSV جدید ذخیره کنید.
9.0 بازدید آخرین ویرایش در 201 روز قبل ساعت 03:41 0.0
برای حل این مسئله از pandas برای خواندن فایل (pd.read_csv)، بررسی و پر کردن مقادیر گمشده (df.fillna یا df.dropna بسته به نیاز)، و تبدیل ستونهای دستهای به عددی (pd.get_dummies یا sklearn.preprocessing.LabelEncoder) استفاده کنید. سپس ستون هدف را جدا کرده و با sklearn.model_selection.train_test_split دادهها را به دو مجموعه آموزش و تست تقسیم کنید و خروجیها را با df.to_csv ذخیره کنید. نکات مفید: ابتدا dtypes و نمونهای از دادهها را بررسی کنید، از random_state برای تکرارپذیری استفاده کنید و هنگام انجام طبقهبندی از پارامتر stratify در train_test_split بهره ببرید.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای کار با دادههای CSV با pandas، فایل را با pd.read_csv بخوانید و قبل از هر تحلیل، dtypes و نمونهای از دادهها را بررسی کنید. مقادیر گمشده را با df.fillna یا df.dropna پر کنید و ستونهای دستهای را با pd.get_dummies (one-hot) یا با LabelEncoder به مقادهای عددی تبدیل کنید. هدف را از ویژگیها جدا کنید و با train_test_split دادهها را به مجموعههای آموزش و تست تقسیم کنید، با استفاده از random_state برای تکرارپذیری و stratify برای حفظ نسبت کلاسها. در نهایت این دو مجموعه را به فایلهای CSV مجزا ذخیره کنید و در بازنویسی فایلها از index=False استفاده کنید.
گزارش