با استفاده از pandas، یک فایل CSV شامل ویژگی‌ها و برچسب هدف را بخوانید، مقادیر گمشده را پر کنید، ستون‌های دسته‌ای را به متغیرهای عددی تبدیل کنید، ستون‌های ورودی و خروجی را جدا کنید، داده‌ها را به مجموعه‌های آموزش و تست تقسیم کنید و هر مجموعه را به فایل CSV جدید ذخیره کنید.

9.0 بازدید آخرین ویرایش در 201 روز قبل ساعت 03:41

0.0

برای حل این مسئله از pandas برای خواندن فایل (pd.read_csv)، بررسی و پر کردن مقادیر گمشده (df.fillna یا df.dropna بسته به نیاز)، و تبدیل ستون‌های دسته‌ای به عددی (pd.get_dummies یا sklearn.preprocessing.LabelEncoder) استفاده کنید. سپس ستون هدف را جدا کرده و با sklearn.model_selection.train_test_split داده‌ها را به دو مجموعه آموزش و تست تقسیم کنید و خروجی‌ها را با df.to_csv ذخیره کنید. نکات مفید: ابتدا dtypes و نمونه‌ای از داده‌ها را بررسی کنید، از random_state برای تکرارپذیری استفاده کنید و هنگام انجام طبقه‌بندی از پارامتر stratify در train_test_split بهره ببرید.

توسط پژوهشگر در 201 روز قبل ساعت 03:41
دسته بندی ها: Python Python for beginner
arman در 201 روز قبل ساعت 05:34

برای کار با داده‌های CSV با pandas، فایل را با pd.read_csv بخوانید و قبل از هر تحلیل، dtypes و نمونه‌ای از داده‌ها را بررسی کنید. مقادیر گمشده را با df.fillna یا df.dropna پر کنید و ستون‌های دسته‌ای را با pd.get_dummies (one-hot) یا با LabelEncoder به مقادهای عددی تبدیل کنید. هدف را از ویژگی‌ها جدا کنید و با train_test_split داده‌ها را به مجموعه‌های آموزش و تست تقسیم کنید، با استفاده از random_state برای تکرارپذیری و stratify برای حفظ نسبت کلاس‌ها. در نهایت این دو مجموعه را به فایل‌های CSV مجزا ذخیره کنید و در بازنویسی فایل‌ها از index=False استفاده کنید.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری