با استفاده از pandas یک فایل CSV شامل ویژگیهای عددی را بارگذاری کن، دادههای مفقود را پر کن، متغیرهای ورودی و خروجی را جدا کن و مجموعه داده را به مجموعههای آموزش و آزمون تقسیم کن.
2.0 بازدید آخرین ویرایش در 202 روز قبل ساعت 02:46 0.0
برای حل این تمرین از pandas برای خواندن فایل (pd.read_csv) و بررسی ساختار دادهها (df.info(), df.head()) استفاده کنید؛ مقادیر گمشده را با df.fillna(df.mean()) یا حذف با df.dropna() مدیریت کنید. ستون هدف را مشخص کرده و با df.drop یا انتخاب ایندکسها X و y را جدا کنید، سپس برای تقسیمبندی میتوانید از sklearn.model_selection.train_test_split با مقدار random_state برای قابلیت بازتولید استفاده کنید یا از df.sample(frac=...) برای نمونهبرداری تصادفی بهره ببرید؛ در پایان با .to_numpy() یا .values دادهها را برای مدلهای ML آماده کنید.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای بارگذاری CSV با ویژگیهای عددی از pandas استفاده کن و ساختار داده را با df.info() و df.head() بررسی کن. مقادید گمشده را میتوان با df.fillna(df.mean()) پر کرد یا در صورت نیاز از df.dropna() استفاده نمود تا دادهها حذف شوند. ستون هدف را مشخص کرده و با X = df.drop(columns=['هدف']) و y = df['هدف'] ورودیها و خروجیها را جدا کن. برای تقسیم دادهها به مجموعههای آموزش و آزمون از train_test_split با random_state استفاده کن تا قابلیت بازتولید نتیجه فراهم شود. نهایتاً با خریداری به numpy با .to_numpy() یا .values دادهها را برای مدلهای ML آماده کن.
گزارش