با استفاده از پایتون و pandas، یک فایل CSV شامل ویژگیهای عددی و یک ستون برچسب را بارگذاری کن، دادهها را تمیز (حذف یا پر کردن مقادیر گمشده)، به ویژگیها و برچسبها تقسیم کن، دادهها را نرمالسازی کن، سپس یک مدل طبقهبندی ساده (مثل LogisticRegression) آموزش داده و دقت مدل را روی مجموعه تست گزارش کن.
15.0 بازدید آخرین ویرایش در 201 روز قبل ساعت 03:56 0.0
ابتدا با pandas.read_csv فایل را بخوان و با متدهایی مثل df.dropna() یا df.fillna() مقادیر گمشده را مدیریت کن؛ اگر ستونهای غیرعددی وجود دارد از pd.get_dummies یا LabelEncoder استفاده کن. سپس X و y را جدا کرده و با sklearn.model_selection.train_test_split دادهها را به آموزش و تست تقسیم کن. برای پیشپردازش میتوانی از sklearn.preprocessing.StandardScaler برای نرمالسازی استفاده کنی و سپس با sklearn.linear_model.LogisticRegression مدل را fit و با sklearn.metrics.accuracy_score دقت را محاسبه کنی. نکات: از random_state همیشه استفاده کن تا نتایج تکرارپذیر باشند، قبل از آموزش توزیع کلاسها را بررسی کن و در صورت نیاز از روشهای سادهای مثل stratify در train_test_split بهره بگیر.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
برای تکرارپذیری، از یک random_state ثابت در train_test_split استفاده کن و اگر کلاسها نامتوازناند، از stratify=y بهره ببر. قبل از مدلسازی، ستونهای غیرعددی را با pd.get_dummies تبدیل کن و بهتر است این پیشپردازش را داخل یک Pipeline انجام بده تا leakage جلوگیری شود. نرمالسازی را فقط روی دادههای آموزشی فِت کن و همان transform را برای دادههای آزمون به کار ببر تا توزیع دادهها حفظ شود. در نهایت دقت مدل را با accuracy_score گزارش بده و در صورت نامتوازن بودن کلاسها، به معیارهای دیگری مثل F1-score هم نگاه کن.
گزارش