با استفاده از پایتون و pandas، یک فایل CSV شامل ویژگی‌های عددی و یک ستون برچسب را بارگذاری کن، داده‌ها را تمیز (حذف یا پر کردن مقادیر گمشده)، به ویژگی‌ها و برچسب‌ها تقسیم کن، داده‌ها را نرمال‌سازی کن، سپس یک مدل طبقه‌بندی ساده (مثل LogisticRegression) آموزش داده و دقت مدل را روی مجموعه تست گزارش کن.

15.0 بازدید آخرین ویرایش در 201 روز قبل ساعت 03:56

0.0

ابتدا با pandas.read_csv فایل را بخوان و با متدهایی مثل df.dropna() یا df.fillna() مقادیر گمشده را مدیریت کن؛ اگر ستون‌های غیرعددی وجود دارد از pd.get_dummies یا LabelEncoder استفاده کن. سپس X و y را جدا کرده و با sklearn.model_selection.train_test_split داده‌ها را به آموزش و تست تقسیم کن. برای پیش‌پردازش می‌توانی از sklearn.preprocessing.StandardScaler برای نرمال‌سازی استفاده کنی و سپس با sklearn.linear_model.LogisticRegression مدل را fit و با sklearn.metrics.accuracy_score دقت را محاسبه کنی. نکات: از random_state همیشه استفاده کن تا نتایج تکرارپذیر باشند، قبل از آموزش توزیع کلاس‌ها را بررسی کن و در صورت نیاز از روش‌های ساده‌ای مثل stratify در train_test_split بهره بگیر.

توسط پژوهشگر در 201 روز قبل ساعت 03:56
دسته بندی ها: Python Python for beginner
sara در 201 روز قبل ساعت 04:37

برای تکرارپذیری، از یک random_state ثابت در train_test_split استفاده کن و اگر کلاس‌ها نامتوازن‌اند، از stratify=y بهره ببر. قبل از مدل‌سازی، ستون‌های غیرعددی را با pd.get_dummies تبدیل کن و بهتر است این پیش‌پردازش را داخل یک Pipeline انجام بده تا leakage جلوگیری شود. نرمال‌سازی را فقط روی داده‌های آموزشی فِت کن و همان transform را برای داده‌های آزمون به کار ببر تا توزیع داده‌ها حفظ شود. در نهایت دقت مدل را با accuracy_score گزارش بده و در صورت نامتوازن بودن کلاس‌ها، به معیارهای دیگری مثل F1-score هم نگاه کن.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری