با استفاده از پایتون و pandas یک فایل CSV شامل ویژگی‌های عددی و یک ستون هدف را بارگذاری کنید، داده‌ها را پاک‌سازی کنید، مجموعه را به آموزش و آزمون تقسیم کنید، با استفاده از scikit-learn یک مدل رگرسیون خطی آموزش دهید و خطای میانگین مربعات (MSE) را روی مجموعه آزمون گزارش کنید.

24.0 بازدید آخرین ویرایش در 198 روز قبل ساعت 05:15

0.0

برای حل این مسئله از pandas.read_csv برای بارگذاری داده‌ها استفاده کنید، با روش‌هایی مانند dropna یا پر کردن مقادیر گمشده داده‌ها را پاک‌سازی کنید، سپس ستون هدف را جدا کرده و از sklearn.model_selection.train_test_split برای تقسیم داده به مجموعهٔ آموزش و آزمون استفاده کنید. قبل از آموزش می‌توانید با sklearn.preprocessing.StandardScaler مقیاس‌بندی ویژگی‌ها را انجام دهید تا همگرایی مدل بهتر شود. در نهایت با sklearn.linear_model.LinearRegression مدل را fit کنید، پیش‌بینی روی مجموعهٔ آزمون انجام دهید و با sklearn.metrics.mean_squared_error مقدار MSE را محاسبه و گزارش کنید. نکات: از random_state در تقسیم داده استفاده کنید تا نتایج تکرارپذیر باشند و پیش از آموزش توزیع و مقادیر گمشده را بررسی کنید.

توسط پژوهشگر در 198 روز قبل ساعت 05:15
دسته بندی ها: Python Python for beginner
sara در 198 روز قبل ساعت 05:16

قبل از آموزش داده‌ها را از نظر مقادیر گمشده، توزیع‌های ویژگی‌ها و بیرون‌زدگی‌ها بررسی و با روش‌های مناسب (حذف، ایمپوت یا کَپ کردن) پاک‌سازی کنید. ویژگی‌ها را با StandardScaler مقیاس‌بندی کنید تا همگرایی رگرسیون بهتر و ضرایب قابل‌مقایسه‌تر شوند. برای ارزشیابی پایدار از train_test_split با random_state و ترجیحاً cross-validation استفاده کنید و MSE را روی دادهٔ آزمون گزارش دهید. همچنین با بررسی باقیمانده‌ها و در صورت نیاز تبدیل هدف (مثل لگاریتم) یا بررسی هم‌خطی چندگانه مشکل مدل را شناسایی و اصلاح کنید.

گزارش

1 پاسخ

جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من

در حال بارگیری...
ورود به حساب کاربری