با استفاده از پایتون و pandas یک فایل CSV شامل ویژگیهای عددی و یک ستون هدف را بارگذاری کنید، دادهها را پاکسازی کنید، مجموعه را به آموزش و آزمون تقسیم کنید، با استفاده از scikit-learn یک مدل رگرسیون خطی آموزش دهید و خطای میانگین مربعات (MSE) را روی مجموعه آزمون گزارش کنید.
24.0 بازدید آخرین ویرایش در 198 روز قبل ساعت 05:15 0.0
برای حل این مسئله از pandas.read_csv برای بارگذاری دادهها استفاده کنید، با روشهایی مانند dropna یا پر کردن مقادیر گمشده دادهها را پاکسازی کنید، سپس ستون هدف را جدا کرده و از sklearn.model_selection.train_test_split برای تقسیم داده به مجموعهٔ آموزش و آزمون استفاده کنید. قبل از آموزش میتوانید با sklearn.preprocessing.StandardScaler مقیاسبندی ویژگیها را انجام دهید تا همگرایی مدل بهتر شود. در نهایت با sklearn.linear_model.LinearRegression مدل را fit کنید، پیشبینی روی مجموعهٔ آزمون انجام دهید و با sklearn.metrics.mean_squared_error مقدار MSE را محاسبه و گزارش کنید. نکات: از random_state در تقسیم داده استفاده کنید تا نتایج تکرارپذیر باشند و پیش از آموزش توزیع و مقادیر گمشده را بررسی کنید.
1 پاسخ
جدید ترین قدیمی ترین بالاترین امتیاز پاسخ های من
در حال بارگیری...
برای ارسال پاسخ باید با حساب کاربری وارد شوید.
ورود به حساب کاربری
قبل از آموزش دادهها را از نظر مقادیر گمشده، توزیعهای ویژگیها و بیرونزدگیها بررسی و با روشهای مناسب (حذف، ایمپوت یا کَپ کردن) پاکسازی کنید. ویژگیها را با StandardScaler مقیاسبندی کنید تا همگرایی رگرسیون بهتر و ضرایب قابلمقایسهتر شوند. برای ارزشیابی پایدار از train_test_split با random_state و ترجیحاً cross-validation استفاده کنید و MSE را روی دادهٔ آزمون گزارش دهید. همچنین با بررسی باقیماندهها و در صورت نیاز تبدیل هدف (مثل لگاریتم) یا بررسی همخطی چندگانه مشکل مدل را شناسایی و اصلاح کنید.
گزارش