تجزیه و تحلیل داده ها با Pandas در پایتون
در این بخش به بررسی نحوه تجزیه و تحلیل داده ها با Pandas در پایتون می پردازیم، در دنیای امروز، حجم عظیمی از دادهها تولید میشود و تحلیل این دادهها نقشی حیاتی در تصمیمگیریها و پیشبینیهای آینده دارد. پایتون به عنوان یکی از قدرتمندترین زبانهای برنامهنویسی در حوزه دادهها شناخته میشود، و کتابخانه Pandas ابزاری بسیار مهم در این حوزه است. Pandas یک کتابخانه منبعباز است که برای مدیریت و تحلیل دادهها طراحی شده و امکانات فوقالعادهای برای کار با دادهها ارائه میدهد.
Pandas ابزارهایی برای انجام وظایف مختلف از جمله خواندن دادهها از منابع مختلف (مانند فایلهای CSV، Excel، یا پایگاهدادهها)، پردازش دادهها (فیلتر کردن، مرتبسازی و تغییر شکل) و تحلیل دادهها (مانند محاسبه آماری) را فراهم میکند. هدف این مقاله، معرفی و بررسی امکانات اصلی این کتابخانه و ارائه مثالهایی کاربردی برای استفاده از آن است تا شما بتوانید تجزیه و تحلیل دادهها را به صورت حرفهای انجام دهید.
۱. شروع کار با Pandas
برای شروع استفاده از Pandas، ابتدا باید این کتابخانه را نصب کنید. اگر هنوز آن را نصب نکردهاید، میتوانید از دستور زیر استفاده کنید:
pip install pandas
پس از نصب، برای وارد کردن این کتابخانه در برنامهتان کافی است از کد زیر استفاده کنید:
import pandas as pd
در Pandas، دو ساختار داده اصلی وجود دارد که اکثر کارها روی آنها انجام میشود:
- Series: آرایهای یکبعدی که میتواند دادههای متنوعی مانند اعداد، رشتهها یا حتی اشیاء را ذخیره کند.
- DataFrame: جدولی دوبعدی مشابه یک صفحه گسترده (مانند Excel) که ستونها و سطرهای قابل نامگذاری دارد.
مثال
ایجاد یک Series:
خروجی:
0 10
1 20
2 30
3 40
dtype: int64
ایجاد یک DataFrame:
خروجی:
Name Age City
0 Alice 25 New York
1 Bob 30 San Francisco
2 Charlie 35 Los Angeles
۲. خواندن و نوشتن دادهها
یکی از قابلیتهای مهم Pandas، توانایی خواندن دادهها از منابع مختلف است.
خواندن دادهها
میتوانید فایلهای CSV، Excel، JSON و حتی پایگاه دادهها را با استفاده از توابع مختلف Pandas بخوانید:
- خواندن فایل CSV:
df = pd.read_csv('data.csv')
- خواندن فایل Excel:
df = pd.read_excel('data.xlsx')
نوشتن دادهها
بعد از پردازش دادهها، میتوانید آنها را به فایلهای مختلف ذخیره کنید:
- ذخیره به فایل CSV:
df.to_csv('output.csv', index=False)
- ذخیره به فایل Excel:
df.to_excel('output.xlsx', index=False)
این توابع به شما اجازه میدهند دادهها را به راحتی بین فایلها و کدتان جابجا کنید.
۳. فیلتر و انتخاب دادهها
در بسیاری از مواقع، لازم است بخشی از دادهها را بر اساس شرایط خاصی انتخاب کنید. Pandas امکانات قدرتمندی برای این کار فراهم میکند.
انتخاب ستونها و سطرها
میتوانید ستون خاصی از DataFrame را انتخاب کنید:
print(df['Name'])
انتخاب چند ستون:
print(df[['Name', 'Age']])
فیلتر کردن دادهها
برای انتخاب سطرهایی که شرایط خاصی را دارند:
filtered_df = df[df['Age'] > 30]
print(filtered_df)
خروجی:
Name Age City
2 Charlie 35 Los Angeles
این قابلیت به شما امکان میدهد تا تنها دادههایی که برای تحلیل نیاز دارید را استفاده کنید.
۴. انجام عملیات روی دادهها
Pandas قابلیتهای فراوانی برای پردازش دادهها ارائه میدهد. در این بخش، با چند عملیات پرکاربرد آشنا میشویم.
اضافه کردن ستون جدید
میتوانید ستون جدیدی به DataFrame اضافه کنید:
df['Salary'] = [50000, 60000, 70000]
print(df)
خروجی:
Name Age City Salary
0 Alice 25 New York 50000
1 Bob 30 San Francisco 60000
2 Charlie 35 Los Angeles 70000
عملیات آماری
Pandas توابعی برای انجام محاسبات آماری مانند میانگین، جمع کل و حداقل و حداکثر ارائه میدهد:
print(df['Age'].mean()) # میانگین
print(df['Salary'].sum()) # مجموع حقوق
مرتبسازی دادهها
میتوانید دادهها را بر اساس یک ستون مرتب کنید:
sorted_df = df.sort_values(by='Age', ascending=False)
print(sorted_df)
۵. تجزیه و تحلیل دادهها
تجزیه و تحلیل دادهها از مهمترین قابلیتهای Pandas است.
گروهبندی دادهها
میتوانید دادهها را بر اساس یک ستون گروهبندی و تحلیل کنید:
grouped = df.groupby('City').mean()
print(grouped)
خروجی:
Age Salary
City
Los Angeles 35.0 70000.0
New York 25.0 50000.0
San Francisco 30.0 60000.0
مصورسازی دادهها
در کنار تحلیل دادهها، میتوانید از کتابخانههایی مانند Matplotlib یا Seaborn برای مصورسازی دادهها استفاده کنید.
Pandas یکی از ابزارهای قدرتمند در حوزه تحلیل دادهها است که امکانات بسیار متنوعی را برای پردازش، تجزیه و تحلیل و مصورسازی دادهها ارائه میدهد. در این مقاله با مبانی Pandas، نحوه خواندن و نوشتن دادهها، فیلتر و انتخاب دادهها، و برخی عملیات و تحلیلهای کاربردی آشنا شدید. با تمرین و تجربه، میتوانید به یک متخصص در این زمینه تبدیل شوید.
منابع
- Pandas Documentation
- Python for Data Analysis by Wes McKinney
- Kaggle – Pandas Tutorials
آیا این مطلب برای شما مفید بود ؟