ویژگی تصویر

تجزیه و تحلیل داده ها با Pandas در پایتون

  /  Pandas   /  تجزیه و تحلیل داده ها با Pandas در پایتون
بنر تبلیغاتی الف

در این بخش به بررسی نحوه تجزیه و تحلیل داده ها با Pandas در پایتون می پردازیم، در دنیای امروز، حجم عظیمی از داده‌ها تولید می‌شود و تحلیل این داده‌ها نقشی حیاتی در تصمیم‌گیری‌ها و پیش‌بینی‌های آینده دارد. پایتون به عنوان یکی از قدرتمندترین زبان‌های برنامه‌نویسی در حوزه داده‌ها شناخته می‌شود، و کتابخانه Pandas ابزاری بسیار مهم در این حوزه است. Pandas یک کتابخانه منبع‌باز است که برای مدیریت و تحلیل داده‌ها طراحی شده و امکانات فوق‌العاده‌ای برای کار با داده‌ها ارائه می‌دهد.

Pandas ابزارهایی برای انجام وظایف مختلف از جمله خواندن داده‌ها از منابع مختلف (مانند فایل‌های CSV، Excel، یا پایگاه‌داده‌ها)، پردازش داده‌ها (فیلتر کردن، مرتب‌سازی و تغییر شکل) و تحلیل داده‌ها (مانند محاسبه آماری) را فراهم می‌کند. هدف این مقاله، معرفی و بررسی امکانات اصلی این کتابخانه و ارائه مثال‌هایی کاربردی برای استفاده از آن است تا شما بتوانید تجزیه و تحلیل داده‌ها را به صورت حرفه‌ای انجام دهید.

۱. شروع کار با Pandas

برای شروع استفاده از Pandas، ابتدا باید این کتابخانه را نصب کنید. اگر هنوز آن را نصب نکرده‌اید، می‌توانید از دستور زیر استفاده کنید:

pip install pandas

پس از نصب، برای وارد کردن این کتابخانه در برنامه‌تان کافی است از کد زیر استفاده کنید:

import pandas as pd

در Pandas، دو ساختار داده اصلی وجود دارد که اکثر کارها روی آن‌ها انجام می‌شود:

  1. Series: آرایه‌ای یک‌بعدی که می‌تواند داده‌های متنوعی مانند اعداد، رشته‌ها یا حتی اشیاء را ذخیره کند.
  2. DataFrame: جدولی دوبعدی مشابه یک صفحه گسترده (مانند Excel) که ستون‌ها و سطرهای قابل نام‌گذاری دارد.

مثال

ایجاد یک Series:

تماشا در حالت تمام صفحه

خروجی:

0    10
1    20
2    30
3    40
dtype: int64

ایجاد یک DataFrame:

تماشا در حالت تمام صفحه

خروجی:

      Name  Age           City
0    Alice   25      New York
1      Bob   30  San Francisco
2  Charlie   35   Los Angeles

۲. خواندن و نوشتن داده‌ها

یکی از قابلیت‌های مهم Pandas، توانایی خواندن داده‌ها از منابع مختلف است.

خواندن داده‌ها

می‌توانید فایل‌های CSV، Excel، JSON و حتی پایگاه داده‌ها را با استفاده از توابع مختلف Pandas بخوانید:

  • خواندن فایل CSV:
df = pd.read_csv('data.csv')
  • خواندن فایل Excel:
df = pd.read_excel('data.xlsx')

نوشتن داده‌ها

بعد از پردازش داده‌ها، می‌توانید آن‌ها را به فایل‌های مختلف ذخیره کنید:

  • ذخیره به فایل CSV:
df.to_csv('output.csv', index=False)
  • ذخیره به فایل Excel:
df.to_excel('output.xlsx', index=False)

این توابع به شما اجازه می‌دهند داده‌ها را به راحتی بین فایل‌ها و کدتان جابجا کنید.

۳. فیلتر و انتخاب داده‌ها

در بسیاری از مواقع، لازم است بخشی از داده‌ها را بر اساس شرایط خاصی انتخاب کنید. Pandas امکانات قدرتمندی برای این کار فراهم می‌کند.

انتخاب ستون‌ها و سطرها

می‌توانید ستون خاصی از DataFrame را انتخاب کنید:

print(df['Name'])

انتخاب چند ستون:

print(df[['Name', 'Age']])

فیلتر کردن داده‌ها

برای انتخاب سطرهایی که شرایط خاصی را دارند:

filtered_df = df[df['Age'] > 30]
print(filtered_df)

خروجی:

      Name  Age           City
2  Charlie   35   Los Angeles

این قابلیت به شما امکان می‌دهد تا تنها داده‌هایی که برای تحلیل نیاز دارید را استفاده کنید.

۴. انجام عملیات روی داده‌ها

Pandas قابلیت‌های فراوانی برای پردازش داده‌ها ارائه می‌دهد. در این بخش، با چند عملیات پرکاربرد آشنا می‌شویم.

اضافه کردن ستون جدید

می‌توانید ستون جدیدی به DataFrame اضافه کنید:

df['Salary'] = [50000, 60000, 70000]
print(df)

خروجی:

      Name  Age           City  Salary
0    Alice   25      New York   50000
1      Bob   30  San Francisco   60000
2  Charlie   35   Los Angeles   70000

عملیات آماری

Pandas توابعی برای انجام محاسبات آماری مانند میانگین، جمع کل و حداقل و حداکثر ارائه می‌دهد:

print(df['Age'].mean())  # میانگین
print(df['Salary'].sum())  # مجموع حقوق

مرتب‌سازی داده‌ها

می‌توانید داده‌ها را بر اساس یک ستون مرتب کنید:

sorted_df = df.sort_values(by='Age', ascending=False)
print(sorted_df)

۵. تجزیه و تحلیل داده‌ها

تجزیه و تحلیل داده‌ها از مهم‌ترین قابلیت‌های Pandas است.

گروه‌بندی داده‌ها

می‌توانید داده‌ها را بر اساس یک ستون گروه‌بندی و تحلیل کنید:

grouped = df.groupby('City').mean()
print(grouped)

خروجی:

                     Age   Salary
City                            
Los Angeles        35.0  70000.0
New York           25.0  50000.0
San Francisco      30.0  60000.0

مصورسازی داده‌ها

در کنار تحلیل داده‌ها، می‌توانید از کتابخانه‌هایی مانند Matplotlib یا Seaborn برای مصورسازی داده‌ها استفاده کنید.

Pandas یکی از ابزارهای قدرتمند در حوزه تحلیل داده‌ها است که امکانات بسیار متنوعی را برای پردازش، تجزیه و تحلیل و مصورسازی داده‌ها ارائه می‌دهد. در این مقاله با مبانی Pandas، نحوه خواندن و نوشتن داده‌ها، فیلتر و انتخاب داده‌ها، و برخی عملیات و تحلیل‌های کاربردی آشنا شدید. با تمرین و تجربه، می‌توانید به یک متخصص در این زمینه تبدیل شوید.

منابع

آیا این مطلب برای شما مفید بود ؟

خیر
بله
بنر تبلیغاتی ج