pandas یک کتابخانه از پایتون می باشد که در سال ۲۰۰۸ توسط Wes McKinney ایجاد و توسعه داده شده است. پانداس که برای کار با مجموعه ای از داده ها استفاده می شود، دارای عملکردهایی برای تجزیه و تحلیل، تمیز کردن، کاوش و دستکاری داده ها می باشد.
در واقع شما در پانداس بر اساس تئوری های آماری امکان تجزیه و تحلیل کلان داده را خواهید داشت. از آنجایی که داده های مرتب شده در علم داده اهمیت زیادی دارند، ابزار پانداس می تواند ابزاری مفید و کاربردی برای دانشمندان و مهندسان داده باشد.
با سان تا انتهای این مقاله همراه باشید.
قابلیت های pandas
- بررسی همبستگی بین دو یا چند ستون
- به دست آوردن مقدار متوسط در بین داده ها
- حداکثر ارزش داده ها
- حداقل ارزش داده ها
در پانداس قابلیت های دیگری مانند پاک کردن وجود دارد. یعنی حذف مقادیری از رکوردها که مرتبط با یکدیگر نباشند یا به نوعی داده های اشتباه در آنها قرار گرفته باشد. البته مقادیر Null نیز می تواند در سناریوی پاک کردن قرار بگیرد. سورس پانداس در Github قرار دارد و دانلود آن برای عموم آزاد است.
نصب پانداس
نصب و استفاده از پانداس بر روی سیستم هایی که در حال حاضر php یا python بر روی آنها نصب است کار بسیار ساده ای است. شما با استفاده از دستور c:\Users\Your Name\pip install pandas می توانید پانداس را بر روی سیستم خود نصب نمایید.
برای بهره برداری از قابلیت کدنویسی دستورات پانداس پس از نصب می توانید آن را در برنامه های خود وارد نمایید. کافی است عبارت import pandas را تایپ و اجرا کنید.
برای درک بهتر چگونگی تعریف یک ردیف ساده از داده ها شاید بد نباشد مثالی را از کدنویسی پانداس داشته باشیم:
Import pandas as pd
mydataset = {
‘car’: [“BMW”,”VOLVO”,”FORD”],
‘passings’: [۳,۷,۲]
}
Myvar = pd.DataFrame(mydataset)
print (myvar)
اگر کدهای فوق را اجرا نمایید با خروجی زیر مواجه خواهید شد:
cars passings
۰ BMW ۳
۱ Volvo ۷
۲ Ford ۲
این کدها صرفا برای آشنایی اولیه با پانداس بود و قطعا برای گرفتن خروجی مطلوب و بهره گیری از این ابزار مفید باید تجربه و دانش کافی را در زمینه کار با کلان داده داشته باشید. یکی از مواردی را که برای کار با داده ها می توانید در پانداس تعریف نمایید کار با سری ها می باشد.
در واقع سری یک آرایه یک بعدی است که قابلیت نگهداری داده ها از هر نوع را دارد. یکی دیگر از قابلیت ها برای دسترسی به داده ها Labels یا همان برچسب گذاری بر روی داده ها هستند. این کار با آرگومان index در پانداس صورت می گیرد.
دستورات پاکسازی داده ها در pandas
پاکسازی داده ها به معنای اصلاح داده های بد در مجموعه داده های شماست. اگر بخواهیم داده های بد را تعریف کنیم شاید به اختصار باید بگوییم:
- تمامی سلول های Null در مجموعه داده
- داده ها در قالب و فرمت اشتباه
- داده های اشتباه
- موارد تکراری ( Duplicates )
البته برای حذف هر کدام از انواع داده های بد دستورات خاصی در پانداس تعبیه شده که با سرعت بسیار بالایی می تواند مجموعه داده های شما را اصلاح نماید.
یافتن روابط در پانداس و ایجاد نمودار
یکی از جنبه های مهم کتابخانه پانداس متد corr() است که رابطه بین هر ستون در مجموعه داده های شما را محاسبه می کند.
پانداس برای رسم نمودار نیز قابلیتی را در اختیار شما قرار می دهد که این قابلیت با متد plot() می باشد. تمامی مواردی که در رابطه با پانداس توضیح داده شد بخش بسیار کوچکی برای آشنایی با قابلیت های این کتابخانه پرکاربرد از پایتون است.
قطعا مهندسان داده و دانشمندان داده باید بر اساس پروژه های مختلف و نیازهای تعریف شده در طول پروژه از این ابزار استفاده و بتوانند مجموعه داده های خود را برای پردازش آماده سازند.
کلام آخر
در این مقاله به پانداس و روش نصب آن و یافتن روابط pandas پرداختیم. امیدوارم این مقاله برای شما مفید واقع شده باشد. نظرات ارزشمند خودتان را حتما با ما درمیان بگذارید.
دیدگاه خود را ارسال کنید...