Data Profiling در Power BI

یکی از قابلیت های بسیار مهم Power BI که ممکن است کاربران به آن توجه نکنند قابلیت Data Profiling است. در واقع با این ویژگی می توانید تصویری از داده های خود را قبل از شروع کار با آن ها مشاهده کنید. در واقع Power BI با این ویژگی، کار کاربران خود را بسیار راحت کرده و نیاز کاربران را به انجام یکی از مهمترین مراحل کار با داده بدون نیاز به داشتن دانش خاصی مرتفع ساخته است.

Data Profiling چیست؟

Data Profiling یکی از اعمالیست که دانشمندان داده معمولا با آن سر و کار دارند.  این عمل یک نگاه کلی به شکل و ساختار داده است.  Data Profiling شبیه نگاه کلی به جنگل به جای بررسی تک تک درختان است.

objectivesoverview 364479 - Data Profiling در Power BI

فعال سازی ویژگی Data Profiling

برای فعال سازی این ویژگی از منوی File به Option and Setting رفته و گزینه Option را انتخاب نمایید. از بخش Global گزینه Preview Feature را انتخاب نموده و گزینه Enable Column Profiling را فعال کنید. یک بار Power BI را ببندید و باز کنید تا این ویژگی برای شما فعال شود. در صورتی که از ورژن های جدید تر استفاده می کنید نیازی به فعال سازی این گزینه نخواهید داشت.

image thumb 4 - Data Profiling در Power BI

image thumb 5 - Data Profiling در Power BI

بارگذاری داده

برای بررسی این ویژگی از داده های Adventure Works استفاده می کنیم. جدول مشتریان از میان جداول Adventure Works انتخاب نموده و پس از بارگذاری به قسمت Edit Queries می رویم.

مطالعه نمایید.

edit - Data Profiling در Power BI

اولین مورد در Data Profiling که شاید خیلی محسوس نباشد را با نگاه به نوار رنگی در زیر نام هر ستون خواهید یافت. همان طور که در تصویر مشاهده می نمایید، نواری در زیر هر ستون نمایش داده شده که در برخی از ستون ها سبز رنگ کامل و برخی نصف سبز و نصف خاکستری می باشد. در واقع اگر ستون بدون Error و بدون مقادیر NULL باشد، کاملا سبز رنگ و در صورتی که دارای Error باشد نوار قرمز رنگ خواهد بود. در صورتی که ستون دارای مقادیر NULL باشد به میزان درصد مقادیر NULL نوار خاکستری رنگ خواهد بود.

به طور مثال ستون CustomerID که کلید اصلی جدول مشتریان است و نمی تواند دارای مقادیر خالی باشد کاملا سبز رنگ است. اما ستون PersonID که دارای ۷۰ درصد مقادیر خالی (Null) می باشد به اندازه ۷۰ درصد خاکستری رنگ نمایش داده می شود. با نیم نگاهی به این نوار می توانید از وضعیت داده های خود آگاه شوید.

gggg - Data Profiling در Power BI

حال به منوی View بروید و گزینه Column Quality را فعال کنید. همان طور که در تصویر قابل ملاحظه است اطلاعات بسیار مهمی از داده های خود را مشاهده می کنید. با فعال کردن گزینه Column Quality کیفیت داده های شما به نمایش در می آید. در واقع این گزینه به ما می گوید چند درصد داده های ما بدون مشکل، چند درصد دارای مقدار NULL و چند درصد دارای Error می باشد. به طور مثال ستون PersonID دارای ۷۰ درصد مقدار خالی و ۳۰ درصد مقدار بدون مشکل است.

قابل ذکر است Data Profiling تصویر کلی از ۱۰۰۰ ردیف اول داده های شما را به نمایش در می آورد. در حاضر Data Profiling تنها اطلاعات ۱۰۰۰ ردیف اول را به شما نمایش می دهد که ممکن است این ویژگی در آینده به کل داده ها نیز تعمیم یابد.

Profing - Data Profiling در Power BI

حال از منوی View گزینه Column Distribution را فعال نمایید. همان طور که ملاحظه می نمایید نمودار هیستوگرام داده ها نمایش داده می شود. در واقع این نمودار میزان پراکندگی داده ها را به ما نشان می دهد. در زیر نمودار نیز اطلاعاتی از قبیل تعداد مقادیر Distinct و Unique نمایش داده شده است.

به طور مثال ستون ProductID که کلید اصلی بوده و دارای مقادیر منحصر به فرد می باشد، دارای ۵۰۴ مقدار که تمامی آن ها منحصر به فرد می باشند. طبیعیست وقتی تمامی مقادیر منحصر به فرد هستند نمودار هیستوگرام دارای میله های برابر باشد چرا که از هر مقدار تنها یک بار در داده ها وجود دارد.

یا در مثال دیگر ستون MakeFlag دارای ۲ مقدار TRUE و FALSE است پس دو مقدار Distinct دارد و چون هر دوی این مقادیر بارها تکرار شده اند دارای ۰ مقدار Unique است. نمودار هیستوگرام این ستون نیز تنها دو میله دارد که یکی تعداد تکرار TRUE و دیگری تعداد تکرار FALSE است.

همچنین با کلیک راست بر روی هر کدام از ستون ها می توانید اعمال مختلفی را بر روی داده های خود انجام دهید. به طور مثال می توانید مقادیر تکراری، دارای Error یا خالی را حذف نمایید یا مقادیر دارای Error را با مقادیر مورد نظر جایگزین کنید.

Screenshot 705 1 - Data Profiling در Power BI

در صورتی که گزینه Column Profile را نیز فعال کنید اطلاعات بیشتری را مشاهده خواهید کرد. همان طور که در تصویر مشاهده می کنید، علاوه بر هیستوگرام داده ها که توزیع داده ها را به شما نمایش می دهد می توانید اطلاعات آماری در مورد ستون ها را مشاهده نمایید.

به طور مثال تعداد ردیف ها، تعداد خطاها، تعداد ردیف های بدون مقدار، تعداد مقادیر موجود در ستون و همچنین تعداد مقادیر منحصر به فرد هر ستون، کمترین و بیشترین مقدار موجود در هر ستون و همچنین میانگین، انحراف از معیار و تعداد مقادیر زوج و فرد در ستون ها نمایش داده می شود.

به طور مثال به اطلاعات ستون درآمد سالیانه توجه نمایید. علاوه بر نمودار هیستوگرام که توزیع در آمد را نشان می دهد و با نگه داشتن نشانگر ماوس بر روی هر یک از میله ها می توانید درصد تکرار آن مقدار را مشاهده نمایید متوجه می شوید. به طور مثال متوجه می شوید که ۱۵ درصد از مشتریان دارای در آمد ۷۰۰۰۰ دلار در سال می باشند.

این ستون عاری از Error و NULL است و همچنین این ستون ۱۶ مقدار منحصر به فرد دارد و هیچ کدام از این مقادیر unique نیستند (هر ۱۶ مقدار تکرار شده اند). این ستون مقادیر صفر و NaN ندارد و میانگین درآمد ۵۹۴۰۰ دلار، کمترین درآمد ثبت شده ۱۰۰۰۰ دلار و بیشترین مقدار ثبت شده ۱۷۰۰۰۰ دلار می باشد و همچنین انحراف از معیار درآمد ها ۲۹۷۳۷ می باشد.

Screenshot 706 - Data Profiling در Power BI

 فراموش نکنید این اطلاعات تنها بر اساس ۱۰۰۰ ردیف اول نمایش داده می شود. 




6b77990865d588b48d7f55a013cdd7ec?s=300&d=mm&r=g - Data Profiling در Power BI

حسین وثوقی

دانش آموخته مهندسی صنایع و مدیریت فناوری اطلاعات دانشگاه تهران، علاقه مند به تحلیل و ارائه راه حل برای مسائل و بهینه سازی راه حل ها هستم ...

دیدگاه بگذارید

avatar
  عضویت  
به دوستتان خبر دهید.