خوشه‏‌بندی با پاور‌ بی آی

فرض کنید که شما داده‌هایی با ویژگی های مختلفی دارید همچنین ممکن است بعضی از داده‌ها شباهت نزدیکی با یکدیگر داشته باشند حال ما میتوانیم قبل از انجام تجزیه‌وتحلیل‌های مختلف، به طبقه‌بندی داده‌ها بپردازیم. در این بخش، ما یاد خواهیم گرفت که چگونه با استفاده از Power BI داده‌ها را در خوشه‌ها طبقه‌بندی کنیم یا درواقع همان عملیات خوشه‌بندی را انجام دهیم.

اول، ما به یکسری داده‌های نمونه نیاز داریم که بتوانیم برای خوشه‌بندی استفاده کنیم.در این آموزش، ما از مجموعه داده‌های محبوب IRIS از مخزن آموزش UCI استفاده می‌کنیم.

این مجموعه داده (dataset) شامل صدها رکورد با پنج فیلد-  Sepal Length، Width Sepal، Petal Width، Petal Length و class می‌باشد. با توجه به عنوان فیلدها متوجه می‌شویم که داده‌ها شامل اطلاعاتی پیرامون طول و عرض  گل‌های مختلف می‌باشد. در اینجا ما مایل به استفاده از Length sepal و Width sepal و طبقه‌بندی داده‌ها در سه خوشه بر اساس ویژگی‌های داده‌ها هستیم. برای انجام این تجزیه‌وتحلیل، لازم است ابتدا این داده‌ها را وارد کنیم. برای واردکردن داده‌ها مراحل زیر را انجام دهید.

در تب Home روی منوی Get Data کلیک کرده و گزینه web را انتخاب کنید. همان‌طور که داده‌های ما در Web از مخزن UCI واقع‌شده است، ما داده‌ها را مستقیماً از Web می‌خوانیم.

پس از انتخاب گزینه Web، قدم بعدی این است که URL یا همان آدرس فایل مربوطه را از جایی که قصد داریم داده‌ها را بخوانیم، ارائه دهیم. توجه کنید که باید حتماً در انتهای این نشانی اینترنتی”data.”وجود داشته باشد.

بعد از واردکردن URL و کلیک بر روی OK، گام بعدی پیش‌نمایش داده‌ها و ارائه چند گزینه پیکربندی برای واردکردن داده‌ها می‌باشد. همان‌طور که در  تصویر زیر مشاهده می‌کنید، آدرس URL مربوط به فایلی که Import کردیم در بالای صفحه‌، نمایش داده شده است.

در قسمت Origin Field فرمت داده‌هایی را که از URL خوانده‌شده، نشان می‌دهد. فیلد Delimiter درواقع علامت یا عبارت جداکننده را نشان می‌دهد. تقریباً تمام داده‌های ذخیره‌شده در مخزن UCI با کاما جداشده است.

با توجه به کادر Data Type Detection در اینجا فقط دویست ردیف ابتدایی را خوانده و نوع (type) داده‌های فیلد را شناسایی می‌کند. علاوه بر این، همان‌طور که در تصویر زیر مشاهده می‌کنید در بخش زیرین این صفحه، تعدادی از ردیف‌ها و ستون‌های این۲۰۰ رکورد مذکور نشان داده شده است.

در این مرحله است که شما باید با دقت به بررسی داده‌ها بپردازید تا قبل از اینکه داده‌ها را در Power BI، بارگذاری (load) کنید، ببینید که آیا آن‌ها مطابق با انتظارات شما هستند یا خیر.

پس از تائید، بر روی دکمه Load کلیک کنید تا مجموعه داده‌های کامل را از مخزن UCI بخوانید.

هنگامی‌که داده‌ها Load می‌شوند، شما باید بتوانید فهرستی از فیلدها را همان‌طور که در تصویر زیر نشان داده‌شده، ببینید. اگر  به‌دقت مشاهده کنید، در اینجا ستون‌ها نام‌های مناسبی ندارد و به‌ این صورت نام‌گذاری شده‌اند: Column1، Column2، Column3، Column4 و Column5.

دلیل این امر این است که داده‌هایی که از این آدرس URL خوانده می‌شوند، هیچ عنوانی برای این ‌ستون‌ها ندارد. برای شناسایی آسان و دقیق داده‌ها، باید نام‌های مناسبی را برای این فیلدها در نظر بگیریم. در مخزن UCI تعاریفی از این فیلدها ارائه‌شده است که بر اساس آن شما می‌توانید فیلدها را شناسایی کرده و آن‌ها را نیز تغییر نام دهید.

برای تغییر نام فیلدها، کافی است فقط بر روی نام فیلدها کلیک راست کنید و سپس گزینه Rename را انتخاب کنید. فیلدهای موجود در مجموعه داده IRIS عبارت‌اند از: Class، Petal Length یا به‌اختصار PL، Petal Width (PW)، Sepal Length (SL) و.Sepal Width (SW)

پس از تغییر نام این فیلدها، در حال حاضر قصد داریم یک نمودار scatterplot  ایجاد کنیم؛ بنابراین در قاب Visualization بر روی آن کلیک کرده و یک نمودار خالی ایجاد کنید. پس از ایجاد آن، فیلد SL و SW را انتخاب کنید. ما در اینجا به میانگین SL و SW نیاز داریم. که ما باید حالت پیش فرض که عملیات sum بر روی داده‌ها می‌باشد را تغییر دهیم. علاوه بر این، اطمینان حاصل کنید که فیلد SL را در بخش جزئیات لیست فیلد اضافه کنید. هنگامی‌که aggregation جدیدی را اعمال می‌کنید، باید تصویری را که در زیر نشان داده‌شده، ببینید.

پس از ایجاد نمودار، روی سه نقطه کلیک کنید سپس همانطور که در تصویر زیر می‌بینید پنجره کوچکی باز می‌شود. به خاطر داشته باشید که در قسمت Legend نباید هیچ فیلدی به آن افزوده شود؛ که در غیر این صورت، شما قادر به پیدا کردن گزینه Automatically Find Clusters نخواهید بود. علاوه بر این، برای اینکه بتوانیم داده‌ها را خوشه‌بندی کنیم باید همگی از یک فرمت باشند.

اگر داده‌ها مناسب نباشند، گزینه ” Automatically find clusters” در پنجره باز شده قابل مشاهده نخواهد بود. در حالت نرمال، این گزینه منو همیشه باید قابل‌مشاهده باشد، مگر اینکه فرمت داده نادرست انتخاب ‌شده باشد. که گاها وقتی کاربران این گزینه را مشاهده نمی‌کنند دچار سردرگمی می‌شوند و  فکر می‌کنند که ممکن است این مشکل به دلیل قدیمی بودن نسخه Power BI نصب شده بر روی سیستم و عدم به‌روززسانی آن رخ داده باشد.

با کلیک بر روی گزینه Automatically find clusters پنجره‌ای همانند تصویری که در زیر مشاهده می‌کنید باز می‌‌شود. اگر داده‌ها را تجزیه‌وتحلیل کنید، خواهید دید که داده‌ها به سه گروه تقسیم می‌شوند.

اگر تعداد خوشه‌هایی را  که می‌خواهید بسازید، خودتان مشخص نکنید، الگوریتم به‌طور پیش‌فرض، داده‌ها را تجزیه‌وتحلیل کرده و  خوشه‌ها را بر اساس تعداد دفعات متفاوتی که از روی داده‌ها می‌خواند ایجاد می‌کند. که در این نمونه، این ۱۰ خوشه را ایجاد خواهد کرد. اما  از آنجایی که ما این داده‌ها را می‌شناسیم  عدد سه را در کادر Number of clusters وارد می‌کنیم و نامی را برای آن درنظر گرفته و میبینیم که در قسمت Legend اضافه می‌شود.

 

پس از کلیک بر روی OK، فیلد جدید اضافه می‌شود و نمودار باید داده‌ها را در سه خوشه‌ای که رنگ آن‌ها متفاوت است نشان دهد. سعی کنید که هرکدام از نقاط مربوط به داده‌ها در نمودار خوشه‌ای خود را به تنهایی بخوانید تا اینکه  دقت منطق خوشه‌بندی را درک کنید.

به‌این‌ترتیب، ما می‌توانیم بدون هیچ‌گونه تلاش اضافه‌ای منطق خوشه‌بندی  را اعمال کنیم و  خوشه‌ها را در یک scatterplot با استفاده از Power BI نشان دهیم.

 

مبینا چزانی

دانش آموخته دانشگاه تهران، علاقه‌مند به کار در حوزه BI و شیفته یادگیری مطالب جدید هستم. و معتقدم هیچ گاه برای آموختن دیر نیست.

مبینا چزانی (همه)

دیدگاه بگذارید

avatar
  عضویت  
به دوستتان خبر دهید.