مبادئ عامة

[مقدمة في الذكاء الاصطناعي] 8- تقنية التجميع/العنقدة Clustering في تعلم الالة

سابقاً رأينا بعض تقنيات التعلم بإشراف Supervised Learning , مثل الانحدار Regression و التصنيف Classification

 

Clustering – التجميع – العنقدة

ولكن ماذا عن التعلم بدون إشراف Unsupervised Learning ؟

في التعلم بدون إشراف , لديك بيانات ولكن لاتملك تصنيفات او علامات لها Labels على عكس التعلم بإشراف

 

ولذلك نستخدم خوارزميات وتقنيات تستطيع -بنفسها- إيجاد التشابهات في البيانات المقدمة لها , و”تجمعها” في مجموعات Clusters

 

افترض مثلاً لدى عيادتنا الطبية موقع على الانترنت , وهذا الموقع يحتوي روابط لمقالات عامة ومقالات طبية ومنشورات تخص الحياة الصحية ..الخ

ونحن نريد أن نجمّع المقالات المتشابهة في مجموعات منفصلة .

 

يوجد عدة طرق لانشاء نماذج تجميع Clustering Models , وهنا سنرى أحد أشهر تلك الطرق والتقنيات

وهي طريقة k-Means Clustering

وبشكل عام فإن الهدف من هذه الخوارزمية هو تقسيم عدد n من البيانات على عدد k من المجموعات/الاقسام حيث ينضوي كل عنصر إلى القسم ذي النقطة المركزية الاقرب (المتوسط الحسابي)

 

والمفتاح لفهم هذه الخوارزمية هو أن نتذكر البيانات بحوزتنا تتألف من عدة أعمدة من المعلومات والخصائص, ونفترض ان هذه الخصائص هي قيم عددية , وبالتالي نستطيع تمثيلها بيانياً كإحداثيات

وفي مثالنا هنا سيكون لبياناتنا فقط خاصيتين حتى نستطيع تمثيلهم بياناً على مستوي ثنائي الابعاد

ولكن في الواقع فللبيانات عادة عدد كبير من الخصائص .

 

ومن ثم نقرر إلى كم مجموعة نريد تجميع هذه البيانات , وعدد هذه المجموعات هو k

ونضع نقاط k في اماكن عشوائية لتمثل مراكز تلك المجموعات .

في حالتنا نريد 3 مجموعات لذلك ننشئ 3 نقاط k

حيث النقاط الزرقاء تمثل بياناتنا و النجوم الحمراء هي نقاط k

ومن ثم نعين كل نقطة بيانات الى النقطة المركزية k الاقرب اليها

ومن ثم نحرك كل نقطة مركزية الى المركز الحقيقي للنقاط التابعة لها في تجمعاتها

وبعدها نعيد عملية تعيين كل نقطة الى المجموعة التي تنتمي اليها لتتلائم مع النقطة المركزية الجديدة الاقرب لها

ونعيد تكرار هذه العملية عدة مرات حتى نحصل على تجمعات مفصولة بالشكل الأنسب

 

إذن, لماذا نهتم أن تكون التجمعات منفصلة بشكل جيد ؟!

نحن نريد تجمعات تفصل البيانات الى اقصى حد ممكن لتعطي أفضل النتائج

 

ولقياس ذلك يمكننا مقارنة المسافة الوسطية بين مراكز التجمعات Cluster Centers وهي النجوم الحمراء طبعاً (نقاط k)

والمسافة الوسطية بين نقاط البيانات (الزرقاء) في التجمع الواحد, ومركز هذا التجمع .

 

والتجمعات التي لديها اقصى قيم ممكنة لتلك المسافات, تكون تملك أفضل وأنسب فصل Separation

 

 

ملاحظة : الدرس لم ينته بعد , سيتم إكماله في الدرس التالي ..

 

 

 – فراس معن

 

اترك تعليقاً