مبادئ عامة

[مقدمة في الذكاء الاصطناعي]: 11- أهمية الكلمات المتكررة Words Frequency

لنختبر فكرة أن مدى تكرار كلمات معينة التي تظهر في النص يدل على مدى أهميتها الدلالية

بما معناه أن تكرار كلمة معينة قد يخبرنا شيئاً ما عن النص بشكل عام

Words Frequency Text Analysis in Natural Languages Processing Machine Learning – Artificial Intelligence

فمثلاً لربما بدأ برنامجنا الذكي المحبب, بالاهتمام بأشعار شيكسبير وأنه وصل لهذا الاقتباس من روميو وجولييت :

What’s in a name? That which we call a rose. By any other name would smell as sweet

يمكننا الان ان نبدأ تحليل بسيط لمدى تكرار الكلمات في هذا الاقتباس

عن طريق عد تكرار كل كلمة في الاقتباس

بالطبع علينا أن نعالج النص قليلاً وننظفه من كل الرموز غير النصية

مثل علامات الترقيم واشارات الاستفهام والتعجب, بالإضافة لكلمات التوقف والربط مثل

and, of, the …

ثم ننظم الكلمات على حسب مرات تكرارها في جدول بياني

وبعد حذف كلمات الربط والتوقف والكلمات غير المهمة ..

نلاحظ أن أكثر الكلمات تكراراً هي name

وهو فعلاً مايتحدث عنه الاقتباس

وبشكل عام هذا مايُعنى به تحليل النصوص عبر تحليل تكرار الكلمات وذلك فعلاً سيعطينا نتائج جيدة جداً عند استخدامه مع نصوص طويلة كنص مقابلة تلفزيونية أو مقالة أو حتى رواية

والالية نفسها يتم اتباعها كل مرة

يتم تنظيف النص من علامات الترقيم مثل الفاصلة والنقطة واشارات التعجب والاستفهام وأيضاً من الأرقام , وانتهاءاً بكلمات الربط والتوقف وأدوات الجر والعطف وماشابهها ..

وذلك ﻷنه من الطبيعي أن تكون أكثر الكلمات تكراراً تقريباً في جميع النصوص على اختلاف أنواعها ولكنها لايمكن أن تعطينا فعلياً أي فائدة فهي بحد ذاتها لا تدل على المعنى الدلالي للنص ولا فحواه

قمنا أعلاه بمثال صغير وبسيط لتوضيح أهمية تكرار الكلمات في النصوص في الذكاء الصنعي وتعليم الالة

وبالتأكيد عندما يكون النص كبيراً فسوف نستخدم أكواد برمجية وأيضاً بعض المكتبات البرمجية لتساعدنا على تنظيم وتنظيم النص وتحليله بالشكل الأنسب .

وتحليل تكرار الكلمات ليست التقنية الوحيدة في فهم اللغات الطبيعية ومعالجتها , بل يوجد تقنيات أخرى سنطلع عليها في الدروس القادمة .

  – فراس معن

اترك تعليقاً