مبادئ عامة

[مقدمة في الذكاء الاصطناعي] 13- استخراج جذور الكلمات لتحليل النص Stemming

درسنا اليوم سيكون بسيط ومختصر ,,,

رأينا في الدرسين السابقين أهمية مدى تكرار المفردات في النصوص وكيف يمكن أن يبين لنا هذا الامر عن فحوى وماهية النص

ولكن نواجه مشكلة بسيطة , سواء في اللغة العربية او الانكليزية أو غيرها من اللغات , نرى كلمات عديدة جداً ولكنها تحمل معنى مشابه

وذلك سببه أن في هذه اللغات يوجد مايدعى بـ جذر الكلمة Word Stem

ومن أي جذر نستطيع بإضافة بعض الأحرف عليه , أن نأتي بعدد كبير من الكلمات تحمل الجذر نفسه

وهذا قد يسبب لنا مشكلة صغيرة أثناء تحليلنا لنص ما

 

ولذلك نلجئ للتقنيات التي تسمح لنا بأن نعيد أغلب الكلمات داخل النص إلى جذورها الأصلية ومن ثم نعيد تحليلنا للنص ومعرفة الجذور المتكررة

وبهذا بالتأكيد سيسمح لنا بالحصول على نتائج أدق وأفضل

 

ويمكننا أن نفعل ذلك بواسطة “خوارزمية بورتر Porter Algorithm”

حيث تحدد هذه الخوارزمية مجموعة من القواعد لتجريد الكلمات الى جذورها الأصلية اعتماداً على أنماط الاحرف الساكنة والصوتية أو احرف العلة , وأشهر الكلمات المشتقة بالإضافة لنهايات الكلمات وأيضاً بعض المعايير الاخرى

لن نتطرق في درس اليوم الى أمثلة على ذلك وسنترك المجال لشرح هذه الخوارزمية مستقبلاً .

 

وهذه بعض الأمثلة على عدة مشتقات لها جذر واحد :

sweetness

sweeting

sweetening

وكلها كلمات مشتقة من الجذر sweet .

 

 

  • فراس معن

اترك تعليقاً