A New Adaptive Method for Extracting Header Words from Official Printed Arabic Documents
طريقة جديدة ومتكيفة لأستخراج كلمات الرأس من الوثائق العربية الرسمية المطبوعة
الكلمات المفتاحية:
تجزئة الوثيقة,شجرة القرار,كلمات الرأس,استخراج الكلمات.، document segmentation,run length smearing,header words,words extractionالملخص
أصبحت لتقنيات استخراج الكلمات من الوثائق دور مهم ومؤثر في انظمة تحليل واسترجاع الوثائق المصورة. تم في هذا البحث اقتراح طريقة جديدة لتحديد واستخراج كلمات الرأس من الوثائق العربية الرسمية المطبوعة. تم في هذه الطريقة استخراج عبارات من الكلمات العربية متنوعة الخطوط والانماط والاحجام من الوثائق العربية المطبوعة المختلفة الاشكال والالوان والدقة. عملية استخراج كلمات الراس تعتمد على تقنية تجزئة فعالة تعمل على فصل مكونات الوثائق المتضمنة النصوص والشعارات والرسومات والتواقيع وغيرها. عملية التجزئة تعتمد على تحليل الوثيقة والتي يمكن من خلالها استنتاج ابعاد المسافات الافقية والعمودية بين المكونات. بعد عملية التجزئة يتم تحديد كلمات الرأس من خلال سلسلة من القواعد المؤثرة مع شجرة اتخاذ القرار التي سوف تحدد يشكل صحيح كلمات الرأس في الوثيقة المصورة. الكلمات المستخلصة يمكن الانتفاع منها في الكثير من التطبيقات مثل مطابقة الكلمات، اكتشاف الكلمات، تصنيف واسترجع الوثائق وغيرها من التطبيقات التي تعتمد على استخراج الكلمات. تم في هذا البحث بناء مجموعة بيانات من وثائق عربية رسمية مطبوعة واختبارها في الطريقة المقترحة. هذه الوثائق العربية تم الحصول عليها وتجميعها من مختلف المواقع الالكترونية الرسمية ومن المكاتب. الطريقة المقترحة لاستخراج كلمات الرأس من الوثائق العرية حصلت على 96% لنسبة الاســتدعاء و98% لنسبة الدقة و97% لمعامل الهدف.