EFFICIENT APPROACH FOR DETECTING EXTREMIST ARABIC TEXTUAL CONTENTS IN WEBSITES

Alharbi, Mona Hajed Ghazi ; الحربي, منى بنت هاجد غازي ; أبو منصور, حسين يوسف . مشرف (2020)

رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص علوم أمن المعلومات،

68 ورقة : جداول، أشكال

Thesis

The internet and technology advances now days have motivated terrorist groups to publish articles and extremist thoughts over the internet through the websites, blogs and social media seeking to spread their extremist thoughts and attract new members or to bring sympathy to these groups. Plenty of research effort have been conducted to address this phenomenon in an attempt to discover the behavior of those who spread those thoughts and recognize the extremist sites and places over the internet. The difficulty of article and text classification is due to the fact that the concerned parties as well as the extremist groups are using overlapped words and tokens about fighting corruption, defending vulnerable groups in society, defending established societal values, or protecting societies from foreign cultures and accordingly lead to wrong classification. This research effort comes to overcome this difficulty empirically through collecting sufficient number of Arabic articles and texts from different sites that belong to different cultures and categorize them into three classes (pro-terrorism, anti-terrorism and neutral files). The collected data is then processed using SAFAR toolkit to extract quantitative and 2-gram features. Then an implemented Python classification model using different algorithms is used to carry out the forecast the labels of the unseen file and produce confusion matrix to calculate evaluation parameters. The classification process was performed on two unseen datasets (safar & safar + 2-gram) using 5 classifiers, we achieve better results with SVM without using 2-gram features.

تحفز المزايا المتقدمة التي تقدمها شبكة الإنترنت ووسائل التقنية المختلفة حالياً تقوم بشكل أو بآخر الأفراد والجماعات الإرهابية على نشر الأفكار المتطرفة عبر الإنترنت من خلال المواقع والمدونات ووسائل التواصل الاجتماعي وغيرها، التي تسعى بمجملها لنشر أفكارهم المتطرفة وجذب أعضاء جدد أو جلب التعاطف مع هذه الجماعات. تم بذل الكثير من الجهود البحثية لمعالجة هذه الظاهرة في محاولة لاكتشاف سلوك تلك الفئة التي تنشر هذه الأفكار، والتعرف على المواقع والأماكن التي تنشر الفكر المتطرف عبر الإنترنت. ترجع صعوبة تصنيف هذه المواقع والمدونات إلى حقيقة أن هذه الجماعات تستخدم كلمات ورموز متداخلة حول مكافحة الفساد، أو الدفاع عن الفئات الضعيفة في المجتمع، أو الدفاع عن القيم المجتمعية الراسخة، أو حماية المجتمعات من الثقافات الأجنبية الدخيلة وبالتالي يؤدي إلى تصنيفها بشكل خاطئ على أنها غير متطرفة أو ارهابية. يأتي هذا الجهد البحثي للتغلب على هذه الصعوبة من خلال المنهج التجريبي، وذلك من خلال جمع عدد كاف من المقالات والنصوص العربية من مواقع مختلفة تنتمي إلى ثقافات مختلفة وتصنيفها إلى ثلاث فئات (المؤيدة للإرهاب، ومكافحة الإرهاب والمواقع المحايدة). ثم تتم معالجة البيانات التي تم جمعها باستخدام مجموعة أدوات مثل أداة SAFAR لاستخراج الميزات الكمية والثنائية ( 2-gram). تم بعدها استخدام نموذج تصنيف مطور باستخدام لغة البرمجة Python تم تطبيقه من خلال توظيف عدة خوارزميات تصنيف للتنبؤ بتصنيف الملفات مجهولة التصنيف ومن ثم إنتاج Confusion matrix لحساب معايير التقييم. تمت عملية التصنيف على مجموعتي بيانات غير مصنفتين (safar & safar + 2-gram) باستخدام 5 مصنفات، حققنا نتائج أفضل مع SVM دون استخدام ميزات 2 جرام.