Detection of Violent Language Against Saudi Arabia in Social Media Using Deep Learning

الغامدي, أثير بنت يحيى علي مسفر ; Alghamdi, Atheer Yahya ; عمي, مريم عبد القادر . مشرف (2020)

رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات،

54 ورقة : جداول، أشكال

Thesis

The Main Question of The Study: Does the use of sequential model based on deep learning yield to accurate and effective detection of offensive Saudi Arabic language?

Study Dub-Question: How to analyze Arabic tweets to detect the content that is against Saudi Arabia effectively and accurately?

Main Objective: design a sequential model based on deep learning approach to detect offensive Arabic speech.

Specific Objective: detecting the offensive language that might be as an indicator of possible threats

Study Methodologies and Tools: investigating Arabic tweets using both Modern Arabic Standard (MSA) and Saudi Dialect to detect negative and violent language against Saudi Arabia. This is measured employing detection algorithms and sentiment analysis on the extracted data using Natural Language Toolkit (NLTK).

Results and Conclusion: The model achieved an accuracy of 87.74%. The saudi labeled dataset achieved a precision of 85.07%, recall of 90.4%, and F-score or 87.6%. This yields the effectiveness of applying detection algorithms on Arabic social media data in order to benefit the Saudi authorities in adopting valuable information on Twitter to utilize them to detect violent language.

Future Work: 1. To provide Twitter users’ accounts that have been detected beforehand of expressing violent against Saudi Arabia in order to profile violent offenders and most importantly to foresee such threats in order to take measurable actions before they occur. 2. To develop a much larger dataset that mainly concerns “السعودية”.

التساؤل الرئيس للدراسة: هل يؤدي استخدام النموذج التسلسلي القائم على التعلم العميق إلى الكشف الدقيق والفعال عن الكلمات المسيئة باللغة العربية و تحديداً اللهجة السعودية؟

ويتفرع من التساؤل الرئيس السؤال الفرعي التالي: كيف يتم تحليل التغريدات العربية لكشف محتوى قائم ضد المملكة العربية السعودية بشكل فعال ودقيق؟

الهدف الرئيسي للدراسة: تصميم نموذج تسلسلي قائم على نهج التعلم العميق للكشف عن الكلام العدواني باللغة العربية.

الهدف الفرعي: الكشف عن الكلمات العدوانية التي قد تكون مؤشرًا على التهديدات المحتملة.

منهج الدراسة وأدواتها: فحص التغريدات العربية المكتوبة باللهجة العربية الفصحى الحديثة (MSA) واللهجة السعودية للكشف عن الأسلوب السلبي والعنيف ضد المملكة العربية السعودية. يتم قياس ذلك باستخدام خوارزميات للكشف وتحليل المشاعر على البيانات المستخرجة باستخدام مجموعة أدوات اللغة الطبيعية (NLTK).

النتائج: حقق النموذج دقةAccuracy) (بلغت 87.74٪ وحققت مجموعة البيانات باللهجة السعودية نتائج في اختبار (precision, recall, F-score) ما يلي: • 85.07٪ Precision: • 90.4٪ Recall: • 87.6F-Score: ينتج عن ذلك فعالية تطبيق خوارزميات الكشف على البيانات العربية الموجودة على وسائل التواصل الاجتماعي من أجل إفادة السلطات السعودية في اعتماد معلومات قيمة على تويتر لاستخدامها في اكتشاف اللغة العنيفة.

العمل المستقبلي: 1- عرض حسابات مستخدمي Twitter التي تم اكتشافها مسبقًا للتعبير عن العنف ضد المملكة العربية السعودية من أجل التعرف على مرتكبي الجرائم والأهم من ذلك توقع مثل هذه التهديدات من أجل اتخاذ إجراءات قبل حدوثها. 2- تطوير مجموعة بيانات أكبر تتعلق بشكل أساسي بـ "السعودية".