Analysis and Classification of Abusive YOUTUBE videos for children security

الجاسر, نورة بنت إبراهيم عبد الله ; Aljasser, Norah Ibrahim ; عمي, مريم عبد القادر . مشرف (2020)

رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات،

55 ورقة : جداول، أشكال

Thesis

The main question of the study: How can videos be classified based on their violent(abusive) content in a timely manner?

Study sub-question: 1. What are the potentials of machine learning in developing effective algorithms to analyze and classify videos? 2. What is the difference between CNN and SVM in video analysis and which of these models can yield to faster and more accurate results?

Main objective: Develop two methods, namely deep learning model (CNN) and support vector machine model (SVM), to analyze the data and detect violent (abusive) scenes in videos (that are not suitable for children below eight). And select the accurate model.

Specific objective: 1. Conduct evaluative metrics and comparative study to prove the efficiency of the obtained results. 2. Provide a comprehensive literature review of the state-of-the-art findings in the fields of video analysis using artificial intelligent, machine learning and deep learning algorithm.

Samples of study: The experiments conducted in the thesis have used a Violent Scene Detection (VSD) dataset that contains of 86 short YouTube videos. The dataset comes from MediaEval Affect Task 2014 that include different types of features; a visual set of Local binary patterns (LBP) features file, which contains 26536 samples with 144 attributes, and a size of 34.7 GB and an audio set of Mel frequency cepstral coefficients (MFCC) features file, contains of 16154 samples with 22 attributes, and a size of 2.57 GB.

Study Methodology and Tools: In this study, the experimental method was applied, Convolutional Neural Networks CNN with two types of features LBP features and MFCC features. Then, the researcher conducted the experiment of two features using the Support Vector Machine (SVM) algorithm to compare the results. This has made possible to compare the results of the two models and make the draw the necessary conclusions. The implementation was use MATLAB for selecting the features and use PYTHON programing language version 3.8 for programing in jupyter-lab.

Results and Conclusions 1. Convolutional Neural Network was more efficient, high accuracy and less time consuming in the prediction than the Support Vector Machine using Visual Features (LBP). 2. The Convolutional Neural Network turned out to be more efficient, high accuracy and less time consuming in violence prediction than the Support Vector Machine using Audio Features (MFCC). 3. The error rate has proved that the visual features is lower than the audio features in the CNN model. Also, in the SVM model, the error rate was close for the audio and visual features. 4. Evaluate the CNN algorithm with the Visual features (LBP) and the Audio features (MFCC) using a cross validation function we got the same accuracy we have been record it in the classification model with the same data. 5. compared our proposed method with the state-of-the-art they use the same dataset and achieving the same goal of classification. The studies revealed a high accuracy as our approach models the CNN algorithm using the visual features (LBP). This can be explained by the nature of the LBP visual features that use the texture characteristics of the image in the feature.

Recommendations: 1. The CNN model has proved to be effective and time-saving. Therefore, such model should be integrated this model into systems to help predict violence and prevent it from reaching children. 2. The developed model can be integrated in to the web browsers to help automatically filter violent(abusive) content for kids on YouTube, Netflix and the like.

ويتفرع من التساؤل الرئيس الأسئلة الفرعية التالية: 1. ما هي إمكانات التعلم الآلي في تطوير خوارزميات فعالة لتحليل وتصنيف مقاطع الفيديو؟ 2. ما الفرق بين CNN و SVM في تحليل الفيديو وأي من هذه الخوارزميات يمكن أن يؤدي إلى نتائج أسرع وأكثر دقة؟

الهدف الرئيس للدراسة: تطبيق خوازميتين ، وهما نموذج التعلم العميق (CNN) ونموذج دعم آلة المتجه (SVM) ، لتحليل البيانات واكتشاف المشاهد العنيفة في مقاطع الفيديو (التي لا تناسب الأطفال دون سن الثامنة). وتحديد النموذج الدقيق.

الأهداف الفرعية: 1. إجراء مقاييس التقييم ومقارنة نتائج الدراسات السابقة لإثبات كفاءة النتائج المحصلة. 2. تقديم مراجعة شاملة للدراسات السابقة الحديثة في مجالات تحليل الفيديو باستخدام الذكاء الاصطناعي ، والتعلم الآلي ، وخوارزمية التعلم العميق.

عينة الدراسة: استخدمت التجارب التي أجريت في الأطروحة مجموعة بيانات عن الكشف عن المشهد العنيف (VSD) تحتوي على 86 مقطع فيديو قصير على YouTube. تأتي مجموعة البيانات من MediaEval Affect Task 2014 التي تتضمن أنواعًا مختلفة من الميزات ؛ مجموعة مرئية من ملف ميزات الأنماط الثنائية المحلية (LBP) ، والتي تحتوي على 26536 عينة مع 144 سمة ، وحجم 34.7 جيجابايت ومجموعة صوتية من ملف ميزات معاملات تردد ميل (MFCC) ، تحتوي على 16154 عينة مع 22 سمة ، بحجم 2.57 جيجابايت.

منهج الدراسة وأداتها: في هذه الدراسة تم تطبيق الطريقة التجريبية ، الشبكات العصبية التلافيفية CNN مع نوعين من الميزات LBP وميزات MFCC. ثم أجرى الباحث تجربة ميزتين باستخدام خوارزمية Support Vector Machine (SVM) لمقارنة النتائج. وقد جعل هذا من الممكن مقارنة نتائج النموذجين واستخلاص النتائج اللازمة. تم استخدام MATLAB لاختيار الميزات واستخدام لغة برمجة PYTHON الإصدار 3.8 للبرمجة في مختبر jupyter.

النتائج: 1. كانت الخوارزمية CNN أكثر كفاءة ودقة عالية واستهلاك أقل للوقت في التنبؤ من خوارزمية SVM باستخدام الميزات المرئية (LBP). 2. تحولت خوارزمية CNN إلى أن تكون أكثر كفاءة ودقة عالية وأقل استهلاكاً للوقت في التنبؤ بالعنف من SVM باستخدام الميزات الصوتية (MFCC) 3. أثبت معادلة معدل الخطأ أن الميزات المرئية أقل خطأ من الميزات الصوتية في نموذج CNN. أيضًا في نموذج SVM ، كان معدل الخطأ متقارباً بين الميزات الصوتية والمرئية. 4. تم تقييم دقة خوارزمية CNN باستخدام الميزات المرئية (LBP) والميزات الصوتية (MFCC) باستخدام دالة التحق المتقاطع للتحقق من دقة الخوارزمية وحصلنا على نفس الدقة التي تم تسجيلها في نموذج التصنيف بالبيانات نفسها. 5. مقارنة طريقتنا المقترحة بأحدث الدراسات السابقة التي استخدمت نفس مجموعة البيانات وتحقق نفس الهدف من التصنيف. و كشفت الدراسات عن نتائج دقة عالية كالنتائج التي حصلنا عليها في خوارزمية CNN باستخدام الميزات البصرية (LBP). فيمكن تفسير ذلك من خلال طبيعة الميزات المرئية MFCC التي تستخدم خصائص نسيج الصورة في الميزة.

التوصيات: 1. لقد أثبت نموذج CNN أنه فعال وموفر للوقت. لذلك ، يجب دمج هذا النموذج في أنظمة للمساعدة في التنبؤ بالعنف ومنعه من الوصول إلى الأطفال. 2. يمكن دمج النموذج المطور في متصفحات الويب للمساعدة في تصفية المحتوى العنيف للأطفال تلقائيًا على YouTube و Netflix وما شابه