Anomaly Detection System for Large Data Stream in Software Defined Network

Alqarni, Abdullah Abdul Rahman ; القرني، عبد الله عبد الرحمن (2021-06-06)

69 pages : Graphic, tables ; 30 cm

رسالة (ماجستير)، كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات

Thesis

The main question of the study : What is the impact of using ML algorithms to discover computer network anomalies for large data stream in the software-defined network?

Study sub-questions: What is the accuracy rate of ML algorithms in discovering computer network anomalies for large data stream in the software-defined network?

Main objective: This research tried to introduce the ML algorithms that can be used to discover computer network anomalies for large data stream in software-defined network.

Specific objectives: 1. To identify the success rates of the ML algorithms utilized to detect computer network deviations for large data stream software-defined network. 2. To compare the findings obtained by using machine learning algorithms with the results concluded by relevant past studies

Samples: The CICIDS2017 dataset was utilized as dataset because of its up-to-datedness, and datasets consist of broad diverse attacks.

Study Methodology: Two methods were used to make calculations. Firstly, the significance weights are separately calculated for each kind of attack. Secondly, all the attacks are gathered under a one set and the significance weights for this set are calculated. In other words, the common qualities that are significant for all attacks are identified. Eventually, (4) ML algorithms, which are broadly utilized and have various properties, have been implemented to this corpus.

Results and Conclusions: The findings showed that the four algorithms delivered performance ratios as per F-measure are as follows (the value is normally between 0 and 1): Naive Bayes: 0.82, Random Forest: 0.96, ID3: 0.97, and K Nearest Neighbours: 0.98).

Recommendations: The research recommended using machine learning algorithms in anomalies detection for large data stream in software defined network due to high detection rates they provide.

التساؤل الرئيسي للدراسة: ما أثر خوارزميات ML في اكتشاب الشذوذ في شبكة الكمبيوتر لتدفق البيانات الكبير في شبكة محددة بالبرمجيات؟

التساؤل الفرعى للدراسة: ما هي نسبة دقة خوارزميات ML في اكتشاب الشذوذ في شبكة الكمبيوتر لتدفق البيانات الكبير في شبكة محددة بالبرمجيات مقارنة بالطرق الأخرى؟

الهدف الرئيسي للدراسة: تقديم خوارزميات ML التي يمكن استخدامها لاكتشاف الشذوذ في شبكة الكمبيوتر لتدفق البيانات الكبير في شبكة محددة بالبرمجيات.

الهدف الفرعى للدراسة: • تحديد معدلات نجاح خوارزميات تعلم الالة المستخدمة لاكتشاف انحرافات شبكة الكمبيوتر لتدفق البيانات الكبيرة في شبكة محددة بالبرمجيات. • مقارنة النتائج التي تم الحصول عليها باستخدام خوارزميات التعلم الآلي مع النتائج التي خلصت إليها الدراسات السابقة ذات الصلة.

عينة الدراسة: تم استخدام مجموعة بيانات CICIDS2017 كمجموعة بيانات بسبب حداثتها وتتكون مجموعات البيانات من هجمات متنوعة واسعة النطاق.

منهج الدراسة وأدواتها: تم استخدام طريقتين لإجراء الحسابات. أولاً يتم حساب أوزان الأهمية بشكل منفصل لكل نوع من أنواع الهجوم. ثانيًا يتم تجميع جميع الهجمات ضمن مجموعة واحدة ويتم حساب أوزان الأهمية لهذه المجموعة. بعبارة أخرى يتم تحديد الصفات المشتركة المهمة لجميع الهجمات. في النهاية تم تنفيذ (4) خوارزميات تعلم الالة والتي يتم استخدامها على نطاق واسع ولها خصائص مختلفة، على هذه المجموعة.

النتائج: أظهرت النتائج أن الخوارزميات الأربعة التي قدمت معدلات أداء وفقًا لمقياس F هي كما يلي (القيمة عادة بين 0 و 1): Naive Bayes: 0.82 ، Random Forest: 0.96 ، ID3: 0.97 ، و K أقرب الجيران: 0.98)

التوصيات: أوصى البحث باستخدام خوارزميات التعلم الآلي في اكتشاف الحالات الشاذة لتدفق البيانات الكبيرة في شبكة محددة بالبرمجيات بسبب معدلات الكشف العالية التي توفرها.