PERFORMANCE EVALUATION OF MACHINE LEARNING BASED INTRUSION DETECTION SYSTEMS FOR CLOUD COMPUTING
رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية الحاسب وأمن المعلومات، قسم أمن المعلومات، تخصص أمن المعلومات.
58 ورقة : جداول، أشكال
Thesis
The main question of the study: What ML model shows the highest performance in distinguishing abnormal traffic? Study sub-questions: - What is the most common attack against cloud computing platforms? - Is it possible to reduce the size of the dataset to increase the performance of the models? - Which are the most relevant features important to distinguish abnormal traffic from normal traffic?
Main objective: The aim of this thesis is to compare the performance of different ML algorithms with different Feature Selection Techniques, reducing computation time and achieving high accuracy. Specific objectives: - To present a review of previous studies that proposed some solutions that can be developed to improve privacy and security in a cloud environment. - To conducting of experiments involving multiple different methods in order to achieve high accuracy and low-processing time.
Samples: We used the CSE-CIC-IDS2018 dataset (UNB, 2018). This dataset consists of a series of attack scenarios such as: Brute-force, DDoS (Distributed Denial of Service), SQL injection, DoS (Denial of Service), Botnet, web attacks i.e. vulnerable web app attacks; and local network infiltration attacks. However, in our experiences we focused on testing our model for three types of attacks: a brute force attack, a DoS attack, and a DDoS attack, because these attacks are the most common threat types that affect cloud environments by disabling them from working correctly.
Study Methodology: The experimental scientific approach was applied to answer the main and sub-questions of the study and achieve its objectives, by used the CSE-CIC-IDS2018 and focused on cloud attacks. We used the first method wrapper technique (RFE), and the second method used filter technique (feature importance) and wrapper (RFE). Then tested these methods with different machine learning techniques, such as Decision Tree ( DT ), Gradient Boosting ( GB ), Support Vector Machines ( SVM ), Naïve Bayes ( NB ), and Logistic Regression ( LR ).
Results and Conclusion: Experimental results show both the Decision Tree Classifier and Gradient Boosting Classifier achieved the highest accuracy. Experimental results depict that both Naive Baye and Logistic Regression Classification models perform better in terms of accuracy when both "filter and wrapper " techniques are applied comparing to the round when "wrapper technique only" is applied. The method that applied "filter and wrapper" techniques helped reduce the prediction time in all classifiers.
Recommendations: • Analysis and compares between combining multiple classifiers. • Study the analysis of many feature selection techniques and measure the effectiveness of the accuracy. • More analysis in different attacks. • applying deep learning algorithms on the CSE- CIC-IDS2018 dataset is another field that needs research.
التساؤل الرئيسي للدراسة: ما هو نموذج التعليم الآلي الذي يظهر أعلى أداء في تمييز حركة المرور غير الطبيعية؟ ويتفرع من التساؤل الرئيسي الأسئلة الفرعية التالية: - ما هو الهجوم الأكثر شيوعًا ضد منصات الحوسبة السحابية؟ - هل من الممكن تصغير حجم مجموعة البيانات لزيادة أداء النماذج؟ - ما هي أهم الميزات ذات الصلة لتمييز حركة المرور غير الطبيعية عن حركة المرور العادية؟
الأهداف الرئيسية للدراسة: تهدف هذه الرسالة إلى مقارنة تحليلية بين أداء خوارزميات التعليم الآلي المختلفة مع تقنيات اختيار الميزات المختلفة، وتقليل وقت الحساب وتحقيق دقة عالية. ويتفرع منه الأهدف الفرعية التالية: - تقديم مراجعة للدراسات السابقة التي اقترحت بعض الحلول التي يمكن تطويرها لتحسين الخصوصية والأمان في بيئة سحابية. - إجراء تجارب تتضمن عدة طرق مختلفة لتحقيق دقة عالية ووقت معالجة منخفض.
مجتمع الدراسة: استخدمنا مجموعة بيانات CSE-CIC-IDS2018. تتكون مجموعة البيانات هذه من سلسلة من سيناريوهات الهجوم مثل: Brute-force، DDoS ، SQL injection ، DoS ، Botnet ، هجمات الويب ، أي هجمات تطبيقات الويب الضعيفة ؛ وهجمات تسلل الشبكة المحلية. ومع ذلك، ركزنا في تجاربنا على اختبار نموذجنا لثلاثة أنواع من الهجمات: Brute-force و DoS و DDoS ، لأن هذه الهجمات هي أكثر أنواع التهديدات شيوعًا التي تؤثر على البيئات السحابية من خلال تعطيلها عن العمل بشكل صحيح .
منهج الدراسة وأدواتها: تم تطبيق المنهج العلمي التجريبي للإجابة على الأسئلة الرئيسية والفرعية للدراسة وتحقيق أهدافها لقد استخدمنا مجموعة البيانات CSE-CIC-IDS2018 وركزنا على الهجمات التي تتعرض لها أنظمة الحوسبة السحابية والتي يصعب الكشف عنها بالطرق التقليدية. استخدمنا الطريقة الأولى لاختيار الميزات wrapper technique (RFE) ، والطريقة الثانية استخدمنا filter technique (feature importance) and wrapper (RFE) . ثم اختبرنا هذه الطرق باستخدام خوارزميات التصنيف، مثل:Decision Tree (DT); Gradient Boosting (GB), Support Vector Machines (SVM), Naïve Bayes (NB), and Logistic Regression (LR)
النتائج: تُظهر النتائج التجريبية أن كلاً من Decision Tree Classifier وGradient Boosting Classifier قد حققا أعلى دقة. كما توضح النتائج التجريبية أن كلا من نموذجي Naive Baye Classifier و Logistic Regression Classifier يعملان بشكل أفضل حيث أن الدقة أعلى عند تطبيق كل من تقنيتي (filter and wrapper) مقارنة بالتجربة الثانية التي تستخدم wrapper technique فقط. التجربة التي تعمل بكلا التقنيتين (filter and wrapper) ساعدت في تقليل وقت التنبؤ في جميع المصنفات.
أهم التوصيات: - التحليل والمقارنة بين الجمع بين المصنفات المتعددة. - دراسة تحليل العديد من تقنيات اختيار السمات وقياس مدى فاعلية الدقة. - مزيد من التحليل في الهجمات المختلفة. - تطبيق خوارزميات التعلم العميق على مجموعة بيانات CSE- CIC-IDS2018 هو مجال آخر يحتاج إلى البحث.