Firewall Optimization Model for IoT Security
رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات،
64 ورقة : جداول أشكال
Thesis
The main question of the study: How do we improve the performance of intrusion detection systems?
Study sub-questions: • What effect does stack and Ensemble models use on Machine Learning Algorithms and their performance? • What impact on accuracy rate when we use more than one single based classifiers? • What are the similarities and differences in the experiences of recent researcher and scholars in this scope?
Main objective: in this research, we have utilized the machine learning and data-mining approaches to design forms and procedures from the “UNSW-NB15” by using the ensemble and Stacking models for optimizing the intrusion detection functions which, aim to it run perfectly and efficiently with threats and attacks which, related to the internet of things. Moreover, we aim to generate high accuracy and high detection rate. Moreover, proving that the proposed way can make the best against other methods.
Study Methodology and Tools: in this research, the empirical approach was present to evaluate the performance of super learner model by using specific and selected algorithms Learners and ensemble models on intrusion detection dataset (UNSW-NB15) to obtain the best possible performance. By using appropriate tools and test Environment to get better “performance” of our “model”. So, nine different algorithms with modest configuration as base Learners, “Logistic Regression, Decision Tree Classifier, Super vector clustering, Gaussian Naïve Bayes, K-Kneighbors Classifier, AdaBoost Classifier, Bagging Classifier, Random Forest Classifier, Extra Trees Classifier and a Logistic Regression algorithm instead of a Linear Regression algorithm” as the meta-algorithm and to set up the SuperLearnear we have used Anaconda packages python Distribution, PyPI, mlens, ScikitLearn packages, Jupyter-Notebook and Google Cloud service.
Results and Conclusions: we have compared “performance” of the SuperLearnear with the classical- base learners with 10fold cross-validation. Applied the superLearner methods on the UNSW-NB15 dataset. These algorithms have been chosen for comparison according to most previous experiments, and these algorithms have the highest accuracy compared to other algorithms also, previous studies have mainly used these algorithms and These most popular algorithms used in the data processing. • The best results obtained using the SuperLearner methods with 100% in all performance measure. • with regard to the single-based learners with 10fold cross-validation, the best Accuracy, Recall, F-Measure and AUC measures obtained by Random Forest. • While Random Forest and K- neighbors had the best Precision measures result. In this research, we focused on the “classification” “performance” improvement in terms of accuracy for the “UNSW-NB15” Data-set related to intrusion detection. So, we have used the SuperLearnear method that leads to the best-weighted average of varied learning models. For the base-learners, we have determined nine different algorithms. Based on the results, we found that the proposed method has a well “performance” compared to classical-base learners with 10folds cross-validation technique for each test metrics mentioned in this research. Also, we mentioned the topics related to our scope, such as the internet of things, its applications and security, intrusion detection systems, Machine Learning technologies.
• applying this technique on whole Dataset and other benchmark datasets. • examine the research issue with more various base-learners and meta-learners. • This method could be useful for other real _world issues fields such as Healthcare, IT, geographical purpose, the agricultural field, transportation tasks.
التساؤل الرئيس للدراسة: كيف يمكننا تحسين أداء أنظمة كشف التسلل؟؟
ويتفرع من التساؤل الرئيس السؤال الفرعي التالي: - • ما هو التأثير الذي تستخدمه مركبات نماذج المكدس والتجميع على خوارزميات التعلم الآلي وأدائها؟ • ما هو التأثير على معدل الدقة عندما نستخدم أكثر من متعلم او خوارزمية واحدة؟ • ما هي أوجه الشبه والاختلاف في تجارب الباحثين والدارسين الجدد في هذا المجال؟
الهدف الرئيسي للدراسة: تم استخدام أساليب التعلم الآلي واستخراج البيانات لتصميم نموذج يطبق على البيانات الضخمة الخاصة بأنظمة كشف التسلل عبر انترنت الاشياء "UNSW-NB15" وذلك باستخدام نماذج التجميع والتكديس لتحسين وظائف اكتشاف التسلل والتي تهدف إلى تشغيلها بشكل مثالي. وكفاءة مع التهديدات والهجمات. علاوة على ذلك، نحن نهدف إلى تحقيق دقة عالية ومعدل اكتشاف عالي واثبات أن الطريقة المقترحة يمكن أن تكون الأفضل مقارنة بالطرق الأخرى.
منهج الدراسة وأدواتها: تم تبني المنهج التجريبي لتقييم أداء نموذج المتعلم الفائق باستخدام خوارزميات محددة ومختارة على مجموعة بيانات اكتشاف التسلل UNSW-NB15 للحصول على أفضل أداء ممكن. تم استخدام الأدوات والبيئة المناسبة للحصول على "أداء" أفضل "للنموذج المقترح". يحوي تسع خوارزميات مختلفة بتكوين متواضع مثل الخوارزميات البسيطة، مع حزمة الانكوندا ولغة البرمجة بايثون مع تقنيات الحوسبة السحابية فائقة المعالجة.
النتائج: تمت مقارنة أداء خوارزمية المتعلم الفائق مع الخوارزميات التقليدية مع التحقق المتبادل من عشر أضعاف على مجموعة بيانات UNSW-NB15.تم ترشيح هذه الخوارزميات للمقارنة وفقًا لمعظم التجارب السابقة، حيث تتميز هذه الخوارزميات بأعلى دقة مقارنة بالخوارزميات الأخرى وقد استخدمت الدراسات السابقة هذه الخوارزميات بشكل أساسي وهي الأكثر شيوعًا في معالجة البيانات. • أفضل النتائج التي تم الحصول عليها تحققت باستخدام خوارزمية المتعلم الفائق وحصلت على نسبة 100٪ في جميع مقاييس الأداء. • فيما يتعلق بالخوارزميات التقليدية مع التحقق المتبادل من 10 أضعاف، حققت خوارزمية الغابة العشوائية أفضل النتائج فيما يخص الــ Accuracy, Recall, F-Measure وAUC • في حين أن خوارزمية الغابة العشوائية و K- neighbors حصلا على افضل مقاييس في الــ Precision. في هذا البحث، ركزنا على تحسين الأداء من حيث الدقة لمجموعة بيانات "UNSW-NB15" المتعلقة باكتشاف التسلل. لذلك، استخدمنا طريقة المتعلم الفائق التي تؤدي إلى أفضل متوسط مرجح لنماذج التعلم المتنوعة. بالنسبة للمتعلمين الأساسيين، حددنا تسع خوارزميات مختلفة. بناءً على النتائج، وجدنا أن الطريقة المقترحة لها أداء جيد مقارنةً بالخوارزميات التقليدية باستخدام تقنية التحقق من الصحة عشر أضعاف لكل مقاييس الاختبار المذكورة في هذا البحث. ذكرنا أيضًا الموضوعات المتعلقة بنطاقنا، مثل إنترنت الأشياء وتطبيقاتها وأمانها وأنظمة كشف التسلل وتقنيات التعلم الآلي.
أهم التوصيات: • تطبيق هذه التقنية على مجموعة البيانات الكاملة ومجموعات البيانات الأخرى التي تغطي مجالات اخرى. • دراسة وبحث عدد أكبر من الخوارزميات التقليدية والمركبة. • قد تكون هذه الطريقة مفيدة لمجالات قضايا العالم الحقيقية الأخرى مثل الرعاية الصحية وتكنولوجيا المعلومات الجغرافيا والمجال الزراعي ومهام النقل.