Developing a Network-Based Botnet Detection Systems Using Machine Learning

العنزي, مشعل فرحان نافع ; AL-Anazi, Meshal Farhan ; جاد الحق, مصطفى . مشرف (2019-03-31)

رسالة (ماجستير)-جامعة نايف العربية للعلوم الأمنية، كلية أمن الحاسب والمعلومات، قسم أمن الشيكات، تخصص أمن الشبكات،

116 ورقة : إيض

Thesis

Abstract: Botnet is considered a multifunctional malware. It can be leveraged by attackers to launch variety of malware attacks such as click fraud, DDOS, spam, etc. Moreover, the botnets pretend the normal traffic by leveraging common protocols such as IRC, HTTP, DNS and P2P for command control. In addition, botnets constantly modify their tactics to evade the detection techniques. Therefore, identifying novel botnet is challenging. Unfortunately, most of proposed methods in literature were tested using datasets with limited botnet types. Moreover, the performance of these models was not optimized efficiently. In this thesis we use recent datasets (which was released in 2014) which include wider types of botnet. We propose two approaches based on flow behavior to optimize the performance of the models. In first approach the initial flow features are reduced to the relevant fifteen features using four filters and PCA as feature transformation. Random search with cross validation is used to find the optimal hyperparameters to optimize the performance of five machine learning algorithms. On other hand, in the second approach the initial flow features are reduced to the relevant fifteen features using four filters. The aim of this approach is to maximize True Positive Rate (TPR) and to minimize the False Positive Rate (FPR), that is to optimize the division of division of FPR by TPR ,(f(x)=FPR/TPR) as objective function. Wrapping feature selection based on Bayesian Optimization is used to find the optimal minima of the objective function The results of this thesis show that flow features that highly correlated with target lead to better detection rate of novel botnet. High detection rate is achieved 91.43% with improvement in the best reported detection rate by 16%. However, the achieved FPR is 11% which is higher than the benchmark FPR, 2.3%.

8 Arabic Summary يعتبر البوت نت برنامجًا ضارًا متعدد الوظائف يمكن أن يستغله الهكر لإطلاق العديد من الهجمات الالكترونيه مثل احتيال النقر ، و تعطيل الخدمه ، و هجمات الرسائل غير المرغوب فيها . علاوة على ذلك ، فان البوت نت يستغل بروتوكولات الاستخدامات الاعتياديه مثل (IRC ، HTTP ، DNS ، P2P) وذلك للتحكم و السيطره بالضحيه . ما ذكرناه سابقا يجعل ميزات التدفق الخاصه بالبوت نت مشابهه لميزات التدفق الاعتياديه . بالإضافة إلى ذلك ، تقوم البوت نت بتعديل تكتيكاتها باستمرار للتهرب من تقنيات الكشف. لذلك فإن اكتشاف الانواع الحديثه من البوت نت يشكل تحديا للقائمين على امن الشبكات. و مما تجدر الاشاره اليه إن الطرق المقترحه في الابحاث السابقه تستند إلى مجموعات بيانات تحتوي على أنواع محدودة من البوت نت ، كما انها لم تتضمن اليات فعاله لتحسين أداء نماذج التعلم الآلي لاكتشاف الانواع الحديثه من البوت نت ، مما يجعل تلك الطرق غير فعاله لاكتشاف الانواع الحديثه من البوت نت في هذه الأطروحة استخدمنا مجموعات بيانات حديثة تشمل أنواعًا واسعه من البوت نت. كما تتضمنت هذه الاطروحه طريقتين لتحسين أداء نماذج التعلم الآلي لاكتشاف الانواع الحديثه من البوت نت . في الطريقه الاولى يتم تقليل ميزات التدفق الأوليه إلى خمسة عشر ميزه من خلال أربعة مرشحات و محول ميزات واحد. بعد ذلك يتم استخدام البحث العشوائي للعثور على أفضل المعاملات لتحسين أداء نماذج التعلم الآلي. من ناحية أخرى ، تهدف الطريقه الثانيه الى زيادة معدل الاكتشاف الحقيقي للانواع الحديثه من البوت نت وتقليل معدل الاكتشاف الوهمي عن طريق ايجاد اقل قيمه لدالة التحسين و التي اخترنا تمثيلها بحاصل قسمة معدل الاكتشاف الوهمي على معدل الاكتشاف الحقيقي. باستخدام اختيار الميزات بالالتفاف المستند على تحسين بيزي يتم إيجاد افضل نموذج تعلم آلي لاكتشاف الانواع الحديثه من البوت نت . اظهرت نتائج هذه الاطروحه أن ميزات التدفق التي ترتبط ارتباطًا وثيقًا بنوع التدفق تزيد المعدل الحقيقي لاكتشاف الانواع الحديثه من البوت نت. باستخدام الطريقه الثانيه المعتمده تحسين بيزي تم تحقيق معدل اكتشاف حقيقي عالي 91.43٪ و الذي يعتبر أفضل من المعدل المعياري و الذي يبلغ 75٪ ، و بلغ معدل الاكتشاف الوهمي المقابل 11 ٪ وهو أعلى من معدل الاكشاف الوهمي المعياري و الذي يبلغ 2.3 ٪.