A New Intelligent Classification Model to Detect Phishing Emails
رسالة (ماجستير)-جامعة نايف العربية للعلوم الأمنية، كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات،
85 ورقة : جداول، رسوم بيانية
Thesis
Abstract Electronic mails is currently a main communication method worldwide as it proven its efficiency. Phishing emails is one of the major threats committed via this facility which resulted in significant losses that estimated by billions of dollars in the recent years affecting many sectors such as governments, organizations, businesses as well as individual’s. Phishing emails is more dynamic problem by struggling between the phishers and defenders where the phishers have more flexibility in manipulating the features of emails and evade the anti-phishing techniques. On the other hand, defenders adopted many solution techniques some of which manual and other is automated to mitigate the phishing emails impact to the targeted sectors, but none have achieved 100% detection accuracy. As phishing techniques are evolving, the solutions need to be evolve too as well as generalized in order to mitigate as much as possible. In this research, a new emergent classification model which deploys a proposed hybrid feature selection method that combine two common feature selection methods Information Gain and Genetic Algorithm for the sake of keeping only significant and high-quality features in the final classifiers is presented. The Proposed hybrid approach adapted to well-known phishing email and achieved 98.9 accuracy rate against phishing emails dataset comprises 8266 instances and results depicts enhancement by almost 4% as well as contributed in reducing the search space by reducing the number of selected features.
المستخلص تعتبر رسائل البريد الالكتروني صلة التواصل الحديثه بين مختلف دول العالم ومؤسساته وافراده وتستغل هذه الميزة للمخادعه حتى اصبحت احدى أساليب الاحتيال والتي تستخدم في محاولة سرقة البيانات المهمه والشخصية للمستخدمين ، والتي يتلقى المستخدمون رسالة البريد الالكتروني على بريدهم من مختلف عناوين وهمية ومخادعه حيث تبدو وكأنها حقيقه وتعود الى الاسماء التجارية والاعمال المشروعه والهدف لسرقة المعلومات للضحية. وهذه الطريقة تعتبر خطراً على المستخدمين وخصوصيتهم وبياناتهم المهمه والسرية والتي ايضاً تستخدم في عمليات الهجوم على المنشات وايجاد الثغرات. ومنذ نشأة هذه المشكلة يعمل الباحثون بشكل مستمر وقوي على إيجاد الحلول لها ومن استخدام أدوات الكشف عن هذه الرسائل ونوعها وتطوير القائم منها والتي يعتبر تصنيف هذه الرسائل على انها حقيقه او وهمية أحد اهم الطرق المتبعة في تنقيب البيانات والتي يمكن استخدام مزاياها بشكل فعال ودقيق للكشف عن الرسائل البريدية المخادعة. ومن خلال هذه الدراسة ، تم بحث المشكلة بشكل دقيق وايجاد تحسين على اداء ودقة الخوارزميات المستخدمة في هذا المكان بحيث اقترحنا طريقة جديده في اختيار المزايا والصفات التي يتميز بها البريد الالكتروني المخادع وتجهيزها لهذه الخوارزميات بالطريقة الآلية من خلال الدمج بين طريقيتن باختيار المزايا للايميلات وتصنيفها وهذه الطريقيتن هي Information Gain and Genetic Algorithm وتم تنفيذ الاختبار باستخدام البرمجة بلغة الجافا واستدعاء مكتبات اداة الويكا، على قاعدة بيانات من 8266 ايميل بريد الكتروني ، نصفها رسائل التصيد والرسائل الصحيحه النصف الاخر وتمثل 47 ميزة من هيكل البريد الالكتروني. وأشارت النتائج بتحسين على الدقة في الكشف عن الايميلات بنسبة 98.9% على الاختبار المجرى في تطبيق طريقة الدمج بين اختيار المزايا.