An Enhanced Approach for Arabic Fake Accounts Detection in Twitter

الدوسري, خالد بن بادي عبد المحسن العماري ; Aldossary, Khalid Bady Abdulmohsen ; الشهري, حسن بن أحمد . مشرف (2020)

رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات،

85 ورقة : جداول، أشكال

مستخلص المادة العلمية :

The main question of the study: What is the enhanced approach to detect fake Arabic accounts on Twitter? Study sub-questions: 1- What are fake Twitter accounts? 2- What are the profile characteristics in fake Arabic accounts on Twitter? 3- What is the difference between real accounts and fake accounts in Twitter? 4- How can fake accounts be discovered in Twitter based on followers, tweets and hash tag? 5- What is the best algorithm to detect fake account in?

Main objective: This study aims to provide an improved approach to discover fake Arab accounts on Twitter, by reviewing the literature and previous studies related to the subject of the study, in addition to conducting an applied and practical study on the data, so based on the study questions and to answer it.

Specific objectives: 1- Identify an enhanced approach to detect fake Arabic accounts on Twitter. 2- Identify fake accounts in Twitter. 3- Identify the profile characteristics in fake Arabic accounts on Twitter 4- Identify the difference between real accounts and fake accounts in Twitter. 5- Identify how to detect fake Twitter accounts based on followers, tweets and hash tag. 6- Identify the best algorithm to detect fake account.

Samples of study: We use the data set from GitHub for Identify Fake Accounts in Twitter, which it contains 3249 rows and 52 columns.

Study Methodology and Tools: we use the data set that contains a fake and real account, also we processed the data, and then it was analyzed through three tools in data mining, which is first tool is WEKA, second the Orange, and the last one is Python, so that the Support Vector machine algorithm was applied to reach the results of the study.

Results and Conclusions: We conclude the result based on Percentage of Accuracy, we conclude the accuracy of the result in weka is 98.125%, in orange is 99.8%, and in python is 99.61%, so the best tool to find a high percentage of Accuracy to detect the fake and real account is orange.

Recommendations: 1. Read user profile information well 2. Search for a profile picture from a suspicious account. 3. Beware of friendship requests and sometimes not accepting them, which may arrive sooner than the accounts. 4. Don't open messages with links 5. Make a ban and report the suspicious account. 6. The presence of security tools and nuclei in social media accounts. 7. Work to spread cultural and security awareness of the dangers of suspicious accounts. 8. Working to review the regulations and laws for owning fake accounts and deceiving people about them. 9. The need for people to have sufficient awareness to deal with accounts and distinguish between real and fake accounts, with the ability to make the right decisions at the right time. 10. The necessity to adhere to the necessary procedures and instructions to prevent the dangers of false accounts. Work on holding training programs to increase skills and competencies to distinguish between real accounts and fake accounts

التساؤل الرئيس للدراسة: ما هو النهج المحسن لاكتشاف الحسابات العربية المزيفة على تويتر؟ ويتفرع من التساؤل الرئيس الأسئلة الفرعية التالية: 1- ما هي حسابات تويتر المزيفة؟ 2- ما هي خصائص البروفايل في الحسابات العربية المزيفة على تويتر؟ 3- ما الفرق بين الحسابات الحقيقية والحسابات المزيفة في تويتر؟ 4- كيف يمكن اكتشاف الحسابات المزيفة في تويتر بناءً على المتابعين والتغريدات وعلامة التجزئة؟ 5- ما هي أفضل خوارزمية للكشف عن حساب مزيف؟

الهدف الرئيسي للدراسة: تهدف هذه الدراسة إلى توفير منهج محسن لاكتشاف الحسابات العربية المزيفة على تويتر، من خلال مراجعة الأدبيات والدراسات السابقة المتعلقة بموضوع الدراسة، بالإضافة إلى إجراء دراسة تطبيقية وعملية على البيانات، بناءً على أسئلة الدراسة والإجابة عليه

الأهداف الفرعية التالية: 1- التعرف على طريقة محسنة لاكتشاف الحسابات العربية المزيفة على تويتر. 2- تحديد الحسابات المزيفة في تويتر. 3- التعرف على خصائص البروفايل في الحسابات العربية المزيفة على تويتر 4- تحديد الفرق بين الحسابات الحقيقية والحسابات المزيفة في تويتر. 5- تحديد كيفية اكتشاف حسابات تويتر المزيفة بناءً على المتابعين والتغريدات وعلامة التجزئة. 6- تحديد أفضل خوارزمية لكشف حساب مزيف.

عينة الدراسة: نستخدم مجموعة البيانات من موقع GitHub لتحديد الحسابات المزيفة في تويتر، والتي تحتوي على 3249 صفًا و52 عمودًا.

منهج الدراسة وأدواتها: نستخدم مجموعة البيانات التي تحتوي على حساب مزيف وحقيقي، كما قمنا بمعالجة البيانات، ومن ثم تم تحليلها من خلال ثلاث أدوات في استخراج البيانات، وهي الأداة الأولى هي WEKA، وثانيًا Orange ، والأخيرة هي Python، بحيث تم تطبيق خوارزمية آلة support Vector machine للوصول إلى نتائج الدراسة.

النتائج: نستنتج نتيجة هذه الدراسة في هذه النقاط: ان النتيجة بناءً على النسبة المئوية للدقة، نستنتج أن دقة النتيجة في weka هي 98.125 ٪ ، و Orange 99.8 ٪ ، و Python 99.61 ٪ ، لذا فإن أفضل أداة حصلت على نسبة عالية من الدقة لاكتشاف حساب مزيف وحقيقي هي Orange

أهم التوصيات: 1. قراءة معلومات ملف تعريف المستخدم بشكل جيد 2. ابحث عن صورة ملف شخصي من حساب مريب. 3. احذر من طلبات الصداقة وأحيانًا عدم قبولها والتي قد تصل في وقت اسرع من الحسابات الاخرى. 4. لا تفتح الرسائل ذات الروابط 5. فرض حظر والإبلاغ عن الحساب المريب. 6. وجود أدوات أمنية في حسابات التواصل الاجتماعي. 7. العمل على نشر الوعي الثقافي والأمني بمخاطر الحسابات المشبوهة. 8. العمل على مراجعة اللوائح والقوانين الخاصة بامتلاك حسابات مزيفة وخداع الناس بشأنها. 9. ضرورة أن يكون لدى الناس وعي كاف للتعامل مع الحسابات والتمييز بين الحسابات الحقيقية والمزيفة، مع القدرة على اتخاذ القرارات الصحيحة في الوقت المناسب. 10. ضرورة الالتزام بالإجراءات والتعليمات اللازمة لمنع أخطار الحسابات الزائفة. 11. العمل على عقد برامج تدريبية لزيادة المهارات والكفاءات للتمييز بين الحسابات الحقيقية والحسابات المزيفة.