A Privacy-Preserving Model Based on Data Mining for Healthcare Data Protection

الرشود, هديل بنت منصور عبد الله ; ALRashoud, Hadeel Mansour ; عمي, مريم . مشرف (2020)

رسالة ماجستير - جامعة نايف العربية للعلوم الأمنية-كلية أمن الحاسب والمعلومات، قسم أمن المعلومات، تخصص أمن المعلومات،

64 ورقة : جداول، أشكال

مستخلص المادة العلمية :

The main question of the study: How to develop an efficient and enhanced association rule hiding algorithm for privacy preserving data mining in healthcare data?

Study sub-questions: - How to select the sensitive association rules found in datasets? - How to develop an association rule hiding algorithm for protecting the sensitive association rules in healthcare datasets? - How to process data in an effective way to apply on it an association rule hiding algorithm in order to hide sensitive rules (qualitative and quantitative data)? - How to preserve the efficiency of the proposed approach while the scalability of the numeric dataset?

Main objective: This research aims to enhance the data confidentiality and its privacy in any environment.

Specific objectives: - Study the most recent association rules hiding techniques. - Enhance association rule hiding algorithm for privacy preserving data mining by sanitizing confidential centralized large datasets. - Propose a privacy preserving for centralized healthcare dataset (quantitative and qualitative) in order to apply the association rule hiding technique-based distortion technique.

Study Methodology and Tools: In this study, the experimental method was applied to proposed PPARM model in numeric and nominal data. To implement the proposed approach, we used the following tools: Microsoft Visual C# and Weka 3.8.

Results and Conclusions - In numeric data type ,the results of the hidden attributes have reached a high percentage which is 92.97%. So, as a final result, if MST_min, MCT _min are increasing then the hidden sensitive data ratio is increasing. - In nominal data type, when the candidate sensitive attribute modifying according to the value of suitable hidden ratio the final result of sensitive attribute will be sanitized and cannot be disclosure by public.

Recommendations: - Since every user has different privacy concerns, it is possible to develop privacy-oriented privacy technologies. - Improve algorithm performance for large and dynamic data sets. - computational efficiency in terms of CPU time and memory are being considered, and new techniques will be proposed to hide sensitive linking rules in maintaining data privacy. - the study might be enhanced to reach more accuracy and looking some side effects.

التساؤل الرئيس للدراسة: كيف يمكن تطوير نموذج فعال لإخفاء قواعد الارتباط للحفاظ على الخصوصية عند تنقيب البيانات لحماية بيانات الرعاية الصحية ؟

ويتفرع من التساؤل الرئيس الأسئلة الفرعية التالية: - - كيفية اختيار قواعد الارتباط الحساسة الموجودة في مجموعات البيانات؟ - كيفية تطوير نموذج إخفاء قواعد الارتباط لحماية قواعد الارتباط الحساسة في قواعد بيانات الرعاية الصحية؟ - كيفية معالجة البيانات بطريقة فعالة لتطبيق عليها نموذج إخفاء قواعد الارتباط من أجل إخفاء القواعد الحساسة (البيانات النوعية والكمية)؟ - كيفية المحافظة على كفاءة النهج المقترح مع قابلية التوسع لمجموعة البيانات الكمية؟

الهدف الرئيسي للدراسة: يهدف هذا البحث إلى تحسين سرية البيانات وخصوصيتها في أي بيئة.

الأهداف الفرعية: - - دراسة أحدث تقنيات إخفاء قواعد الارتباط. - تحسين نموذج إخفاء قواعد الارتباط للحفاظ على خصوصية من خلال إخفاء مجموعات البيانات الكبيرة المركزية السرية. - اقتراح الحفاظ على الخصوصية لمجموعة بيانات مركزية للرعاية الصحية (الكمية والنوعية) من أجل تطبيق إخفاء قواعد الارتباط القائم على تقنية التشويه.

منهج الدراسة وأدواتها: في هذه الدراسة، تم تطبيق الطريقة التجريبية على نموذج الحفاظ على الخصوصية المقترح في البيانات الكمية والنوعية. ولتنفيذ النهج المقترح تم استخدام الأدوات التالية: مايكروسوفت فيجول لغة C# ، وبرنامج ويكا 3.8.

النتائج: - في نوع البيانات الكمية، وصلت نتائج الصفات المخفية إلى نسبة عالية بلغت 92.97٪. يستنتج منه كنتيجة نهائية، إذا كان MST_min ، MCT _min في تزايد ، فإن نسبة البيانات الحساسة المخفية في ازدياد. - في نوع البيانات النوعية، عند تعديل الصفة الحساسة المرشحة وفقًا لقيمة نسبة الإخفاء المناسبة سيتم إخفاء النتيجة النهائية للصفة الحساسة ولا يمكن الكشف عنها من قبل الجمهور.

أهم التوصيات: - نظرًا لأن كل مستخدم لديه مخاوف تتعلق بالخصوصية ، فمن الممكن تطوير تقنيات خصوصية موجهة نحو الخصوصية. - تحسين أداء النموذج لمجموعات البيانات الكبيرة والديناميكية. - يتم النظر في الكفاءة الحسابية من حيث وقت وحدة المعالجة المركزية والذاكرة ، لاقتراح تقنيات جديدة لإخفاء قواعد الارتباط الحساسة في الحفاظ على خصوصية البيانات. - يمكن تحسين الدراسة للوصول إلى مزيد من الدقة والبحث عن بعض الآثار الجانبية.