2-5-4 حساسيت، ميزان مثبت واقعي، ياد آوري47
2-5-5 ويژگي، ميزان منفي واقعي48
2-5-6 حساسيت:48
2-5-7دقت49
2-5-8 معيار F:49
2-6 پژوهشهاي انجام شده در اين زمينه:50
2-6-1 پژوهش اول: کشف تقلب در سيستمهاي ماليبا استفاده از دادهکاوي51
2-6-2 پژوهش دوم: کشف تقلب در کارت اعتباري با استفاده از شبکه عصبي و بيزين53
2-6-3پژوهش سوم: شناسايي تقلب بيمه با استفاده از تکنيکهاي دادهکاوي56
2-6-4 پژوهش چهارم: استفاده از الگوريتم ژنتيک براي تشخيص تست نفوذ62
2-6-5 پژوهش پنجم: شناسايي ترافيک غيرنرمال در شبکه با الگوريتم خوشه بندي65
3-1 روش تحقيق71
3-2 دادههاي آموزشي و تست:73
3-2-1 ويژگيهاي دادهها73
3-2-2 ويژگيهاي اساسي مجموعه دادهها:73
4-1 الگوريتمهاي مدل بيزين و ارزيابي آنها83
4-2 مدل کاهل92
4-3 شبکه عصبي99
4-4 مدل قانون محور108
4-5 درخت تصميم118
4-6 ماشين بردار پشتيبان130
فصل پنجم139
5-1 مقدمه140
5-2 مزايا141
5-3 پيشنهادات141
فصل ششم143
فهرست منابع144
پيوستها148
پيوست الف -مجموعه داده نوع اول:148
پيوست ب-مجموعه داده نوع دوم153
پيوست ج-نوع داده مجموعه سوم:156
پيوست د-مجموعه داده نوع چهارم161
پيوست ه -مجموعه داده نوع پنجم190
فهرست جداول
جدول‏2-1: تعريف معيارها45
جدول‏2-2: ماتريس Confusion46
جدول‏2-3:معيارهاي مختلف ارزيابي وفرمول آنها‎‎50
جدول‏2-4: مقايسه نتيجه بين شبکهعصبي وشبکه بيزين56
جدول‏2-5: داده براي دسته بندي بيزين‎‎59
جدول‏2-6: داده براي دستهبندي بيزين‎‎60
جدول‏2-7: ارزيابي درخت تصميم‎‎62
جدول‏2-11: ارزيابي با استفاده ازخوشهبندي69
جدول‏3-1 :ويژگيهاي اساسي استخراج شده ازارتباطTCP74
جدول‏3-2 :ويژگي هاي استخراجي ازارتباطTCP74
جدول‏3-3: ويژگيهاي استخراج شده ازپنجره76
جدول‏4-2: ماتريس Confusion الگوريتم Kernel naive Baysian 83
جدول‏4-1: معيارهاي ارزيابي ونتايج الگوريتم Kernel naive Baysian 84
جدول‏4-4: ماتريس Confusion الگوريتم Naive Baysian84
جدول‏4-3: معيارهاي ارزيابي ونتايج الگوريتم Naive Baysian 84
جدول‏4-6: ماتريس Confusion الگوريتم Waode85
جدول‏4-5: معيارهاي ارزيابي ونتايج الگوريتم Waode85
جدول‏4-8: ماتريس Confusion الگوريتم Aode85
جدول‏4-7: معيارهاي ارزيابي و نتايج الگوريتم Aode86
جدول‏4-10: ماتريسConfusion الگوريتم Aodesr86
جدول‏4-9: معيارهاي ارزيابي ونتايج الگوريتم Aodesr 86
جدول‏4-12: ماتريسConfusion الگوريتم Bayesenet87
جدول‏4-11: معيارهاي ارزيابي ونتايج الگوريتم Bayesenet87
جدول‏4-13: معيارهاي ارزيابي ونتايج الگوريتم HNB88
جدول‏4-14: ماتريسConfusion الگوريتم HNB 88
جدول‏4-16: ماتريس Confusion الگوريتم Dmnbtext88
جدول‏4-15: معيارهاي ارزيابي ونتايج الگوريتم Dmnbtext89
جدول‏4-18: ماتريسConfusion الگوريتم BaysianLogic Regression89
جدول‏4-17: معيارهاي ارزيابي ونتايج الگوريتم BaysianLogic Regression89
جدول‏4-20: ماتريسConfusion الگوريتم IB193
جدول‏4-19: معيارهاي ارزيابي و نتايج الگوريتم IB1 93
جدول‏4-21: معيارهاي ارزيابي ونتايج الگوريتم IBK93
جدول‏4-22: ماتريس Confusion الگوريتم IBK94
جدول‏4-24: ماتريس Confusion الگوريتم LWL94
جدول‏4-23: معيارهاي ارزيابي ونتايج الگوريتم LWL94
جدول‏4-26: ماتريسConfusion الگوريتم KSTAR95
جدول‏4-25: معيارهاي ارزيابي ونتايج الگوريتم KSTAR95
جدول‏4-27: معيارهاي ارزيابي ونتايج الگوريتم KNN95
جدول‏4-28: ماتريس Confusion الگوريتم KNN96
جدول‏4-29: معيارهاي ارزيابي ونتايج شبکه MLP101
جدول‏4-30: ماتريس ConfusionشبکهMLP 101
جدول‏4-32: ماتريس Confusionشبکه Perceptrons102
جدول‏4-31: معيارهاي ارزيابي ونتايج شبکه Perceptrons 103
جدول‏4-34: ماتريسConfusion الگوريتم RBF104
جدول‏4-33: معيارهاي ارزيابي ونتايج الگوريتم RBF104
جدول‏4-36:ماتريسConfusion الگوريتم Neural net105
جدول‏4-35:معيارهاي ارزيابي ونتايج الگوريتم Neural net105
جدول‏4-38: ماتريس Confusion الگوريتم Conjuctive rule108
جدول‏4-37: معيارهاي ارزيابي ونتايج الگوريتم Conjuctive rule108
جدول‏4-39: معيارهاي ارزيابي ونتايج الگوريتم decision table109
جدول‏4-40: ماتريسConfusion الگوريتم decision table109
جدول‏4-41 :معيارهاي ارزيابي ونتايج الگوريتم DTNB110
جدول‏4-42: ماتريسConfusion الگوريتم DTNB110
جدول‏4-44: ماتريس Confusion الگوريتم JRIP110
جدول‏4-43: معيارهاي ارزيابي ونتايج الگوريتم JRIP111
جدول‏4-45: معيارهاي ارزيابي ونتايج الگوريتم ONER111
جدول‏4-46: ماتريس Confusion الگوريتم ONER111
جدول‏4-47: معيارهاي ارزيابي ونتايج الگوريتم PRSIM112
جدول‏4-48: ماتريس Confusion الگوريتم PRSIM112
جدول‏4-49: معيارهاي ارزيابي ونتايج الگوريتم RIDOR112
جدول‏4-50: ماتريسConfusion الگوريتم RIDOR113
جدول‏4-51: معيارهاي ارزيابي ونتايج الگوريتم RULE Induction113
جدول‏4-52: ماتريسConfusion الگوريتم RULE Induction113
جدول‏4-53: معيارهاي ارزيابي ونتايج الگوريتم RULE Induction single attribute114
جدول‏4-54: ماتريسConfusion الگوريتم RULE Induction single attribute114
جدول‏4-55: معيارهاي ارزيابي ونتايج الگوريتم TREE by rule114
جدول‏4-56:ماتريس Confusion الگوريتم TREE by rule115
جدول‏4-57: معيارهاي ارزيابي ونتايج الگوريتم part115
جدول‏7-58: ماتريسConfusion الگوريتم part115
جدول‏4-59: معيارهاي ارزيابي ونتايج الگوريتم CHAID119
جدول‏4-60: ماتريسConfusion الگوريتم CHAID119
جدول‏4-61: معيارهاي ارزيابي ونتايج الگوريتم DECISION TREE 119
جدول‏4-62: ماتريس Confusion الگوريتم DECISION TREE120
جدول‏4-63: معيارهاي ارزيابي ونتايج الگوريتم J48120
جدول‏4-64: ماتريسConfusion الگوريتم J48120
جدول‏4-65: معيارهاي ارزيابي ونتايج الگوريتم FT121
جدول‏4-66: ماتريس Confusion الگوريتم FT 121
جدول‏4-68: ماتريس Confusion الگوريتم ID3121
جدول‏4-67: معيارهاي ارزيابي ونتايج الگوريتم ID3122
جدول‏4-69: معيارهاي ارزيابي ونتايج الگوريتم LAD122
جدول‏4-70: ماتريس Confusion الگوريتم LAD122
جدول‏4-71: معيارهاي ارزيابي ونتايج الگوريتم ADT123
جدول‏4-72: ماتريس Confusion الگوريتم ADT123
جدول‏4-73: معيارهاي ارزيابي ونتايج الگوريتم BF123
جدول‏4-74: ماتريس Confusion الگوريتم BF123
جدول‏4-75:معيارهاي ارزيابي ونتايج الگوريتم LMT124
جدول‏4-76:ماتريسConfusion الگوريتم LMT124
جدول‏4-77: معيارهاي ارزيابي ونتايج الگوريتم J48graft124
جدول‏4-78: ماتريس Confusion الگوريتم J48graft125
جدول‏4-79: معيارهاي ارزيابي ونتايج الگوريتم NB 125
جدول‏4-80:ماتريس Confusion الگوريتم NB125
جدول‏4-81:معيارهاي ارزيابي ونتايج الگوريتم REEPTREE 126
جدول‏4-82: ماتريس Confusion الگوريتم REEPTREE126
جدول‏4-83: معيارهاي ارزيابي ونتايج الگوريتم Simplecart126
جدول‏4-84:ماتريس Confusion الگوريتم Simplecart127
جدول‏4-85:معيارهاي ارزيابي ونتايج روش Libsvm130
جدول‏4-86: ماتريسConfusion روش Libsvm130
جدول‏4-87: معيارهاي ارزيابي ونتايج روش Support vector machine131

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

جدول‏4-88: ماتريس Confusion روش Support vector machine 131
جدول‏4-89: معيارهاي ارزيابي ونتايج روش Support vector machine(linear)132
جدول‏4-90: ماتريسConfusion روش Support vector machine(linear)132
جدول‏4-91: معيارهاي ارزيابي ونتايج روش Speggeous132
جدول‏4-92: ماتريسConfusion روش Speggeous133
جدول‏4-93: معيارهاي ارزيابي ونتايج روش W-svm133
جدول‏4-94: ماتريس Confusion روش W-svm133
جدول‏4-95: معيارهاي ارزيابي ونتايج روش Fast large134
جدول‏4-96: ماتريس Confusion روش Fast large134

فهرست اشکال و نمودارها

شکل‏2-1: معماري يک نمونه سيستم دادهکاوي‎‎12
شکل‏2-2: Wx,yوزن يال بينXو Yاست.15
شکل‏2-3: درخت تصميم گيري‎‎‎‎17
شکل‏2-4: شبکه بيزين‎‎21
شکل‏2-5: شبه کد الگوريتم توالي پوشش26
شکل‏2-6: شبکه کد الگوريتم IB329
شکل‏2-7: شبکه کد مربوطذ به الگوريتمKDD 31
شکل‏2-8: انواع سيستم هاي تشخيص تقلب38
شکل‏2-9: معماري يک سيستم تشخيص نفوذ40
شکل‏2-10: چارچوب کلي دادهکاوي براي کشف تقلب‎‎52
شکل‏2-11: مقايسه خروجيهابااستفاده ازنمودارROC55
شکل‏2-12: الگوريتم استخراج شده ازدرخت تصميم61
شکل‏2-13: عملکرد الگوريتم ژنتيک‎63
شکل‏2-14: قاعده استخراج شده ازالگورِيتم ژنتيک‎‎64
شکل‏2-15: توابع مربوط به الگوريتم ژنتيک ومقداردهي آنها64
شکل‏2-16: معماري الگوريتم ژنتيک براي تست نفوذ‎‎65
شکل‏2-17: خوشه بندي برايk=2‎‎‎67
شکل‏2-18: شناسايي دادهغيرنرمال‎‎68
شکل‏2-19: ترکيب دستهبندي وشناسايي غيرنرمال68
شکل‏3-1: معماري پيشنهاد داده شده براي تشخيص نفوذ باروش مبتني بردادهکاوي72
شکل‏3-2: مدلسازي الگوريتم شبکهعصبي با نرمافزارRapidminer78
شکل‏3-3: مدلسازي الگوريتم مدلبيزين با نرمافزارRapidminer78
شکل‏3-4: مدلسازي الگوريتم درخت تصميم با نرمافزارRapidminer79
شکل‏3-5: مدلسازي الگوريتم مدلقانونمحوربا نرمافزارRapidminer79
شکل‏3-6: مدلسازي الگوريتم مدل بردارپشتيبان با نرمافزارRapidminer80
شکل‏3-7: مدلسازي الگوريتم مدل کاهل بانرم افزارRapidminer80
شکل‏3-8: نمونهاي ازخروجي نرمافزار Rapidminerباپارامترهاي مختلف ارزيابي81
شکل‏4-1: نمودار ارزيابي الگوريتمهاي مدل بيزين برحسب پارامتر درستي90
شکل‏4-2: نمودار ارزيابي الگوريتمهاي مدل بيزين برحسب پارامتر دقت90
شکل‏4-3: نمودار ارزيابي الگوريتمهاي مدل بيزين بر حسب پارامتر يادآوري91
شکل‏4-4: نمودار ارزيابي الگوريتمهاي مدل بيزين برحسب پارامتر F91
شکل‏4-5: نمودار ارزيابي الگوريتمهاي مدل بيزين برحسب پارامترهاي مختلف92
شکل‏4-6: نمودار ارزيابي الگوريتمهاي مدل کاهل برحسب پارامتر درستي96
شکل‏4-7: نمودار ارزيابي الگوريتمهاي مدل کاهل برحسب پارامتر دقت97
شکل‏4-8: نمودار ارزيابي الگوريتمهاي مدل کاهل برحسب پارامتر يادآوري97
شکل‏4-9: نمودار م ارزيابي الگوريتمهاي مدل کاهل برحسب پارامتر F98
شکل‏4-10: نمودار مربوط به ارزيابي الگوريتمهاي مدل کاهل برحسب پارامترهاي مختلف98
شکل‏4-11: نمونه اي ازشبکهMLP100
شکل‏4-12: عملکرد شبکه پرسپتون102
شکل‏4-13: نمونه اي ازشبکهRBF103
شکل‏4-14:نمودار ارزيابي مدلهاي شبکه عصبي برحسب پارامتر درستي105
شکل‏4-15: نمودار ارزيابي مدلهاي شبکه عصبي برحسب پارامتر دقت106
شکل‏4-16: نمودار ارزيابي مدلهاي شبکه عصبي برحسب پارامتر يادآوري106
شکل‏4-17: نمودار ارزيابي مدلهاي شبکه عصبي برحسب پارامتر F107
شکل‏4-18: نموداره ارزيابي مدلهاي شبکه عصبي برحسب پارامتر مختلف107
شکل‏4-19:نمودار ارزيابي الگوريتمهاي مدل قانونمحور برحسب پارامتر درستي116
شکل‏4-20: نمودار ارزيابي الگوريتمهاي مدل قانونمحور برحسب پارامتر دقت116
شکل‏4-21: نمودار ارزيابي الگوريتمهاي مدل قانونمحور برحسب پارامتر يادآوري117
شکل‏4-22: نمودار ارزيابي الگوريتمهاي مدل قانونمحور برحسب پارامتر F117
شکل‏4-23: نمودار ارزيابي الگوريتمهاي مدل قانون محور برحسب پارامتر مختلف118
شکل‏4-24:نمودار ارزيابي الگوريتمهاي مدل درخت برحسب پارامتر درستي127
شکل‏4-25: نمودار ارزيابي الگوريتمهاي مدل درخت برحسب پارامتر دقت128
شکل‏4-26: نمودار ارزيابي الگوريتمهاي مدل درخت برحسب پارامتر يادآوري128
شکل‏4-27: نمودار ارزيابي الگوريتمهاي مدل درخت برحسب پارامتر F129
شکل‏4-28: نمودار ارزيابي الگوريتمهاي مدل درخت برحسب پارامتر مختلف129
شکل‏4-29: نمودار ارزيابي روشهاي مختلف ماشين بردارپشتيبان برحسب پارامتر درستي135
شکل‏4-30: نمودار ارزيابي روشهاي مختلف ماشين بردارپشتيبان برحسب پارامتر يادآوري135
شکل‏4-31: نمودار ارزيابي روشهاي مختلف ماشين بردارپشتيبان برحسب پارامتر F136
شکل‏4-32: نمودار ارزيابي روشهاي مختلف ماشين بردارپشتيبان برحسب پارامتر دقت136
شکل‏4-33: نمودار ارزيابي روشهاي مختلف ماشين بردارپشتيبان برحسب پارامتر مختلف 137
شکل 4-34: نمودار مربوط به مقايسه بين همه الگوريتمها بر حسب پارامترهاي مختلف 137
فصل اول
مقدمه و کليات تحقيق
1-1 مقدمه
از آنجايي که از نظر تکنيکي ايجاد سيستمهاي کامپيوتري بدون نقاط ضعف و شکست امنيتي عملا غير ممکن است. تشخيص نفوذ در سيستمهاي کامپيوتري با اهميت خاصي دنبال ميشود. سيستمهاي تشخيص نفوذ سختافزار يا نرمافزاري است که کار نظارت بر شبکه کامپيوتري را در مورد فعاليتهاي مخرب و يا نقص سياستهاي مديريتي و امنيتي را انجام ميدهد و گزارشهاي حاصله را به بخش مديريت شبکه ارائه ميدهد‎[1]. سيستمهاي تشخيص نفوذ وظيف شناسايي و تشخيص هر گونه استفاده غير مجاز به سيستم، سوء استفاده و يا آسيب رساني توسط هر دودسته کاربران داخلي و خارجي را بر عهده دارند. هدف اين سيستمها جلوگيري از حمله نيست و تنها کشف و احتمالا شناسايي حملات و تشخيص اشکالات امنيتي در سيستم يا شبکهکامپيوتري و اعلام آن به مدير سيستم است. عموما سيستمهاي تشخيص نفوذ در کنار ديوارهاي آتش و بصورت مکمل امنيتي براي آنها مورد استفاده قرار ميگيرد. سيستم هاي تشخيص نفوذ ستني نميتوانند خود را با حملات جديد تطبيق دهند از اين رو امروزه سيستم هاي تشخيص نفوذ مبتني بر دادهکاوي مطرح گرديدهاند‎[1]. مشخص نمودن الگوهاي در حجم زياد داده، کمک بسيار بزرگي به ما ميکند. روشهاي دادهکاوي با مشخص نمودن يک برچسب دودويي (بسته نرمال، بسته غيرنرمال) و همچنين مشخص نمودن ويژگيها و خصيصه با الگوريتمهاي دسته بندي ميتوانند داده غيرنرمال تشخيص دهند. از همين رو دقت و درستي سيستم هاي تشخيص نفوذ افزايش يافته و در نتيجه امنيت شبکه بالا ميرود‎[1].
در اين پاياننامه سعي شده است با استفاده از روشهاي مبتني بر دادهکاوي سيتم هاي تشخيص نفوذ پيشنهاد کنيم که از اين روشها براي شناسايي و کشف حملات استفاده ميکنند. در اين روش ما تمامي الگوريتمهاي موجود را شبيهسازي نموده و در خاتمه بهترين الگوريتم را پيشنهاد مينماييم. نوآوري اصلي در اين پاياننامه، استفاده از الگوريتمهاي مدل کاهل و مدل قانونمحور در دادهکاوي است که تاکنون براي سيستمهاي تشخيصنفوذ استفاده نشده است. همچنين استفاده از تمام الگوريتمهاي موجود در روشهاي دستهبندي است که در نرم افزار WEKA و Rapidminer موجود است[67]. پيشنهاد 5 نمونه داده که از داده اوليه استخراج شده و براي مدلهاي مختلف و الگوريتمها بهترين جواب را ميدهد از نوآوري اين پاياننامه است. استخراج 5 نمونه داده وقت بسيار زيادي به خود اختصاص داده وهمه الگوريتمهاي مختلف موجود در مدلهاي دستهبندي با مجموعه دادههاي مختلف شبيهسازي و اجرا شدند که در نهايت 5 نمونه داده اوليه پيشنهاد نمودهايم.
1-2 بيان مسئله
در دنياي امروز، کامپيوتر و شبکههاي کامپيوتري متصل به اينترنت نقش عمدهاي در ارتباطات و انتقال اطلاعات ايفا ميکند. در اين بين افراد سودجو با دسترسي به اطلاعات مهم مراکز خاص يا اطلاعات افراد ديگر و با قصد اعمال نفوذ يا اعمال فشار و يا حتي به هم ريختن نظم سيستمها، به سيستم هاي کامپيوتري حمله ميکنند. بنابراين لزوم حفظ امنيت اطلاعاتي و حفظ کارآيي در شبکههاي کامپيوتري که با دنياي خارج ارتباط دارند، کاملا محسوس است.
مكانيزم‌هاي امنيتي به 2 گروه كلي محافظتي و مقابله‌اي تقسيم‌بندي مي‌شوند. مكانيزم‌هاي محافظتي سعي مي‌كنند از اطلاعات و سيستم در مقابل حملات محافظت كنند. مكانيزم‌هاي مقابله‌اي هم براي مقابله با حمله تدارك ديده شده‌اند.‎[1] سيستم‌هاي تشخيص نفوذ مطابق تعريف مؤسسه ملي استانداردها و تكنولوژي‌هاي آمريكا، فرايندي هستند كه كار نظارت بر رويدادهايي كه در شبكه و سيستم رخ مي‌دهد و همچنين كار تحليل رويدادهاي مشكوك را براي به‌دست آوردن نشانه نفوذ، بر عهده دارند.
1-3 اهميت و ضرورت تحقيق
هدف از اين پاياننامه استفاده از روشهاي مبتني بر دادهکاوي براي تشخيص نفوذ است زيرا حملات همواره بروز ميشوند و سيستمهاي تشخيص نفوذ ستني نميتوانند اين حملات شناسايي کنند. وقتي نفوذ اتفاق ميافتد مهمترين کار شناسايي است. رخداد مربوط به نفوذ در هر زمان مرتبط به الگويي ازاتفاقات است که در گذشته رخ داده است. اين دادههاي تاريخي منبع بسيار مهمي از صفات هستند که نياز هست تا بطور موثر علامت و نشانه هاي نفوذ در مجموعه دادهها مشخص شود. دادهکاوي با كشف الگوهاي مناسب از ميان دادههاي قبلي به روند ساخت اين مدل ها كمك شاياني ميكند. در اين روش مجموعهاي از قانونهاي دستهبندي از دادههاي شبکه بدست ميآيد. اين قانونها توانايي تعيين رفتار عادي از غير عادي را دارا ميباشند. اين پاياننامه با استفاده از مجموعه داده DARPA مورد ارزيابي قرار گرفته است. هدف اصلي اين پاياننامه معرفي بهترين الگوريتم با توجه به مجموعه دادهها است. که بتواند بسته هاي عادي را از غير عادي تشخيص دهد. .نوآوري اصلي در پاياننامه، استفاده از الگوريتمهاي مدل کاهل و مدل قانونمحور است که تاکنون براي سيستمهاي تشخيصنفوذ استفاده نشده است. همچنين استفاده از تمام الگوريتمهاي مجود در روشهاي دستهبندي است که در نرم افزار WEKA و Rapidminer موجود است. و پيشنهاد 5 نمونه داده که از داده اوليه استخراج شده و براي مدلهاي مختلف و الگوريتمها بهترين جواب را ميدهد. استخراج 5 نمونه داده وقت بسيار زيادي به خود اختصاص داده وهمه الگوريتمهاي مختلف موجود در مدلهاي دستهبندي با مجموعه دادههاي مختلف شبيهسازي و اجرا شدند که در نهايت 5 نمونه داده اوليه پيشنهاد نمودهايم.
1-4 اهداف تحقيق
شناسايي داده نرمال1 و غيرنرمال2 با استفاده از روشهاي دادهکاوي
استخراج مجموعه دادههاي متعدد براي ارزيابي بهتر شبيهسازي

بررسي تمام روشهاي موجود در دادهکاوي براي تشخيص نفوذ
مقايسه بين تمام الگوريتمهاي موجود در هر مدل
عدم روشي موجود براي بررسي تمام الگوريتمها و مقايسه آنها
استفاده از پارامترهاي متعدد ارزيابي
1-5 تعاريف و اختصار
نفوذ
نفوذ3 به عملياتي اطلاق مي‌شود كه تلاش ميكند براي دسترسي غير مجاز به شبكه يا سيستم هاي كامپيوتري از مكانيسم امنيتي سيستم عبور كند. اين عمليات توسط نفوذ كننده گان خارجي و داخلي انجام ميشود.
سيستم هاي تشخيص نفوذ
سيستم تشخيص نفوذ4، برنامه‌اي ‌است كه با تحليل ترافيك جاري شبكه يا تحليل تقاضاها سعي در شناسايي فعاليتهاي نفوذگر مي‌نمايد و در صورتي كه تشخيص داد ترافيك ورودي به يك شبكه يا ماشين، از طرف كاربر مجاز و عادي نيست بلكه از فعاليتهاي يك نفوذگر ناشي مي‌شود، به نحو مناسب به مسئول شبكه هشدار داده يا واكنش خاص نشان مي‌دهد.
دادهکاوي
داده کاوي5 عبارتست از فرآيند يافتن دانش از مقادير عظيم داده هاي ذخيره شده در پايگاه داده، انباره داده ويا ديگر مخازن اطلاعات
مدل بيزين
مدل بيزين6 نوعي از يادگيري با نظارت7 است که عضويت در يک دسته را با توجه به مقدار احتمال اينکه يک رکورد به کدام دسته تعلق دارد مشخص مينمايد.
شبکه عصبي
شبکه عصبي8 نوعي از يادگيري با نظارت است که از مجموعه اي پيوسته از واحدهاي ورودي خروجي وزندار تشکيل شده است. در طي مراحل يادگيري شبکه وزنها را بطور دقيق مقدار دهي مينمايد يا عضويت هر داده ورودي در دسته را مشخص نمايد.
درخت تصميم
درخت تصميم9 نوعي از يادگيري با نظارت است که از ساختاردرخت براي مشخص کردن عضويت در دسته استفاده ميکند. برگها نوع دسته ها و نود مياني حالات مختلف رسيدن تا جواب نهايي را نشان ميدهد.
مدل کاهل
مدل کاهل10 نوعي از يادگيري با نظارت است که روش مبتني بر نمونه نيز ناميده ميشود. در واقع مدلي از دادهها ساخته نميشود و يادگيري تا زمان دسته بندي به تعويق ميافتد و زمان زيادي صرف دستهبندي ميشود.
ماشين بردار پشتيبان
ماشين بردار پشتيبان11 نوعي از يادگيري با نظارت است که هم در دادههاي خطي و هم غير خطي کاربرد دارد. مبناي آن استفاده از دادههاي خطي است و دادههاي غير خطي را به خطي تبديل مينمايد.
مدل قانونمحور
مدل قانونمحور12 نوعي از يادگيري با نظارت است است که نتايج بصورت قوانين if-then نشان ميدهد. بخش بعد از if شرطها و بخش then جواب نهايي مشخص مينمايد.
1-6 ساختار پاياننامه
ساختار پاياننامه در پنج فصل بصورت زير ساماندهي شده است:
در فصل اول به شرح کليات تحقيق از جمله تبين موضوع تحقيق، ضرورت انجام طرح، اهداف و فرضيات مسئله ميپردازيم. در فصل دوم به ادبيات، مباني نظري و پيشينه تحقيق پرداخته شده است. سپس روش انجام طرح بصورت تفصيلي در فصل سوم شرح داده شده است. در فصل چهارم روش پيشنهادي پيادهسازي شد و نتايج حاصل مورد ارزيابي قرار گرفت. در آخرين فصل از فصول پنجگانه نتيجه تحقيق و پيشنهاداتي براي کارهاي آينده عنوان شده است.
فصل دوم
ادبيات و پيشينه تحقيق
2-1 دادهکاوي
دادهکاوي را مي توان حاصل سير تکاملي طبيعي تکنولوژي اطلاعات دانست، که اين سير تکاملي ناشي از يک سير تکاملي در صنعت پايگاهداده ميباشد. نظير عمليات جمعآوري دادهها وايجاد پايگاه داده، مديريت داده و تحليل و فهم دادهها.
دراينجا تعريفي از دادهکاوي ارائه ميدهيم:
“دادهکاوي عبارتست از فرآيند يافتن دانش از مقادير عظيم دادههاي ذخيره شده در پايگاهداده، انباره داده ويا ديگر مخازن اطلاعات”[2].
بر اساس اين ديدگاه يک سيستم دادهکاوي به طور نمونه داراي اجزاء اصلي زير است که شکل 2-1 بيانگر معماري سيستم است.
بنابراين دادهکاوي به عنوان يکي از شاخههاي پيشرو در صنعت اطلاعات مورد توجه قرار گرفته و به عنوان يکي از نويد بخشترين زمينههاي توسعه بين رشته اي در صنعت اطلاعات است.
2-1-1دستهبندي13
در مسائل دستهبندي هدف شناسايي ويژگيهايي است که گروهي را که هر مورد به آن تعلق دارد را نشان دهند. از اين الگو ميتوان هم براي فهم دادههاي موجود و هم پيشبيني نحوه رفتار داده جديد استفاده کرد.
شکل 2-1: معماري يک نمونه سيستم دادهکاوي‎[3]

دادهکاوي مدلهاي دستهبندي را با بررسي دادههاي دستهبندي شده قبلي ايجاد ميکند و يک الگوي پيشبيني کننده را بصورت استقرايي ايجاد مينمايد. اين موارد موجود ممکن است از يک پايگاه داده تاريخي آمده باشند‎[5].
2-2مدلها و الگوريتمهاي دادهکاوي
در اين بخش قصد داريم مهمترين الگوريتمها و مدلهاي دادهکاوي را بررسي کنيم. بسياري از محصولات تجاري دادهکاوي از مجموعه از اين الگوريتم ها استفاده ميکنند و معمولا هر کدام آنها در يک بخش خاص قدرت دارند و براي استفاده از يکي از آنها بايد بررسي هاي لازم در جهت انتخاب متناسبترين محصول توسط گروه متخصص در نظر گرفته شود.نکته مهم ديگر اين است که در بين اين الگوريتم ها و مدل ها ، بهترين وجود ندارد و با توجه به دادهها و کارايي مورد نظر بايد مدل انتخاب گردد.
2-2-1 شبکههاي عصبي14
هر شبکه عصبي شامل يک لايه ورودي15ميباشد که هر گره در اين لايه معادل يکي از متغيرهاي پيشبيني ميباشد. گرههاي موجود در لايه مياني به تعدادي گره در لايه نهان16وصل ميشوند. هر گره ورودي به همه گرههاي لايه نهان وصل ميشود.
گرههاي موجود در لايه نهان ميتوانند به گرههاي يک لايه نهان ديگر وصل شوند يا ميتوانند به لايه خروجي17وصل شوند.
لايه خروجي شامل يک يا چند متغير خروجي مي باشد
هر يال که بين نود هايX,Y ميباشد داراي يک وزن است که با Wx,y نمايش داده ميشود. اين وزن ها در محاسبات لايههاي مياني استفاده ميشوند و طرز استفاده آنها به اين صورت است که هر نود در لايههاي مياني (لايههاي غير از لايه اول) داراي چند ورودي از چند يال مختلف ميباشد که همانطور که گفته شد هر کدام يک وزن خاص دارند.
هر نود لايه مياني ميزان هر ورودي را در وزن يال مربوطه آن ضرب ميکند و حاصل اين ضربها را با هم جمع ميکند و سپس يک تابع از پيش تعيين شده (تابع فعالسازي) روي اين حاصل اعمال ميکند و نتيجه را به عنوان خروجي به نودهاي لايه بعد ميدهد.
وزن يالها پارامترهاي ناشناختهاي هستند که توسط تابع آموزش 18و دادههاي آموزشي که به سيستم داده ميشود تعيين ميگردند.
تعداد گرهها و تعداد لايههاي نهان و نحوه وصل شدن گرهها به يکديگر معماري(توپولوژي) شبکه عصبي را مشخص ميکند.کاربر يا نرم افزاري که شبکهعصبي را طراحي ميکند بايد تعداد گرهها ، تعداد لايههاي نهان ، تابع فعالسازي و محدوديتهاي مربوط به وزن يالها را مشخص کند[3].
شکل 2-2: Wx,yوزن يال بين X و Y است[3].
از مهمترين انواع شبکههاي عصبي شبکه انتشار به جلو19 و شبکه انتشار به عقب20 ميباشد که در اينجا به اختصار آنرا توضيح ميدهيم.
انتشار به جلو به معني اين است که مقدار پارامتر خروجي براساس پارامترهاي ورودي و يک سري وزن هاي اوليه تعيين مي گردد. مقادير ورودي با هم ترکيب شده و در لايههاي نهان استفاده ميشوند و مقادير اين لايههاي نهان نيز براي محاسبه مقادير خروجي ترکيب مي شوند[3].
انتشار به عقب خطاي خروجي با مقايسه مقدار خروجي با مقدار مد نظر در دادههاي آزمايشي محاسبه مي گردد و اين مقدار براي تصحيح شبکه و تغيير وزن يالها استفاده ميگردد و از گره خروجي شروع شده و به عقب محاسبات ادامه مي يابد.
اين عمل براي هر رکورد موجود در بانک اطلاعاتي تکرار مي گردد.
به هر بار اجراي اين الگوريتم براي تمام دادههاي موجود در بانک يک دوره 21گفته مي شود. اين دوره ها آنقدر ادامه مي يابد که ديگر مقدار خطا تغيير نکند[3].
2-2-2درخت تصميم
درختهاي تصميم روشي براي نمايش يک سري از قوانين هستند که منتهي به يک رده يا مقدار ميشوند.
يکي از تفاوتها بين متدهاي ساخت درخت تصميم اين است که اين فاصله چگونه اندازهگيري ميشود. درختهاي تصميمي که براي پيشبيني متغيرهاي دستهاي استفاده ميشوند، درختهاي دستهبندي ناميده ميشوند زيرا نمونهها را در دستهها يا ردهها قرار ميدهند. درختهاي تصميمي که براي پيشبيني متغيرهاي پيوسته استفاده ميشوند درختهاي رگرسيون ناميده ميشوند[3].
شکل 2-3: درخت تصميمگيري‎[3]
الگوريتمهاي يادگيري درخت تصميم:
اغلب الگوريتمهاي يادگيري درخت تصميم بر پايه يک عمل جستجوي حريصانه بالا به پائين در فضاي درختهاي موجود عمل ميکنند.
در درخت تصميم ID3 از يک مقدار آماري به نام بهره اطلاعات22 استفاده مي شود تا اينکه مشخص کنيم که يک ويژگي تا چه مقدار قادر است مثالهاي آموزشي را بر حسب دستهبندي آنها جدا کند[4].
آنتروپي:
ميزان خلوص (بي نظمي يا عدم خالص بودن) مجموعهاي از مثالها را مشخص ميکند. اگر مجموعه S شامل مثالهاي مثبت و منفي از يک مفهوم هدف باشد آنتروپيS نسبت به اين دسته بندي بولي بصورت رابطه 2-1 تعريف مي شود‎[4].
رابطه 2-1
Entropy(s)=-p^+*?log?_2??p^+ ?-p^-*?log?_2??p^- ?
بهره اطلاعات:
بهره اطلاعات يک ويژگي عبارت است از مقدار کاهش آنتروپي که بواسطه جداسازي مثالها از طريق اين ويژگي حاصل ميشود.
به عبارت ديگر بهره اطلاعات Gain(S,A) براي يک ويژگي نظير A نسبت به مجموعه مثالهايS بصورت رابطه 2-2 تعريف ميشود:
رابطه 2-2
Informationgain=Entropy(s)-?_(v?Values(A))?s_v/|s| *Entropy(s)
که در آن Values(A) مجموعه همه مقدار ويژگيهايA بوده و SVزيرمجموعه اي از S است که براي آن A داراي مقدار V است.
در تعريف فوق عبارت اول مقدار آنتروپي دادهها و عبارت دوم مقدار آنتروپي مورد انتظار بعد از جداسازي دادههاست[4].
درختان رگرسيون:
وظيفه يادگيري در درختان رگرسيون، شامل پيش بيني اعداد حقيقي بجاي مقادير دستهاي گسسته است. که اين عمل را با داشتن مقادير حقيقي در گرههاي برگ خود نشان ميدهند. بدين صورت که ميانگين مقادير هدف نمونههاي آموزشي را در اين گره برگ بدست ميآورند. اين نوع از درختان، تفسير آسان داشته و مي توانند توابع ثابت تکه اي را تقريب بزنند.
نسخه پيچيدهتر درختان رگرسيون، درختان مدل هستند که عمل رگرسيون را با داشتن مدل خطي در گرههاي داخلي يا پاياني نشان ميدهند به عبارت بهتر هر گره، توابع رگرسيون خطي دارند. بعداز اينکه درخت رگرسيون کامل ساخته شد، عمل رگرسيون خطي به نمونههاي ي که به اين گره رسيده اند اعمال ميشود و فقط از يک زيرمجموعه از صفات، صفاتي که در زيردرخت ديده خواهند شد براي اين کار استفاده ميشوند. به دليل استفاده از زيرمجموعه اي از صفات در هر گره، سربار عمل رگراسيون خطي زياد نخواهد شد[3].
2-2-3 روش طبقهبندي بيزين
2-2-3-1 بيز ساده
فرض کنيد A1 تاAn ويژگيهايي با مقادير گسسته باشند اين مقادير براي پيشبيني يک کلاس گسسته C بکار ميروند .هدف ما پيش بيني و انتخاب دستهاي است که رابطه 2-3 ماکزيمم شود.
رابطه 2-3P(C=c|A_1?A_2 ??A?_3?….?A_n )
با استفاده از قانون بيزين رابطه 2-4 را داريم:
رابطه 2-4=(P(A_1=a_1?….?A_n=a_n |C=c)*p(C=c))/P(A_1=a_1?….?A_n=a_n ) که مخرج کسر براي تصميمگيري بي تاثير است زيرا که براي همه مقاديرC يکسان است از طرفي با توجه به استقلال مجموعه ويژگيها رابطه 2-5 را خواهيم داشت:
رابطه 2-5P(A_1=a_1?….?A_n=a_n |C=c)=
P(A_1=a_1 ?|C=c)*….*p(A_n=a_n |C=c))
در کل براي مسايل طبقه بندي اگر C به عنوان صفت شاخص در نظر بگيريم هدف حداکثر کردن مقدارp(X|C_i )*p(C_i ) است که x صفات ديگر هستند. از مزاياي بيز ساده اجراي راحت و نتايج خوب براي بسيار کاربردهاست و از معايب آن ميتوان گفت که شايد همه ويژگيها ازهم مستقل نباشند و وابستگي وجود دارد که در اين مورد مدل ضعيف است[4].
2-3-2-2 شبکههاي بيزين
شبکههاي بيزي وابستگيهاي شرطي بين متغيرها (ويژگيها) را شرح ميدهد. با استفاده از اين شبکهها دانش قبلي در زمينه وابستگي بين متغيرها با دادههاي آموزش مدل طبقه بندي، ترکيب ميشوند. شکل 2-4 يک نمونه شبکه بيزين را نمايش ميدهد.
شکل 2-4: شبکه بيزين [4]
مفاهيم اساسي شبکه بيزين
در شبکه بيزين، گرهها، متغيرهايي هستند که هر کدام مجموعه مشخصي از وضعيتهاي دوبه دو ناساگاز دارند. کمان ( يال) نشان دهنده وابستگيهاي متغيرها به يکديگر ميباشد. براي هر گره توزيع احتمال محلي وجود دارد که به گره وابسته ‌است و از وضعيت والدين مستقل مي‌باشد.
فرض مهم در روش بيز ساده استقلال شرطي طبقهها از يکديگر است اما در عمل اين وابستگي بين متغيرها وجود دارد. شبکههاي احتمالي بيزين اين نوع احتمالها را بررسي ميکند. يک شبکه بيزي از دو بخش گراف غير حلقوي و احتمالهاي شرطي تشکيل شده است اگر کماني از Y به Z وصل شود بدين معناست که Y پدر Z است. هر کمان دانش علل و معلولي بين متغيرهاي مرتبط نشان ميدهد. هر متغير A با والدينBn , .. .. ,B2 ,B1 يک جدول احتمال شرطي وجود دارد در اين جدول براي هر متغير رابطه آن با والدينش در نظر گرفته ميشود[4].
فرض کنيد دادهx با ويژگيx1,x2,…xn است در اين صورت رابطه 2-6 احتمال شرطي با توجه به وابستگي بين متغيرها نشان ميدهد.
رابطه 2-6p(x_1,x_2,..,x_n )=?_(i=1)^n?p(x_i |parents(y_i ))
2-2-4 مدل قانونمحور
دسته بندي با روش قانونمحور:
قوانين راه خوبي براي نشان داده يکسري اطلاعات است. يک دسته بندي قانون محور از مجموعهاي از قانون if-then براي دسته بندي استفاده ميکند.يک قاعده if-then بصورت زير ميباشد:
If condition then conclusion
که بخش if را پيش شرط و بخش then را نتيجه ميگوييم.
هر قانون بوسيله دو معيار پوشش23 و درستي24 مورد ارزيابي قرار ميگيرد.براي مجموعه داده D معيار يوشش قانون R به صورت رابطه 2-7 و درستي قانون R به صورت رابطه 2-8 تعريف ميشود :
رابطه 2-7Coverage(R)=n_cover/|D|
رابطه 2-8accuracy(R)=n_correct/n_cover
که|D| تعداد کل رکوردها و n_cover تعداد رکوردهايي که توسط قانون R پوشش داده ميشوند و n_correct تعداد رکوردها پوشش داده شدهاي است که بطور درست توسط R دسته بندي شدهاند.
اگر يک رکورد بوسيله چندين قانون ارضا شود تداخل پيش مي آيد که از قانون ترتيب اندازه يا ترتيب قانون بر طرف ميشود.
ترتيب اندازه: قانوني انتخاب ميشود که تعداد خصوصيت بيشتري را در برگيرد.
ترتيب قانون: قانونها از قبل به دو روش مبتني بر قانون يا کلاس دسته بندي اولويتبندي ميشوند. در روش مبتني بر قانون، يک ليست اولويت دار از قوانين ساخته ميشود که در آن قوانين بر پايه درستي، پوشش و تعداد صفات که در برميگردند اولويت بندي ميشوند.
در روش مبتني بر کلاس، کلاسها بطور نزولي بر پايه اهميت(تعداد تکرار) مرتب ميشوند. بنابراين قانون با بيشترين تکرار هميشه در اول ميآيد و انتخاب ميشود‎[4].
الگوريتم هاي قانونمحور:
وش مستقيم: در اين روش قانون IF-THEN بصورت مستقيم از دادهها بدون توليد درخت تصميم با استفاده از الگوريتم توالي پوشش25بدست ميآيد. الگوريتم هاي مشهور مانندAQ،RIPPER و CN2 است. در شکل 2-5 شبه کد مربوط به الگوريتم توالي پوشش آمده است.
معيار توقف الگوريتم: براي توقف الگوريتم از معبارهاي زير استفاده ميکنند در اينجا ابتدا به معرفي چند پارامتر ميپردازيم:
اگر R بصورت
R: IF Condition then class=c
R^´ بصورت زير تعريف ميشود
R: IF?Condition?^´ then class=c
Pos: تعداد رکوردهايي که بطور صحيح توسط R پوشش داده شده است.
Neg: تعداد رکوردهايي که بطور غلط توسط R پوشش داده شده است.
?pos?^´: تعداد رکوردهايي که بطور صحيح توسطR^´ پوشش داده شده است.
?neg?^´: تعداد رکوردهايي که بطور غلط توسطR^´ پوشش داده شده است.
رابطه 2-9FOIL_GAIN=?pos?^´*(?log?_2??(?pos?^´-?neg?^´)/?pos?^´ ?-?log?_2??(pos-neg)/pos? )
و رابطه 2-10Likehood_Ratio=2*?_(i=1)^m??log??f_i/e_i ? f?_i
اگر قانون بطور اتفاقي پيش بيني شود f_i تعداد تکرار کلاس i ميان رکوردهاست و e_i مقدار مورد انتظار کلاس i است.
Cn2 از روشlikedhooh_ratio و RIPPER از FOIL براي خاتمه الگوريتم استفاده ميکند[4].
روش غير مستقيم: استخراج قوانين از روش هاي دسته بندي مانند درخت تصميم
در مقايسه با درخت تصميم بزرگ قوانين براي انسان راحتتر قابل فهم است براي ساختن قوانين از درخت تصميم ما هر مسير از ريشه تا برگ را پيمايش ميکنيم. معيار جدا کننده نودها براي رسيدن تا برگ AND است و برگ نتيجه نگه ميدارد که قبلش برگThen ميآيد. در اينجا شرط انحصار متقابل برقرار است و هيچ دو قانوني يک رکورد را ارضا نميکند[4].
شکل 2-5: شبکه کد الگوريتم توالي پوشش [4]
2-2-5 مدل کاهل
در يک نگاه کلي ميتوان دستهبندي را به دو گروه مشتاق و کاهل تقسيم کرد در نوع مشتاق، مدلي از دادهها در مرحله آموزش ساخته ميشوند. درخت تصميم نمونهاي از اين مدل است. در مدل کاهل نمونههاي آموزشي دريافت و ذخيره شده و تنها هنگام دستهبندي از آن استفاده ميشود. در واقع مدلي از دادهها ساخته نميشود و يادگيري تا زمان دسته بندي به تعويق ميافتد. به اين نوع دسته بندي، يادگيري مبتني بر نمونه ميگوييم.
تفاوت بين اين دو مدل در اين است که نوع مشتاق زمان زيادي صرف ساخت مدل کرده و در زمان دسته بندي سريع عمل ميکند و نوع کاهل زمان بيشتري صرف دسته بندي ميکند[4].
در ادامه به بررسي الگوريتمهاي مدل کاهل ميپردازيم.
2-2-5-1 روش نزديکترين همسايگي
اين الگوريتم از سه گام زير تشکيل شده است:
محاسبه فاصله نمونه ورودي با تمام نمونههاي آموزشي
مرتب کردن نمونههاي آموزشي بر اساس فاصله و انتخاب k همسايه نزديکتر
استفاده از دستهاي که اکثريت را در همسايههاي نزديک، به عنوان تخميني براي دسته نمونه ورودي دارد.


پاسخ دهید