user8254

جدول 4-3: ماتریس آشفتگی قانون شماره 171
جدول 4-4: ماتریس آشفتگی قانون شماره 272
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج73
عنوان صفحه
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز76
جدول 4-12: ماتریس آشفتگی قانون شماره 476
جدول 4-13: ماتریس آشفتگی قانون شماره 577
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب78
جدول 4-16: ماتریس آشفتگی قانون شماره778
جدول 4-17: ماتریس آشفتگی قانون شماره879
جدول 4-18: مقایسه الگوریتم های خوشه بندی79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori81

فهرست شکل‌ها
عنوان صفحه
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی42
شکل 3-8: نمودار AUC الگوریتم KNN42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree49
شکل 3-17 : نمودار --ial الگوریتم Meta Decision Tree49
شکل 3-18: نمودار AUC الگوریتم Wj4850
شکل 3-19 : نمودار tree الگوریتم Wj4851
شکل 3-20 : نمودار AUC الگوریتم Random forest52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest53
عنوان صفحه
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه57
شکل 3-24 : Predictor Importance for K-Means58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
K-Means59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-60
شکل 3-27 : Predictor Importance for Kohonen61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
Kohonen62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen63
شکل 3-31 : Predictor Importance for دوگامی64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در
الگوریتم دوگامی65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت75
فصل اول
194500518986500
مقدمه
شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد.
از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد. پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006].
عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند.
بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است.
با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد.
امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند.
داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است.
تعریف داده کاوی XE "تعریف داده کاوی" XE "تعریف داده کاوی"
داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012].
انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند:
1-جدا سازی داده مفید از داده بیگانه
2-یکپارچه سازی داده های مختلف تحت یک قالب واحد
3-انتخاب داده لازم از میان دیگر داده ها
4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین
5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی
6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها
7-انتشار دانش استخراج شده به کاربران نهایی
تعریف بیمهبیمه: بیمه عقدی است که به موجب آن یک طرف تعهد می کند در ازاء پرداخت وجه یا وجوهی از طرف دیگر در صورت وقوع یا بروز حادثه خسارت وارده بر او را جبران نموده یا وجه معینی بپردازد. متعهد را بیمه گر طرف تعهد را بیمه گذار وجهی را که بیمه گذار به بیمه گر می پردازد حق بیمه و آنچه را که بیمه می شود موضوع بیمه نامند]ماده یک قانون بیمه مصوب 7/2/1316[.
هدف پایان نامهدر این پژوهش سعی شده است با استفاده از تکنیکهای داده کاوی اقدام به شناسایی فاکتورهای تاثیر گذار در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه نموده و ضریب تاثیر آنها را بررسی نماییم. الگوریتم های استفاده شده در این پژوهش شامل دسته بند ها، خوشه بند ها، درخت های تصمیم و قوانین انجمنی بوده است.
مراحل انجام تحقیقدر این پایان نامه با استفاده از روشهای داده کاوی با استفاده از بخشی از داده های صدور و خسارت یک سال شرکت بیمه مدل شده و از روی آنها یک الگو ساخته می شود. در واقع به این طریق به الگوریتم یاد داده می شود که ارتباطات بین داده ها، منجر به چه نتایجی می شود. سپس بخشی از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ایجاد شده داده می شود ونتایج توسط معیارهای علمی مورد ارزیابی قرار میگیرند. بمنظور آزمایش عملکرد می توان داده های دیگری به مدل داده شود و نتایج حاصله با نتایج واقعی موجود مقایسه شوند.
ساختار پایان نامهاین پایان نامه شامل چهارفصل خواهد بود که فصل اول شامل یک مقدمه و ضرورت پژوهش انجام شده و هدف این پژوهش است. در فصل دوم برخی تکنیک های داده کاوی و روشهای آن مطرح و تحقیقاتی که قبلا در این زمینه انجام شده مورد بررسی قرار می گیرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوی مورد استفاده در این پایان نامه می پردازیم و با کمک تکنیک های داده کاوی مدل هایی ارائه می شود و مدلهای ارائه شده درهرگروه با یکدیگر مقایسه شده و بهترین مدل از میان آنها انتخاب می گردد. در فصل چهارم مسائل مطرح شده جمع بندی شده و نتایج حاصله مطرح خواهند شد و سپس تغییراتی که در آینده در این زمینه می توان انجام داد پیشنهاد می شوند.

فصل دوم
193548028194000
ادبیات موضوع و تحقیقات پیشیندر این فصل ابتدا مروری بر روشهای داده کاوی خواهیم داشت سپس به بررسی تحقیقات پیشین می پردازیم.
داده کاوی و یادگیری ماشینداده کاوی ترکیبی از تکنیک های یادگیری ماشین، تشخیص الگو، آمار، تئوری پایگاه داده و خلاصه کردن و ارتباط بین مفاهیم و الگوهای جالب به صورت خودکار از پایگاه داده شرکتهای بزرگ است. هدف اصلی داده کاوی کمک به فرآیند تصمیم گیری از طریق استخراج دانش از داده هاست [Alpaydin 2010].
هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روشهای آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با استفاده از روشهای تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد[Koh & Gervis 2010] . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] .
داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. [Patil et. al 2012 ]. داده کاوی یافتن اطلاعات بامعنای خاص ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند [Han and Kamber 2001] .
1-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار
2-یکپارچه سازی داده: ترکیب منابع داده گوناگون
3-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده
4-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش
5-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی
6- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند
7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری [Lin & Yeh 2012] .
ابزارها و تکنیک های داده کاویبا توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. [Bolton & Hand 2002] در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران 1392[ .
روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روشهای آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرآیند داده کاوی حجم داده زیادی وجود داشته باشد.
در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روشهای میانگین گیری )ماهیانه، سالیانه و . . . (، روشهای محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد.
هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرآیند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند.
قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روشهای تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد [Gupta 2006].
روشهای داده کاوی عمده روشهای داده کاوی عبارتند از روشهای توصیف داده ها، روشهای تجزیه و تحلیل وابستگی، روشهای دسته بندی و پیشگویی، روشهای خوشه بندی، روشهای تجزیه و تحلیل نویز.
می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر نیزشناخته می شوند. روش های دسته بندی، رگرسیون و تشخیص انحراف از روشهای یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی و مجموعه داده های آزمایشی تقسیم می شود که با استفاده از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است.
یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته می شوند ]صنیعی آباده 1391[.

روشهای توصیف داده هاهدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روشهای داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود [Sirikulvadhana 2002] .
روشهای تجزیه و تحلیل وابستگی هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد[Gupta 2006] . یکی از روشهای متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند.
روشهای دسته بندی و پیشگویی
دسته بندی یک فرآیند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرآیند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه، بیز ساده و SVM است [Kumar and Verna 2012].
یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم.
PCA=PAC PCPAرگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود.
درخت تصمیمدرخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست [Patil et. al 2012] . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.

2-3-5-شبکه عصبیروش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد [Gupta 2006] . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد [P--han et. al 2011 ] .
2-3-6- استدلال مبتنی بر حافظهتوانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرآیند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود.
از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرآیند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند.
باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. [Tan et al 2006] . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود [Wilson and Martinez 1997] .
2-3-7-ماشین های بردار پشتیبانیSVM اولین بار توسط Vapnik در سال 1990 معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است [Ristianini and Shawe 2000] .
SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است [Kumar and Verna 2012] .
رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند.
2-3-8-روشهای خوشه بندی هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است که در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود [Osmar 1999] .
2-3-9- روش K-Meansیکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید[Xindong et al 2007].
2-3-10-شبکه کوهننشبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد.
2-3-11-روش دو گاماین روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با استفاده از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند.
2-3-12-روشهای تجزیه و تحلیل نویزبعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود [Osmar 1999].
دسته های نامتعادل]صنیعی آباده 1391[.
مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند.
در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود:
راهکار مبتنی بر معیار
راهکار مبتنی بر نمونه برداری
راهکار مبتنی بر معیاردر دسته بندی شایع ترین معیار ارزیابی کارایی دسته بند، معیار دقت دسته بندی است. در معیار دقت دسته بندی فرض بر یکسان بودن ارزش رکوردهای دسته های مختلف دسته بندی است. در راهکار مبتنی بر معیار بجای استفاده از معیار دقت دسته بندی از معیارهایی بهره برداری می شود که بتوان بالاتر بودن ارزش دسته های نادر و کمیاب را در آنها به نحوی نشان داد. بنابراین با لحاظ نمودن معیارهای گفته شده در فرآیند یادگیری خواهیم توانست جهت یادگیری را به سمت نمونه های نادر هدایت نماییم. از جمله معیارهایی که برای حل مشکل عدم تعادل دسته ها بکار می روند عبارتند از Recall, Precession, F-Measure, AUC و چند معیار مشابه دیگر.
2-4-2-راهکار مبتنی بر نمونه بردارینمونه برداری یکی از راهکارهای بسیار موثربرای مواجهه با مشکل دسته های نامتعادل است. ایده اصلی نمونه برداری آن است که توزیع نمونه ها را به گونه ای تغییر دهیم که دسته کمیاب به نحو پررنگ تری در مجموعه داده های آموزشی پدیدار شوند. سه روش برای این راهکار وجود دارد که عبارتند از:
الف- نمونه برداری تضعیفی:
در این روش نمونه برداری، توزیع نمونه های دسته های مساله به گونه ای تغییر می یابند که دسته شایع به شکلی تضعیف شود تا از نظرفراوانی با تعداد رکوردهای دسته نادر برابری کند. به این ترتیب هنگام اجرای الگوریتم یادگیری، الگوریتم ارزشی مساوی را برای دو نوع دسته نادر و شایع درنظر می گیرد.
ب- نمونه برداری تقویتی:
این روش درست برعکس نمونه برداری تضعیفی است. بدین معنی که نمونه های نادر کپی برداری شده و توزیع آنها با توزیع نمونه های شایع برابر می شود.
ج- نمونه برداری مرکب:
در این روش از هردو عملیات تضعیفی و تقویتی بصورت همزمان استفاده میشود تا توزیع مناسب بدست آید.
در این پژوهش با توجه به کمتر بودن نسبت نمونه نادر یعنی منجر به خسارت شده به نمونه شایع از روش نمونه برداری تضعیفی استفاده گردید که کل تعداد نمونه ها به حدود 3 هزار رکورد تقلیل پیدا کرد و توزیع نمونه ها به نسبت مساوی بوده است. شایان ذکر است این نمونه برداری پس از انجام مرحله پاک سازی داده ها انجام شد که خود مرحله پاکسازی با عث تقلیل تعداد نمونه های اصلی نیز گردیده بود.
پیشینه تحقیقسالهاست که محققان در زمینه بیمه و مسائل مرتبط با آن به تحقیق پرداخته اند و از جمله مسائلی که برای محققان بیشتر جذاب بوده است می توان به کشف تقلب اشاره کرد.
Brockett و همکاران [Brockett et. al 1998] ابتدا به کمک الگوریتم تحلیل مولفه های اصلی (PCA) به انتخاب ویژگی ها پرداختند و سپس با ترکیب الگوریتم های خوشه بندی و شبکه های عصبی به کشف تقلبات بیمه اتومبیل اقدام کردند. مزیت این کار ترکیب الگوریتمها و انتخاب ویژگی بوده که منجر به افزایش دقت خروجی بدست آمده گردید.
Phua و همکاران [ Phua et. al 2004] با ترکیب الگوریتم های شبکه های عصبی پس انتشاری ، بیزساده و درخت تصمیم c4.5 به کشف تقلب در بیمه های اتومبیل پرداختند.نقطه قوت این کار ترکیب الگوریتم ها بوده اما بدلیل عدم کاهش ویژگی ها و کاهش ابعاد مساله میزان دقت بدست آمده در حد اعلی نبوده است.
Allahyari Soeini و همکاران [Allahyari Soeini et. al 2012] نیز یک متدلوژی با استفاده از روشهای داده کاوی خوشه بندی ودرخت تصمیم برای مدیریت مشتریان ارائه دادند. از ایرادات این روش میتوان عدم استفاده از الگوریتم های دسته بندی و قوانین انجمنی را نام برد.
مورکی علی آباد ] مورکی علی‌آباد1390[ تحقیقی داشته است که اخیراً در زمینه بیمه صورت گرفته و درمورد طبقه‌بندی مشتریان صنعت بیمه با هدف شناسایی مشتریان بالقوه با استفاده از تکنیک‌های داده‌کاوی (مورد مطالعه: بیمه‌گذاران بیمه آتش‌سوزی شرکت بیمه کارآفرین (که هدف آن دسته بندی مشتریان صنعت بیمه بر اساس میزان وفاداری به شرکت، نوع بیمه نامه های خریداری شده، موقعیت جغرافیایی مکان های بیمه شده و میزان جذب به شرکت بیمه در بازه زمانی 4 سال گذشته بوده است. روش آماری مورد استفاده از تکنیک های داده کاوی نظیر درخت تصمیم و دسته بندی بود. این تحقیق نیز چون نمونه آن قبلا انجام شده بوده از الگوریتم های متفاوت استفاده نکرده است. همچنین سعی بر بهبود تحقیق قبلی نیز نداشته است. وجه تمایز این تحقیق با نمونه قبلی استفاده از ویژگی های متفاوت بوده است.
عنبری ]عنبری 1389[ نیز پژوهشی در خصوص طبقه بندی ریسک بیمه گذاران در رشته بیمه بدنه اتومبیل با استفاده از داده کاوی داشته است که هدف استفاده از داده های مربوط به بیمه نامه بدنه از کل شرکتهای بیمه (بانک اطلاعاتی بیمه خودرو) بوده و سعی بر آن شده است تا بررسی شود که آیا میتوان بیمه گذاران بیمه بدنه اتومبیل را از نظر ریسک طبقه بندی کرد؟ و آیا درخت تصمیم برای طبقه بندی بیمه گذاران بهترین ابزار طبقه بندی می باشد؟ و آیا سن و جنسیت از موثرترین عوامل در ریسک بیمه گذار محسوب می شود؟ نتایج این طبقه بندی به صورت درخت تصمیم و قوانین نشان داده شده است. ونتایج حاصل از صحت مدل درخت تصمیم با نتایج الگوریتم های شبکه عصبی و رگرسیون لجستیک مورد مقایسه قرار گرفته است. از مزیت های این تحقیق استفاده از الگوریتم های متفاوت و مقایسه نتایج حاصله برای بدست آوردین بهترین الگوریتم ها بوده است.
رستخیز پایدار]رستخیز پایدار 1389[ تحقیقی دیگر در زمینه بخش بندی مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) داشته است. با استفاده از مفاهیم شبکه خود سازمانده بخش بندی بر روی مشتریان بیمه بدنه اتومبیل بر اساس ریسک صورت گرفت. در این تحقیق عوامل تأثیرگذار بر ریسک بیمه گذاران طی دو مرحله شناسایی گردید. در مرحله اول هیجده فاکتور ریسک در چهار گروه شامل مشخصات جمعیت شناختی، مشخصات اتومبیل، مشخصات بیمه نامه و سابقه راننده از بین مقالات علمی منتشر گردیده در ژورنال های معتبر در بازه سال های 2000 الی 2009 استخراج گردید و در مرحله دوم با استفاده از نظرسنجی از خبرگان فاکتورهای نهایی تعیین گردید. مشتریان بیمه بدنه اتومبیل در این تحقیق با استفاده از شبکه های عصبی خودسازمانده به چهار گروه مشتریان با ریسک های متفاوت بخش بندی گردیدند. مزیت این تحقیق استفاده از نظر خبرگان بیمه بوده و ایراد آن عدم استفاده از ویژگی های بیشتر و الگوریتم های انتخاب ویژگی بوده است.
ایزدپرست  ]ایزدپرست1389[ همچنین تحقیقی در مورد ارائه چارچوبی برای پیش بینی خسارت مشتریان بیمه بدنه اتومبیل با استفاده از راهکار داده کاوی انجام داده است که چارچوبی برای شناسایی مشتریان بیمه بدنه اتومبیل ارائه می‌گردد که طی آن میزان خطرپذیری مشتریان پیش‌بینی شده و مشتریان بر اساس آن رده‌بندی می‌گردند. در نتیجه با استفاده از این معیار (سطح خطرپذیری) و نوع بیمه‌نامه مشتریان، میتوان میزان خسارت آنان را پیش‌بینی کرده و تعرفه بیمه‌نامه متناسب با ریسک آنان تعریف نمود. که این مطلب می‌تواند کمک شایانی برای شناسایی مشتریان و سیاستگذاری‌های تعرفه بیمه نامه باشد. در این تحقیق از دو روش خوشه‌بندی و درخت‌تصمیم استفاده می‌گردد. در روش خوشه‌بندی مشتریان بر اساس ویژگی هایشان در خوشه هایی تفکیک شده، سپس میانگین سطح خسارت در هر یک از این خوشه‌ها را محاسبه میکند. حال مشتریان آتی با توجه به اینکه به کدامیک از این خوشه‌ها شبیه تر هستند در یکی از آنها قرار می‌گیرند تا سطح خسارتشان مشخص گردد. در روش درخت‌تصمیم با استفاده از داده‌های مشتریان، درختی را بر اساس مجموعه‌ای از قوانین که بصورت "اگر-آنگاه" می‌باشد ایجاد کرده و سپس مشتریان جدید با استفاده از این درخت رده‌بندی می‌گردند. در نهایت هر دو این مدلها مورد ارزیابی قرار می‌گیرد. ایراد این روش در عدم استفاده از دسته بند ها بوده است. چون ماهیت تحقیق پیش بینی بوده است استفاده از دسته بند ها کمک شایانی به محقق در تولبد خروجی های حذاب تر می کرد.
خلاصه فصلعمده پژوهشهایی که درخصوص داده های بیمه ای صورت گرفته کمتر به سمت پیش بینی سود و زیان شرکتهای بیمه بوده است. در موارد مشابه نیزپیش بینی خسارت مشتریان انجام شده که هدف دسته بندی مشتریان بوده است. موضوع این پژوهش اگرچه از نوع همسان با تحقیقات گفته شده است اما در جزئیات بیمه شخص ثالث را پوشش می دهد که درکشور ما یک بیمه اجباری تلقی می شود. همچنین تعداد خصیصه هایی که در صدور یا خسارت این بیمه نامه دخالت دارند نسبت به سایر بیمه های دیگر بیشتر بوده ضمن اینکه بررسی سود یا زیان بیمه شخص ثالث با استفاده از دانش نوین داده کاوی کارتقریبا جدیدی محسوب می شود.

فصل سوم
2087880229743000
شرح پژوهشدر این فصل هدف بیان مراحل انجام این پژوهش و تحلیل خروجی های بدست آمده می باشد.

انتخاب نرم افزاردر اولین دهه آغاز به کار داده کاوی و در ابتدای امر، هنوز ابزار خاصی برای عملیات کاوش وجود نداشت و تقریبا نیاز بود تا تمامی تحلیل گران، الگوریتمهای موردنظر داده کاوی و یادگیری ماشین را با زبان های برنامه نویسی مانند c یا java یا ترکیبی از چند زبان پیاده سازی کنند. اما امروزه محیط های امکان پذیر برای این امر، با امکانات مناسب و قابلیت محاوره گرافیکی زیادی را می توان یافت]صنیعی آباده 1391[.
Rapidminerاین نرم افزار یک ابزار داده کاوی متن باز است که به زبان جاوا نوشته شده و از سال 2001 میلادی تا به حال توسعه داده شده است. در این نرم افزار سعی تیم توسعه دهنده بر این بوده است که تا حد امکان تمامی الگوریتم های رایج داده کاوی و همچنین یادگیری ماشین پوشش داده شوند. بطوری که حتی این امکان برای نرم افزار فراهم شده است تا بتوان سایر ابزارهای متن باز داده کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر پسند نرم افزار نیز آن را یک سرو گردن بالاتر از سایر ابزارهای رقیب قرار میدهد]صنیعی آباده 1391[.
مقایسه RapidMiner با سایر نرم افزار های مشابهدر اینجا دو نرم افزار مشهور متن باز را با RapidMiner مقایسه خواهیم کرد و معایب و مزایای آنها را بررسی می کنیم.
الف-R
یک زبان برنامه نویسی و یک پکیج داده کاوی به همراه توابع آماری است و بر پایه زبان های s و scheme پیاده سازی شده است. این نرم افزار متن باز، حاوی تکنیک های آماری مانند: مدل سازی خطی و غیرخطی، آزمون های کلاسیک آماری، تحلیل سری های زمانی، دسته بندی، خوشه بندی، و همچنین برخی قابلیت های گرافیکی است. R را می توان در محاسبات ماتریسی نیز بکار برد که این امر منجر به استفاده از آن در علم داده کاوی نیز می شود.
-مزایا:
شامل توابع آماری بسیار گسترده است.
بصورت بسیارمختصر قادر به حل مسائل آماری است.
دربرابر سایر نرم افزار های مرسوم کار با آرایه مانند Mathematica, PL, MATLAB, LISP/Scheme قدرت مند تر است.
با استفاده از ویژگی Pipeline قابلیت ترکیب بالایی را با سایر ابزارها و نرم افزارها دارد.
توابع نمودار مناسبی دارد.
-معایب:
فقدان واسط کاربری گرافیک
فقدان سفارشی سازی لزم جهت داده کاوی
ساختار زبانی کاملا متفاوت نسبت به زبان های برنامه نویسی مرسوم مانندc, PHP, java, vb, c#.
نیاز به آشنایی با زبانهای آرایه ای
قدیمی بودن این زبان نسبت به رقبا. این زبان در 1990 ساخته شده است.
ب- Scipy
یک مجموعه از کتابخانه های عددی متن باز برای برنامه نویسی به زبان پایتون است که برخی از الگوریتم های داده کاوی را نیز پوشش می دهد.
-مزایا
برای کاربردهای ریاضی مناسب است.
عملیات داده کاوی در این نرم افزار چون به زبان پایتون است راحت انجام می شود.
-معایب
الگوریتم های یادگیری مدل در این کتابخانه هنوز به بلوغ کامل نرسیده اند و درحال تکامل هستند.
برای پیاده سازی الگوریتم های داده کاوی توسط این ابزار باید از ترکیب های متفاوت آنچه در اختیار هست استفاده کرد.
ج-WEKA
ابزار رایج و متن باز داده کاوی است که کتابخانه های آماری و داده کاوی بسیاری را شامل میشود. این نرم افزار بوسیله جاوا نوشته شده است و در دانشگاه وایکاتو در کشور نیوزلند توسعه داده شده است.
-مزایا
دارای بسته های فراوان یادگیری ماشین.
دارای نمای گرافیکی مناسب.
مشخصا به عنوان یک ابزار داده کاوی معرفی شده است.
کار کردن با آن ساده است.
اجرای همزمان چندین الگوریتم و مقایسه نتایج.
همانطور که مشخص شد weka در مقابل دیگر نرم افزار های بیان شده به لحاظ قدرت و کاربر پسندی به Rapidminer نزدیک تر است و شباهت های زیادی به هم دارند زیرا که:
هردو به زبان جاوا نوشته شده اند.
هردو تحت مجوزGPL منتشر شده اند.
Rapidminer بسیاری از الگوریتمهای weka را در خود بارگذاری میکند.
اما weka معایبی نسبت به Rapidminer دارد از جمله اینکه:
در اتصال به فایلهای حاوی داده Excel و پایگاه های داده که مبتنی بر جاوا نیستند ضعیف عمل میکند.
خواندن فایلهای csv به شکل مناسبی سازماندهی نشده است.
به لحاظ ظاهری در رده پایینتری قرار دارد.
در نهایت بعد از بررسی های انجام شده حتی در میان نرم افزار های غیرمتن باز تنها ابزاری که کارایی بالاتری از Rapidminer داشت statistica بود که متن باز نبوده و استفاده از آن نیازمند تقبل هزینه آن است]صنیعی آباده 1391[.
در یازدهمین و دوازدهمین بررسی سالانه KDDnuggets Data Mining / Analytics رای گیری با طرح این سوال که کدام ابزار داده کاوی را ظرف یک سال گذشته برای یک پروژه واقعی استفاده کرده ایددر سال 2010 از بین 912 نفر و در سال 2011 ازبین 1100 نفر انجام شد. توزیع رای دهندگان بدین صورت بوده است:
اروپای غربی 37%
آمریکای شمالی 35%
اروپای شرقی 10%
آسیا 6%
اقیانوسیه 4%
آمریکای لاتین 4%
آفریقا و خاورمیانه %4
نتایج به شرح جدول 3-1 بوده است :
جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی
2011 Vote 2010 Vote Software name
37. 8% 27. 7% Rapidminer
29. 8% 23. 3% R
24. 3% 21. 8% Excel
12. 1% 13. 6% SAS
18. 4% 12. 1% Your own code
19. 2% 12. 1% KNIMe
14. 4% 11. 8% WEKA
1. 6% 10. 6% Salford
6. 3% 8. 5% Statistica
همانطور که نتایج رای گیری مشخص میکند نرم افزار Rapidminer بیشترین استفاده کننده را دارد.
در این پایان نامه نیز عملیات داده کاوی توسط این نرم افزار انجام می شود. ناگفته نماند در قسمتهایی از نرم افزار minitab و Clementine12 نیز برای بهینه کردن پاسخ بدست آمده و بالابردن کیفیت نتایج استفاده شده است.

داده ها داده های مورد استفاده در این پژوهش شامل مجموعه بیمه نامه های شخص ثالث صادر شده استان کهگیلویه و بویراحمد در سال 1390 شمسی بوده که بیمه نامه های منجر شده به خسارت نیز در این لیست مشخص گردیده اند. تعداد کل رکوردها حدود 20 هزار رکورد بوده که از این تعداد تقریباً 7. 5 درصد یعنی حدود 1500 رکوردمنجر به خسارت گردیده اند.
3-2-1- انتخاب دادهداده مورد استفاده در این پژوهش شامل دو مجموعه داده به شرح زیر بوده است:
صدور: اطلاعات بیمه نامه های صادره
خسارت: جزئیات خسارت پرداختی ازمحل هر بیمه نامه که خسارت ایجاد کرده
3-2-2-فیلدهای مجموعه داده صدور
این فیلدها در حالت اولیه 137 مورد به شرح جدول 3-2 بوده است.
3-2-3-کاهش ابعاد
در این پژوهش بخاطر موثرنبودن فیلدهایی اقدام به حذف این مشخصه ها کرده و فیلدهای موثر نهایی به 42 فیلد کاهش یافته که به شرح جدول 3-3 بدست آمده اند. کاهش ابعاد میتواند شامل حذف فیلدهای موثر که دارای اثر بسیار ناچیز درمقابل دیگر فیلدها است نیز باشد.
جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
1 بیمه‌نامه 33 مدت بیمه 65 تعهدمازاد
2 سال‌صدوربیمه‌نامه 34 زمان‌شروع 66 کدنوع‌تعهدسرنشین
3 رشته‌بیمه 35 شغل‌بیمه‌گذار 67 میزان‌تعهدسرنشین
4 نمایش سند 36 سن‌بیمه‌گذار 68 حق‌بیمه‌ثالث‌قانونی
5 مکانیزه 37 سال‌کارت 69 ثالث قانونی+تعدددیات
6 دستی 38 سریال‌کارت 70 حق‌بیمه‌بند4
7 وب‌بنیان 39 کدوسیله‌نقلیه 71 حق‌بیمه‌ماده1
8 نام‌استان 40 کدزیررشته‌آمار 72 حق‌بیمه‌مازاد
9 نام‌شعبه 41 نوع‌وسیله‌نقلیه 73 حق‌بیمه‌سرنشین
10 کدشعبه 42 سیستم 74 مالیات
11 شعبه‌محل‌صدور 43 سال ساخت 75 مازادجانی
12 شعبه 44 رنگ 76 حق‌بیمه‌مازادمالی
13 نمایندگی‌محل‌صدور 45 شماره‌شهربانی 77 عوارض‌ماده92
14 کددولتی 46 شماره‌موتور 78 حق‌بیمه‌دریافتی
15 نمایندگی 47 شماره‌شاسی 79 tadodflg
16 دولتی 48 تعدادسیلندر 80 حق‌بیمه‌تعددخسارت
17 صادره‌توسط شعبه 49 کدواحدظ‌رفیت 81 جریمه‌بیمه‌مرکزی
18 کارمندی 50 ظرفیت 82 حق‌بیمه‌صادره‌شعبه
19 کدصادره‌توسط شعبه 51 شرح‌مورداستفاده 83 حق‌بیمه‌صادره‌نمایندگی
20 سریال‌بیمه‌نامه 52 یدک‌دارد؟ 84 کداضافه‌نرخ‌حق‌بیمه
21 شماره‌بیمه‌نامه 53 اتاق‌وسیله‌نقلیه 85 اضافه‌نرخ‌ثالث
22 نام‌بیمه‌گذار 54 نوع‌پلاک 86 اضافه‌نرخ‌بند4
23 آدرس‌بیمه‌گذار 55 جنسیت 87 اضافه‌نرخ‌مازاد
24 تلفن‌بیمه‌گذار 56 کدنوع‌بیمه‌نامه 88 تعدددیات
25 کدسازمان 57 نوع‌بیمه 89 اضافه‌نرخ‌تعدددیات
26 نام‌سازمان 58 بیمه‌نامه‌سال‌قبل 90 اضافه‌نرخ‌ماده‌یک
27 کدنوع‌بیمه 59 انقضاسال‌قبل 91 دیرکردجریمه
28 cbrn. cod 60 بیمه‌گرقبل 92 کدملی‌بیمه‌گذار
29 نوع‌بیمه 61 شعبه‌قبل 93 صادره‌توسط شعبه
30 تاریخ‌صدور 62 خسارت‌داشته‌؟ 94 نوع‌مستند1
31 تاریخ‌شروع 63 تعهدمالی 95 شماره‌مستند1
32 تاریخ‌انقضا 64 تعهدبدنی 96 تاریخ‌مستند1
ادامه جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
97 مبلغ‌مستند1 111 تخفیف ایمنی 125 کداقتصادی
98 شماره‌حساب1 112 سایرتخفیف ها 126 کدملی
99 بانک1 113 ملاحظات 127 تاریخ‌ثبت
100 نوع‌مستند2 114 نام‌کاربر 128 کدشعبه‌صادرکننده‌اصلی
101 شماره‌مستند2 115 تاریخ‌سند 129 کدنمایندگی‌صادرکننده‌اصلی
102 تاریخ‌مستند2 116 کدشهربانی 130 کدسازمان‌صادرکننده‌اصلی
103 مبلغ‌مستند2 117 شعبه‌محل‌نصب 131 سال
104 شماره‌حساب2 118 کدمحل‌نصب 132 ماه
105 بانک2 119 دستی/مکانیزه 133 نوع
106 تخفیف‌نرخ‌اجباری 120 تیک‌باحسابداری 134 crecno
107 تخفیف‌نرخ‌اختیاری 121 سال‌انتقال 135 type_ex
108 تخفیف عدم خسارت 122 ماه‌انتقال 136 updflg
109 تخفیف صفرکیلومتر 123 sysid 137 hsab_sync
110 تخفیف گروهی 124 trsid کداقتصادی
جدول شماره 3-3: فیلدهای نهایی داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
1 ماه 15 تعهدمازاد 29 تاریخ‌شروع
2 سال 16 تعهدبدنی 30 تاریخ‌صدور
3 کدنمایندگی‌صادرکننده‌اصلی 17 تعهدمالی 31 نام‌سازمان
4 تخفیف گروهی 18 بیمه‌نامه‌سال‌قبل 32 شماره‌بیمه‌نامه
5 تخفیف عدم خسارت 19 نوع‌بیمه 33 کارمندی
6 نوع‌مستند1 20 نوع‌پلاک 34 صادره‌توسط شعبه
7 دیرکردجریمه 21 شرح‌مورداستفاده 35 دولتی
8 کداضافه‌نرخ‌حق‌بیمه 22 ظرفیت 36 نمایندگی‌محل‌صدور
9 حق‌بیمه‌دریافتی 23 تعدادسیلندر 37 خسارتی؟
10 عوارض‌ماده92 24 سال ساخت 38 مبلغ خسارت
11 مالیات 25 سیستم 39 تاریخ ایجادحادثه
12 حق‌بیمه‌سرنشین 26 نوع‌وسیله‌نقلیه 40 بیمه گر زیاندیده اول
13 حق‌بیمه‌مازاد 27 مدت بیمه 41 تعداد زیاندیدگان مصدوم
14 حق‌بیمه‌ثالث‌قانونی 28 تاریخ‌انقضا 42 تعداد زیاندیدگان متوفی
در کاهش ابعاد این مساله برای حذف فیلدهای مختلف نظرات کارشناسان بیمه نیز لحاظ شده است. جدول 3-4 فیلدهای حذف شده و علت حذف آنها را بیان کرده است.
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها
نام فیلد حذف شده علت حذف
Crecno-type_ex-updflg-hsab_sync-کدمحل‌نصب-دستی/مکانیزه-تیک‌باحسابداری-سال‌انتقال-ماه‌انتقال-sysid-trsid-کدزیررشته آمار-نمایش سند-مکانیزه-دستی-وب‌بنیان-Cbrn. cod کاربرد آماری
نوع-کد شعبه صادرکننده-شعبه محل نصب-کدشهربانی-سایرتخفیف ها-تخفیف ایمنی-تخفیف صفر کیلومتر-تخفیف نرخ اختیاری-تخفیف نرخ اجباری-خسارت داشته؟-شعبه قبل-جنسیت-کد نوع بیمه نامه-یدک دارد-
اتاق وسیله نقلیه-سن بیمه گذار-شغل بیمه گذار-زمان شروع-کد نوع بیمه دارای مقدار یکسان یا null
کد سازمان صادر کننده-کد نوع تعهد سرنشین-کدواحدظرفیت-کد وسیله نقلیه-کد سازمان-کد صادره توسط-نمایندگی-کد دولتی بجای این کد از فیلد اسمی معادل آن استفاده شده است و یا برعکس زیرا در نتایج خروجی قابل فهم تر خواهد بود.
تاریخ ثبت-تاریخ سند-بیمه گر قبل-مبلغ -مستند 1و2-اضافه‌نرخ‌ثالث-4اضافه‌نرخ‌بند-
اضافه‌نرخ‌مازاد-میزان تعهد سرنشین-تعدددیات-اضافه‌نرخ‌تعدددیات-اضافه‌نرخ‌ماده‌یک-تاریخ مستند1و2-شماره -حساب 1و2-بانک1و2 دارای مقدار تکراری
کدملی-بیمه نامه-کداقتصادی-نوع مستند2-
شماره مستند1و2-نام کاربر-ملاحظات-
کدملی بیمه گذار-شماره شاسی-شماره موتور-
شماره شهربانی-سریال کارت-سال کارت-
نام‌استان-نام‌شعبه-کدشعبه-شعبه‌محل‌صدور
شعبه-سال‌صدوربیمه‌نامه-رشته‌بیمه-رنگ-تلفن بیمه گذار-نام بیمه گذار-آدرس بیمه گذار-سریال بیمه نامه بدون تاثیر
حق‌بیمه‌تعددخسارت-جریمه‌بیمه‌مرکزی-
حق‌بیمه‌صادره‌شعبه-حق‌بیمه‌صادره‌نمایندگی-
مازادجانی-حق‌بیمه‌مازادمالی-حق بیمه ماده1-
حق بیمه ماده4-ثالث قانونی + تعدد دیات- انقضا سال قبل بخشی از فیلد انتخاب شده
جدول 3-5: فیلدهای استخراج شده از داده های خسارت
مبلغ خسارت
تاریخ ایجادحادثه
بیمه گر زیاندیده اول
تعداد زیاندیدگان مصدوم
تعداد زیاندیدگان متوفی
3-2-4- فیلدهای مجموعه داده خسارتاز مجموعه داده خسارت فقط فیلدهای مشخص کننده میزان خسارت و جزئیات لازم استخراج شده است. متاسفانه اطلاعات مفید تری مثل سن راننده مقصر، میزان تحصیلات و. . . در این مجموعه داده وجود نداشته است و چون هنگام ثبت خسارت برای یک بیمه نامه از اطلاعات کلیدی داده های صدور استفاده می شود، با توجه به اینکه از مرحله قبل مهمترین فیلدهای داده های صدور را در دسترس داریم بنابراین با ادغام فیلدهای خسارت و صدور به اطلاعات جامعی در خصوص یک بیمه نامه خاص دسترسی خواهیم داشت. مشخصه ها استخراج شده از داده های خسارت طبق جدول 3-5 است.

3-2-5-پاکسازی داده هاداده ها در دنیای واقعی ممکن است دارای خطا، مقادیر از دست رفته، مقادیر پرت و دورافتاده باشند [Jiawei Han, 2010]. در مرحله پاکسازی با توجه به نوع داده ممکن است یک یا چند روش پاکسازی بر روی داده اعمال شود.
3-2-6- رسیدگی به داده های از دست رفتهدر این قسمت از کار اقدام به رفع Missing data نموده که خود مرحله مهمی از پاکسازی داده بحساب می آید. در مرحله ابتدایی با مرتب سازی تمام ویژگی های قابل مرتب سازی در نرم افزار Microsoft Excel اقدام به کشف مقادیر از دست رفته کرده و از طریق دیگر ویژگی های هر رکورد مقدار از دست رفته را حدس زده ایم. همچنین درحین انتقال داده به محیط داده کاوی مقادیر از دست رفته نیز مشخص می گردند. در بعضی موارد بدلیل تعداد زیاد ویژگی های از دست رفته اقدام به حذف کامل رکورد نمودیم. این کار برای زمانی که داده ها در حجم انبوهی وجود دارند مفید واقع میشوند اما زمانی که تعداد رکوردها کم می باشد اجتناب از این عمل توصیه می شود. برای ویژگی نوع بیمه که از نوع چند اسمی بوده است فقط دو مقدار"کارمندی" و "عادی" وجود داشته که تعداد 49 مورد فاقد مقدار بوده است. کل تعداد بیمه کارمندی 27 مورد بوده است. با توجه به کم بودن تعداد داده های ازدست رفته این فیلد و پس از مقایسه نام بیمه گذاران با اسم کارمندان مشخص شد هیچ کدام از موارد فوق کارمندی نبوده و همه از نوع عادی بوده اند.
از جمله فیلدهای دارای مقادیر از دست رفته و روش رفع ایراد آنها عبارتند از:
سیستم*** 70 مورد***تشخیص با توجه به دیگر ویژگی ها
نوع وسیله نقلیه***33مورد***تشخیص با توجه به دیگر ویژگی ها
شرح مورد استفاده***11مورد***تشخیص با توجه به دیگر ویژگی هاتعدادسیلندر***2مورد***تشخیص با توجه به دیگر ویژگی ها
دولتی***28 مورد***تشخیص از روی پلاک
ماه***130 مورد***تشخیص از روی تاریخ صدور
نوع بیمه***49مورد***تشخیص از روی نام بیمه گذار
تعداد رکوردهایی که مقادیرازدست رفته در چند ویژگی مهم را داشته اند و حذف شده اند حدود 350 مورد بوده است.
3-2-7-کشف داده دور افتادهبعضی از مقادیر بسته به نوع داده علی رغم پرت تشخیص داده شدن مقادیر صحیحی می باشند. بنابراین حذف اینگونه داده ها برای کاستن پیچیدگی مساله میتواند موجب حذف قوانین مهمی در الگوریتم های مبتنی برقانون یا درختهای تصمیم شود. پس بررسی خروجی الگوریتم توسط یک فردخبره در موضوع مساله می تواند مانع از این اتفاق شود. نوع برخورد با داده پرت میتواند شامل حذف داده پرت، تغییر مقدار، حذف رکورد و در مواردی حذف مشخصه باشد.
برای تشخیص داده پرت از نمودار boxplot نرم افزار minitab 15 استفاده گردید. در این نمودار از مفهوم درصدک استفاده میشود که داده های بین 25% تا 75% که به ترتیب با Q1 و Q3 نشان داده می شوند مهم ترین بخش داده ها هستند. X50% نیز میانه را نشان می دهد و با یک خط در وسط نمودار مشخص می شود. Interquartile range (IQR) نیز مفهوم دیگری است که برابر است با IQR = Q3-Q1 .
مقادیر بیشتر از Q3 + [(Q3 - Q1) X 1. 5] و کمتر از Q1 - [(Q3 - Q1) X 1. 5]داده پرت محسوب می شوند. برای انجام اینکار نمودار boxplot را روی تک تک مشخصه های داده ها به اجرا در آورده و نتایج مطابق جدول 3-6 حاصل گردید.
جدول 3-6: نتایج نمودار boxplot
نام فیلد محاسبه مقادیر پرت توضیحات
تعداد زیاندیدگان متوفی Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقدار 1و2 نشان داده شده صحیح می باشد
تعداد زیاندیدگان مصدوم Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 1و2و3 نشان داده شده صحیح می باشد
بیمه گر زیاندیده اول Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقدار 1و2و3و. . . نشان داده شده صحیح می باشد و عدد 99 مقداری صحیح است که به معنی ندارد استفاده میگردد
مبلغ خسارت Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مبلغ خسارت 1.658.398.000 ریال و 900.000.000 ریال واقعا پرداخت گردیده است
تعداد سیلندر Q1=4, Q3=4, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=4
Q1 - [(Q3 - Q1) X 1. 5]=4مقدار 5 به عنوان تعداد سیلندر ناصحیح می باشد
ظرفیت Q1=5, Q3=5, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=5
Q1 - [(Q3 - Q1) X 1. 5]=5 مقادیر بین 1 تا 96 ظرفیتهای منطقی بر اساس تناژ یا سرنشین بوده و صحیح است اما مقدار 750 نا صحیح است
نوع پلاک Q1=3, Q3=3, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=3
Q1 - [(Q3 - Q1) X 1. 5]=3 مقادیر با مفهوم بوده و دور افتاده نیست
بیمه نامه سال قبل Q1=1, Q3=1, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=1
Q1 - [(Q3 - Q1) X 1. 5]=1 مقادیر عددی 0 یا 1 به معنی داشتن یا نداشتن بوده و صحیح است
تعهدات مالی Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه ثالث قانونی Q1=1992600, 3=3332500, IQR=1339900
Q3 + [(Q3 - Q1) X 1. 5]=5342350
Q1 - [(Q3 - Q1) X 1. 5]=17250 مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه مازاد Q1=0, Q3=9100, IQR=9100
Q3 + [(Q3 - Q1) X 1. 5]=22750
Q1 - [(Q3 - Q1) X 1. 5]=13650 مقادیر با مفهوم بوده و دور افتاده نیست
دیرکرد جریمه Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقادیر با مفهوم بوده و دور افتاده نیست
تخفیف عدم خسارت Q1=610080, Q3=1495200, IQR=885120
Q3 + [(Q3 - Q1) X 1. 5]=2822880
Q1 - [(Q3 - Q1) X 1. 5]=717600 مقادیر با مفهوم بوده و دور افتاده نیست
3-2-8-انبوهش دادهبا ادغام کردن داده های صدور و خسارت به خلق ویژگیهای جدیدی دست زده ایم. چون داده ها در دو فایل جدا گانه بوده و حجم داده زیاد بوده است برای ادغام از پرس و جوی نرم افزار Microsoft Access استفاده شد. برای تشخیص بیمه نامه های خسارت دیده از فیلد شماره بیمه نامه که در هردوفایل مشترک بود استفاده کردیم.
3-2-9- ایجاد ویژگی دستهدر این مرحله پس از ادغام ویژگی های مختلف اقدام به ایجاد یک فیلد برای تمام رکوردهایی که منجر به خسارت شده اند می نماییم. این فیلد در الگوریتمهای دسته بندی مورد استفاده قرار خواهد گرفت. برای انجام این کار از یک پر و جوی Microsoft Access استفاده میکنیم.
3-2-10-تبدیل دادهجهت استفاده کاربردی تر از برخی ویژگی ها باید مقادیر آن ویژگی تغییر کند. یک نمونه از این کار تغییر مقدار ویژگی " دیرکرد جریمه " است. مقدار این فیلد مبلغ جریمه دیرکرد بیمه گذار بوده است که با تقسیم این مبلغ به عدد 13000 تعداد روزهای تاخیر در تمدید بیمه نامه افراد مشخص می شود، زیرا به ازای هر روز تاخیر مبلغی حدود 13000ریال در سال 1390 به عنوان جریمه دیرکرد از فرد متقاضی بیمه نامه دریافت می گردید.
3-2-11-انتقال داده به محیط داده کاویپس از انجام پاکسازی، داده باید به محیط داده کاوی منتقل شود. در خلال این انتقال نیاز به تعریف و یا تغییر نوع داده وجود دارد. در طول این تغییر داده ممکن است مقادیری از داده ها بدلیل ناسازگاری و یا دلایل مشابه به عنوان داده از دست رفته مشخص گردد و یا داده از دست رفته ای که قبلاً قابل تشخیص نبوده مشخص گردد. (شکل 3-1)

شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی
3-2-12-انواع داده تعیین شده
پس از انتقال داده به محیط داده کاوی، هر ویژگی به نوع خاصی از داده توسط نرم افزار تشخیص داده شد. پس از آن نوع داده تشخیصی مورد بررسی قرار گرفت و اشتباهات پیش آمده تصحیح گردیدند. همچنین گروهی از ویژگی ها که به هیچ نوع داده ای اختصاص داده نشده بود بصورت دستی به بهترین نوع ممکن اختصاص داده شد. چون برخورد الگوریتم ها با انواع داده ها متفاوت است با توجه به موضوع پژوهش بهترین نوع داده که بتواند نسبت به الگوریتم موثرترواقع شود برای هر ویژگی درنظر گرفته شد.
جدول نوع داده های مورد استفاده در این پژوهش به شرح جدول 3-7 است:
جدول 3-7: انواع داده استفاده شده
نام فیلد نوع فیلد
ماه-سال-کدنمایندگی‌صادرکننده‌اصلی- تعداد زیاندیدگان مصدوم- نوع‌پلاک- ظ‌رفیت- تعدادسیلندر- سال ساخت- مدت بیمه- نمایندگی‌محل‌صدور- تعداد زیاندیدگان متوفی-حق‌بیمه‌ثالث‌قانونی-تعهدمازاد-تعهدبدنی-تعهدمالی Integer
- نوع‌بیمه- شرح‌مورداستفاده- بیمه گر زیاندیده اول نوع‌مستند1- سیستم نوع‌وسیله‌نقلیه- نام‌سازمان-دولتی polynominal
دیرکردجریمه-کداضافه‌نرخ‌حق‌بیمه-حق‌بیمه‌دریافتی-عوارض‌ماده92-مالیات-حق‌بیمه‌سرنشین-حق‌بیمه‌مازاد- تخفیف گروهی-تخفیف عدم خسارت- مبلغ خسارت real
بیمه‌نامه‌سال‌قبل- کارمندی- صادره‌توسط شعبه- خسارتی؟ binominal
تاریخ‌انقضا-تاریخ‌شروع-تاریخ‌صدور- تاریخ ایجادحادثه date
شماره‌بیمه‌نامه text
3-2-13-عملیات انتخاب ویژگیهای موثرتردر برخورد با برخی از الگوریتمها که با بیشتر شدن تعداد ویژگی پیچیدگی بیشتری نیز پیدا میکنند، مانند درختهای تصمیم، svm، Regression و شبکه های عصبی باید از ویژگی های کمتری استفاده کنیم. درکل انتخاب ویژگی برای استفاده در الگوریتم های دسته بندی تکنیک کارآمدی است. دراینجا ازتکنیکهای کاهش ویژگی و یا وزن دهی استفاده کرده و فیلدهای منتخبی که وزن بیشتری را دارند به عنوان ورودی الگوریتمها انتخاب گردیدند.
با توجه به اینکه احتمال ارزش دهی به یک ویژگی در تکنیکهای مختلف متغیر است و ممکن است ویژگی خاصی توسط یک تکنیک باارزش قلمداد شده و توسط تکنیکی دیگر بدون ارزش تلقی شود، نتیجه تمام تکنیکها Union, شده و فیلدهای حاصل به عنوان ورودی الگوریتم مشخص گردید.
3-3-نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی
نتایج حاصل از این تکنیک ها در شکل های 3-2 الی3-5 نمایش داده شده است.

شکل 3-2: نتایج الگوریتمPCA
در ارزشدهی به ویژگی ها

شکل 3-3: نتایج الگوریتم SVM Weighting
در ارزشدهی به ویژگی ها

شکل 3-4: نتایج الگوریتم
Weighting Deviation در ارزشدهی به ویژگی ها

شکل 3-5: نتایج الگوریتم Weighting Correlation
در ارزشدهی به ویژگی ها
3-4-ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگیلازم به توضیح است در تمام الگوریتمهایی که از 24 ویژگی جدول 3-8 استفاده شده است از تمام ویژگی ها نیز استفاده شده و نتایج با هم مقایسه گردیده اند و مشخص شد که وجود برخی ویژگی ها که در آن جدول قرار ندارند باعث کاهش دقت الگوریتم شده و در برخی الگوریتم ها نیز تفاوتی میان دو مقایسه مشخص نشد.
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف
نام فیلد نوع فیلد
تعهدمازاد- تعهدبدنی- تعهدمالی- نوع‌پلاک- ظ‌رفیت- تعدادسیلندر- سال ساخت- مدت بیمه- تعداد زیاندیدگان مصدوم- تعداد زیاندیدگان متوفی Integer
شرح‌مورداستفاده- سیستم- نوع‌وسیله‌نقلیه- بیمه گر زیاندیده اول polynominal
دیرکردجریمه- کداضافه‌نرخ‌حق‌بیمه- حق‌بیمه‌دریافتی- مالیات- حق‌بیمه‌سرنشین- حق‌بیمه‌ثالث‌قانونی- مبلغ خسارت real
بیمه‌نامه‌سال‌قبل- کارمندی- صادره‌توسط شعبه binominal
3-5-معیارهای ارزیابی الگوریتمهای دسته بندیدر این بخش توضیحاتی درخصوص چگونگی ارزیابی الگوریتم های دسته بندی و معیار های آن ارائه خواهد شد.
3-6-ماتریس درهم ریختگیماتریس در هم ریختگی چگونگی عملکرد دسته بندی را با توجه به مجموعه داده ورودی به تفکیک نشان میدهد که:
TN: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم نیز دسته آنها را به درستی منفی تشخیص داده است.
FP: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم دسته آنها را به اشتباه مثبت تشخیص داده است.
FN: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم دسته آنها را به اشتباه منفی تشخیص داده است.
TP: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم نیز دسته آنها را به درستی مثبت تشخیص داده است.
جدول 3-9: ماتریس در هم ریختگی
رکوردهای تخمینی(Predicted Records)
دسته+ دسته- FP TN دسته-
TP FN دسته+
1903095210185رکوردهای واقعی(Actual Records)
00رکوردهای واقعی(Actual Records)

مهمترین معیار برای تعیین کارایی یک الگوریتم دسته بندی معیاردقت دسته بندی است. این معیارنشان می دهد که چند درصد ازکل مجموعه رکوردهای آموزشی بدرستی دسته بندی شده است.
دقت دسته بندی بر اساس رابطه زیر محاسبه می شود:
CA=TN+TPTN+FN+TP+FP3-7-معیار AUCاین معیار برای تعیین میزان کارایی یک دسته بند بسیار موثر است. این معیار نشان دهنده سطح زیر نمودار ROC است. هرچقدرعدد AUC مربوط به یک دسته بند بزرگتر باشد، کارایی نهایی دسته بند مطلوب تر است. در ROC نرخ تشخیص صحیح دسته مثبت روی محور Y و نرخ تشخیص غلط دسته منفی روی محورX رسم میشود. اگر هر محور بازه ای بین 0و1 باشد بهترین نقطه در این معیار (0, 1) بوده و نقطه (0, 0) نقطه ای است که دسته بند مثبت و هشدار غلط هیچگاه تولید نمی شود.


3-8-روشهای ارزیابی الگوریتم های دسته بندیدر روشهای یادگیری با ناظر، دو مجموعه داده مهم به اسم داده های آموزشی و داده های آزمایشی وجود دارند. چون هدف نهایی داده کاوی روی این مجموعه داده ها یافتن نظام حاکم بر آنهاست بنابراین کارایی مدل دسته بندی بسیار مهم است. از طرف دیگر این که چه بخشی از مجموعه داده اولیه برای آموزش و چه بخشی به عنوان آزمایش استفاده شود بستگی به روش ارزیابی مورد استفاده دارد که در ادامه انواع روشهای مشهور را بررسی خواهیم کرد]صنیعی آباده 1391[.
روش Holdoutدر این روش چگونگی نسبت تقسیم مجموعه داده ها بستگی به تشخیص تحلیلگر داشته اما روش های متداول ازنسبت 50-50 و یا دو سوم برای آموزش و یک سوم برای آزمایش و ارزیابی استفاده میکنند.
مهم ترین حسن این روش سادگی و سرعت بالای عملیات ارزیابی می باشد اما معایب این روش بسیارند. اولین ایراد این روش آن است که بخشی از مجموعه داده اولیه که به عنوان داده آزمایشی است، شانسی برای حضور در مرحله آموزش ندارد. بدیهی است مدلی که نسبت به کل داده اولیه ساخته می شود، پوشش کلی تری را بر روی داده مورد بررسی خواهد داشت. بنابراین اگر به رکوردهای یک دسته در مرحله آموزش توجه بیشتری شود به همان نسبت در مرحله آزمایش تعدادرکوردهای آن دسته کمتر استفاده می شوند.
دومین مشکل وابسته بودن مدل ساخته شده به، نسبت تقسیم مجموعه داده ها است. هرچقدر داده آموزشی بزرگتر باشد، بدلیل کوچکتر شدن مجموعه داده آزمایشی دقت نهایی برای مدل یادگرفته شده غیرقابل اعتماد تر خواهد بود. و برعکس با جابجایی اندازه دو مجموعه داده چون داده آموزشی کوچک انتخاب شده است، واریانس مدل نهایی بالاتربوده و نمی توان دانش کشف شده را به عنوان تنها نظم ممکن درمجموعه داده اولیه تلقی کنیم.
روش Random Subsamplingاگر روش Holdout را چند مرتبه اجرا نموده و از نتایج بدست آمده میانگین گیری کنیم روش قابل اعتماد تری را بدست آورده ایم که Random Subsampling نامیده می شود.
ایراد این روش عدم کنترل بر روی تعداد استفاده از یک رکورد در آموزش یا ارزیابی می باشد.
3-8-3-روش Cross-Validationاگر در روش Random Subsampling هرکدام از رکوردها را به تعداد مساوی برای یادگیری و تنها یکبار برای ارزیابی استفاده کنیم روشی هوشمندانه تر اتخاذ کرده ایم. این روش در متون علمی Cross-Validation نامیده می شود. برای مثال مجموعه داده را به دوقسمت آموزش و آزمایش تقسیم میکنیم و مدل را بر اساس آن می سازیم. حال جای دوقسمت را عوض کرده و از مجموعه داده آموزش برای آزمایش و از مجموعه داده آزمایش برای آموزش استفاده کرده و مدل را می سازیم. حال میانگین دقت محاسبه شده به عنوان میانگین نهایی معرفی می شود. روش فوق 2-Fold Cross Validation نام دارد. اگر بجای 2 قسمت مجموعه داده به K قسمت تقسیم شود، و هر بار با K-1 قسمت مدل ساخته شود و یک قسمت به عنوان ارزیابی استفاده شود درصورتی که این کار K مرتبه تکرار شود بطوری که از هر قسمت تنها یکبار برای ارزیابی استفاده کنیم، روش K-Fold Cross Validation را اتخاذ کرده ایم. حداکثر مقدار k برابر تعداد رکوردهای مجموعه داده اولیه است.
3-8-4-روش Bootstrapدر روشهای ارزیابی که تاکنون اشاره شدند فرض برآن است که عملیات انتخاب نمونه آموزشی بدون جایگذاری صورت می گیرد. درواقع یک رکورد تنها یکبار در یک فرآیند آموزشی شرکت داده می شود. اگر یک رکورد بیش از یک مرتبه در عملیات یادگیری مدل شرکت داده شود روش Bootstrap را اتخاذ کرده ایم. در این روش رکوردهای آموزشی برای انجام فرآیند یادگیری مدل ازمجموعه داده اولیه به صورت نمونه برداری با جایگذاری انتخاب خواهند شد و رکوردهای انتخاب نشده جهت ارزیابی استفاده می شود.
3-9-الگوریتمهای دسته بندیدر این بخش به اجرای الگوریتم های دسته بندی پرداخته و نتایج حاصل را مشاهده خواهیم کرد.
درالگوریتمهای اجرا شده از هر سه روش Holdout, k fold Validation, Bootstrap استفاده شده است و نتایج با هم مقایسه شده اند. در روشHoldout که در نرم افزار با نام Split Validation آمده است از نسبت استاندارد آن یعنی 70 درصد مجموعه داده اولیه برای آموزش و 30 درصد برای آزمایش استفاده شده است. برای k fold Validation مقدار k برابر 10 درنظر گرفته شده است که مقدار استانداردی است. در Bootstrap نیز مقدار تقسیم بندی مجموعه داده برابر 10 قسمت درنظر گرفته شده است. مقدار local random seed نیز برابر عدد 1234567890 می باشد که برای همه مدلها، نرم افزار از آن استفاده می کند مگر اینگه در مدل خاصی عدم استفاده از آن ویا تغییر مقدارموجب بهبود عملکرد الگوریتم شده باشد که قید میگردد. اشکال 3-6و3-7 چگونگی استفاده از یک مدل ارزیابی را در Rapidminer نشان می دهد.

شکل 3-6: نمای کلی استفاده از روشهای ارزیابی

شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی
الگوریتم KNNدر انتخاب مقدار k اعداد بین 1 تا 20 و همچنین اعداد 25 تا 100 با فاصله 5 آزمایش شدند. بهترین مقدار عدد 11 بوده است.
پس از اجرای الگوریتم، بهترین نتیجه مربوط به ارزیابی Split Validation با دقت91.23%بوده است. نمودار AUC آن در شکل 3-8 ترسیم شده است.
25768302223135آستانه قابل قبول
020000آستانه قابل قبول
716280-63500دسته مثبت
020000دسته مثبت

شکل 3-8: نمودار AUC الگوریتم KNN
الگوریتم Naïve Bayesاین الگوریتم پارامترخاصی برای تنظیم ندارد.
بهترین نتیجه مربوط به ارزیابی Split Validation با دقت 96.09% بوده است. نمودار AUC آن در شکل 3-9 ترسیم شده است.
22872701749425آستانه قابل قبول
020000آستانه قابل قبول
7689856985دسته مثبت
020000دسته مثبت

شکل 3-9: نمودار AUC الگوریتم Naïve Bayes
الگوریتم Neural Networkتکنیک شبکه عصبی استفاده، مدل پرسپترون چندلایه با 4 نرون در یک لایه نهان بوده است.
تنظیمات الگوریتم شبکه عصبی به شرح زیر بوده است:
Training cycles=500
Learning rate=0.3
Momentum=0.2
Local random seed=1992
چون این الگوریتم فقط از ویژگیهای عددی پشتیبانی می کند، از عملگرهای مختلفی برای تبدیل مقادیر غیرعددی به عدد استفاده شده است. به همین دلیل تنها از روش Split validation با نسبت 70-30برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام گرفت.
شکل3-10 عملیات انجام شده را نشان می دهد.

شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی
نتیجه اجرای الگوریتم Neural Network دقت 91.25%بوده ماتریس آشفتگی آن و نمودار AUC در شکل 3-11 رسم شده است.

29222702265680آستانه قابل قبول
020000آستانه قابل قبول
725170-55245دسته مثبت
020000دسته مثبت

شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net
الگوریتم SVM خطیدر این الگوریتم نیز بدلیل عدم پشتیبانی از نوع داده اسمی از عملگرهای مختلفی برای تبدیل مقادیر غیرعددی به عدد استفاده شده است. به همین دلیل تنها از روش Split validation با نسبت 70-30 برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام شد.
شکل3-12 عملیات انجام شده را نشان می دهد.

شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی
پارامترهای الگوریتم عبارتند از :
Kernel cache=200
Max iteretions=100000
نتیجه حاصل از اجرای الگوریتم SVM خطی دقت 98.54% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-13 رسم شده است.

25711152215515آستانه قابل قبول
020000آستانه قابل قبول
1045845-111760دسته مثبت
020000دسته مثبت

شکل 3-13 : نمودار AUC الگوریتم SVM Linear
3-9-5-الگوریتم رگرسیون لجستیک
در این الگوریتم از روش Split validation با نسبت 70-30برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام شد.
نتیجه حاصل از اجرای الگوریتم رگرسیون لجستیک دقت 98.54% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-14 رسم شده است.

25482552319020آستانه قابل قبول
020000آستانه قابل قبول
974725-249555دسته مثبت
020000دسته مثبت

شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک
3-9-6- الگوریتم Meta Decision Treeدر این الگوریتم که یک درخت تصمیم است، از روش Split validationبا نسبت 70-30 برای ارزیابی استفاده شده است که دقت 96.64% اقدام به پیش بینی خسارت احتمالی نموده است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-15 رسم شده است.

26714452353945آستانه قابل قبول
020000آستانه قابل قبول
835660-73660دسته مثبت
020000دسته مثبت

شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree
با توجه به اندازه بزرگ درخت خروجی فقط قسمتی از آن در شکل 3-16 بصورت درخت نمایش داده می شود. در شکل 3-17 درخت بصورت کامل آمده است اما نتایج آن در فصل چهارم مورد تفسیر قرار خواهند گرفت.

شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree

شکل 3-17 : نمودار --ial الگوریتم Meta Decision Tree
3-9-7-الگوریتم درخت Wj48چون RapidMiner توانایی استفاده ازالگوریتمهای نرم افزار WEKA را نیز دارد، در بسیاری از الگوریتم ها قدرت مند تر عمل میکند. Wj48 نسخه WEKA از الگوریتمj48 است.
پارامترهای این الگوریتم عبارتند از:
C=0.25
M=2
در این الگوریتم از روش ارزیابی 10 Fold Validation استفاده شده است و دقت پیش بینی آن برابر 99.52% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-18 رسم شده است. نمای درخت در شکل 3-19 ترسیم شده است.

35471102441575آستانه قابل قبول
020000آستانه قابل قبول
908685160020دسته مثبت
020000دسته مثبت

شکل 3-18: نمودار AUC الگوریتم Wj48

شکل 3-19 : نمودار tree الگوریتم Wj48
3-9-8-الگوریتم درخت Random forest در این الگوریتم از هر سه روش ارزیابی بیان شده در قسمت 3-9 استفاده شده است، که بهترین کارایی مربوط به ارزیاب Split Validation با دقت96.72% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-20 رسم شده است.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *