—d1231

جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی69
جدول 4-1: مقایسه الگوریتم های دسته بند70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم70
جدول 4-3: ماتریس آشفتگی قانون شماره 171
جدول 4-4: ماتریس آشفتگی قانون شماره 272
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج73
عنوان صفحه
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز76
جدول 4-12: ماتریس آشفتگی قانون شماره 476
جدول 4-13: ماتریس آشفتگی قانون شماره 577
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب78
جدول 4-16: ماتریس آشفتگی قانون شماره778
جدول 4-17: ماتریس آشفتگی قانون شماره879
جدول 4-18: مقایسه الگوریتم های خوشه بندی79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori81

فهرست شکل‌ها
عنوان صفحه
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی42
شکل 3-8: نمودار AUC الگوریتم KNN42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree49
شکل 3-17 : نمودار --ial الگوریتم Meta Decision Tree49
شکل 3-18: نمودار AUC الگوریتم Wj4850
شکل 3-19 : نمودار tree الگوریتم Wj4851
شکل 3-20 : نمودار AUC الگوریتم Random forest52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest53
عنوان صفحه
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه57
شکل 3-24 : Predictor Importance for K-Means58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
K-Means59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-60
شکل 3-27 : Predictor Importance for Kohonen61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
Kohonen62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen63
شکل 3-31 : Predictor Importance for دوگامی64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در
الگوریتم دوگامی65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت75
فصل اول
194500518986500
مقدمه
شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد.
از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد. پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006].
عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند.
بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است.
با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد.
امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند.
داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است.
تعریف داده کاوی XE "تعریف داده کاوی" XE "تعریف داده کاوی"
داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012].
انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند:
1-جدا سازی داده مفید از داده بیگانه
2-یکپارچه سازی داده های مختلف تحت یک قالب واحد
3-انتخاب داده لازم از میان دیگر داده ها
4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین
5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی
6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها
7-انتشار دانش استخراج شده به کاربران نهایی
تعریف بیمهبیمه: بیمه عقدی است که به موجب آن یک طرف تعهد می کند در ازاء پرداخت وجه یا وجوهی از طرف دیگر در صورت وقوع یا بروز حادثه خسارت وارده بر او را جبران نموده یا وجه معینی بپردازد. متعهد را بیمه گر طرف تعهد را بیمه گذار وجهی را که بیمه گذار به بیمه گر می پردازد حق بیمه و آنچه را که بیمه می شود موضوع بیمه نامند]ماده یک قانون بیمه مصوب 7/2/1316[.
هدف پایان نامهدر این پژوهش سعی شده است با استفاده از تکنیکهای داده کاوی اقدام به شناسایی فاکتورهای تاثیر گذار در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه نموده و ضریب تاثیر آنها را بررسی نماییم. الگوریتم های استفاده شده در این پژوهش شامل دسته بند ها، خوشه بند ها، درخت های تصمیم و قوانین انجمنی بوده است.
مراحل انجام تحقیقدر این پایان نامه با استفاده از روشهای داده کاوی با استفاده از بخشی از داده های صدور و خسارت یک سال شرکت بیمه مدل شده و از روی آنها یک الگو ساخته می شود. در واقع به این طریق به الگوریتم یاد داده می شود که ارتباطات بین داده ها، منجر به چه نتایجی می شود. سپس بخشی از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ایجاد شده داده می شود ونتایج توسط معیارهای علمی مورد ارزیابی قرار میگیرند. بمنظور آزمایش عملکرد می توان داده های دیگری به مدل داده شود و نتایج حاصله با نتایج واقعی موجود مقایسه شوند.
ساختار پایان نامهاین پایان نامه شامل چهارفصل خواهد بود که فصل اول شامل یک مقدمه و ضرورت پژوهش انجام شده و هدف این پژوهش است. در فصل دوم برخی تکنیک های داده کاوی و روشهای آن مطرح و تحقیقاتی که قبلا در این زمینه انجام شده مورد بررسی قرار می گیرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوی مورد استفاده در این پایان نامه می پردازیم و با کمک تکنیک های داده کاوی مدل هایی ارائه می شود و مدلهای ارائه شده درهرگروه با یکدیگر مقایسه شده و بهترین مدل از میان آنها انتخاب می گردد. در فصل چهارم مسائل مطرح شده جمع بندی شده و نتایج حاصله مطرح خواهند شد و سپس تغییراتی که در آینده در این زمینه می توان انجام داد پیشنهاد می شوند.

فصل دوم
193548028194000
ادبیات موضوع و تحقیقات پیشیندر این فصل ابتدا مروری بر روشهای داده کاوی خواهیم داشت سپس به بررسی تحقیقات پیشین می پردازیم.
داده کاوی و یادگیری ماشینداده کاوی ترکیبی از تکنیک های یادگیری ماشین، تشخیص الگو، آمار، تئوری پایگاه داده و خلاصه کردن و ارتباط بین مفاهیم و الگوهای جالب به صورت خودکار از پایگاه داده شرکتهای بزرگ است. هدف اصلی داده کاوی کمک به فرآیند تصمیم گیری از طریق استخراج دانش از داده هاست [Alpaydin 2010].
هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روشهای آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با استفاده از روشهای تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد[Koh & Gervis 2010] . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] .
داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. [Patil et. al 2012 ]. داده کاوی یافتن اطلاعات بامعنای خاص ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند [Han and Kamber 2001] .
1-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار
2-یکپارچه سازی داده: ترکیب منابع داده گوناگون
3-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده
4-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش
5-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی
6- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند
7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری [Lin & Yeh 2012] .
ابزارها و تکنیک های داده کاویبا توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. [Bolton & Hand 2002] در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران 1392[ .
روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روشهای آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرآیند داده کاوی حجم داده زیادی وجود داشته باشد.
در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روشهای میانگین گیری )ماهیانه، سالیانه و . . . (، روشهای محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد.
هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرآیند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند.
قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روشهای تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد [Gupta 2006].
روشهای داده کاوی عمده روشهای داده کاوی عبارتند از روشهای توصیف داده ها، روشهای تجزیه و تحلیل وابستگی، روشهای دسته بندی و پیشگویی، روشهای خوشه بندی، روشهای تجزیه و تحلیل نویز.
می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر نیزشناخته می شوند. روش های دسته بندی، رگرسیون و تشخیص انحراف از روشهای یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی و مجموعه داده های آزمایشی تقسیم می شود که با استفاده از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است.
یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته می شوند ]صنیعی آباده 1391[.

روشهای توصیف داده هاهدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روشهای داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود [Sirikulvadhana 2002] .
روشهای تجزیه و تحلیل وابستگی هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد[Gupta 2006] . یکی از روشهای متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند.
روشهای دسته بندی و پیشگویی
دسته بندی یک فرآیند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرآیند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه، بیز ساده و SVM است [Kumar and Verna 2012].
یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم.
PCA=PAC PCPAرگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود.
درخت تصمیمدرخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست [Patil et. al 2012] . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.

2-3-5-شبکه عصبیروش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد [Gupta 2006] . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد [P--han et. al 2011 ] .
2-3-6- استدلال مبتنی بر حافظهتوانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرآیند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود.
از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرآیند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند.
باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. [Tan et al 2006] . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود [Wilson and Martinez 1997] .
2-3-7-ماشین های بردار پشتیبانیSVM اولین بار توسط Vapnik در سال 1990 معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است [Ristianini and Shawe 2000] .
SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است [Kumar and Verna 2012] .
رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند.
2-3-8-روشهای خوشه بندی هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است که در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود [Osmar 1999] .
2-3-9- روش K-Meansیکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید[Xindong et al 2007].
2-3-10-شبکه کوهننشبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد.
2-3-11-روش دو گاماین روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با استفاده از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند.
2-3-12-روشهای تجزیه و تحلیل نویزبعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود [Osmar 1999].
دسته های نامتعادل]صنیعی آباده 1391[.
مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند.
در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود:
راهکار مبتنی بر معیار
راهکار مبتنی بر نمونه برداری
راهکار مبتنی بر معیاردر دسته بندی شایع ترین معیار ارزیابی کارایی دسته بند، معیار دقت دسته بندی است. در معیار دقت دسته بندی فرض بر یکسان بودن ارزش رکوردهای دسته های مختلف دسته بندی است. در راهکار مبتنی بر معیار بجای استفاده از معیار دقت دسته بندی از معیارهایی بهره برداری می شود که بتوان بالاتر بودن ارزش دسته های نادر و کمیاب را در آنها به نحوی نشان داد. بنابراین با لحاظ نمودن معیارهای گفته شده در فرآیند یادگیری خواهیم توانست جهت یادگیری را به سمت نمونه های نادر هدایت نماییم. از جمله معیارهایی که برای حل مشکل عدم تعادل دسته ها بکار می روند عبارتند از Recall, Precession, F-Measure, AUC و چند معیار مشابه دیگر.
2-4-2-راهکار مبتنی بر نمونه بردارینمونه برداری یکی از راهکارهای بسیار موثربرای مواجهه با مشکل دسته های نامتعادل است. ایده اصلی نمونه برداری آن است که توزیع نمونه ها را به گونه ای تغییر دهیم که دسته کمیاب به نحو پررنگ تری در مجموعه داده های آموزشی پدیدار شوند. سه روش برای این راهکار وجود دارد که عبارتند از:
الف- نمونه برداری تضعیفی:
در این روش نمونه برداری، توزیع نمونه های دسته های مساله به گونه ای تغییر می یابند که دسته شایع به شکلی تضعیف شود تا از نظرفراوانی با تعداد رکوردهای دسته نادر برابری کند. به این ترتیب هنگام اجرای الگوریتم یادگیری، الگوریتم ارزشی مساوی را برای دو نوع دسته نادر و شایع درنظر می گیرد.
ب- نمونه برداری تقویتی:
این روش درست برعکس نمونه برداری تضعیفی است. بدین معنی که نمونه های نادر کپی برداری شده و توزیع آنها با توزیع نمونه های شایع برابر می شود.
ج- نمونه برداری مرکب:
در این روش از هردو عملیات تضعیفی و تقویتی بصورت همزمان استفاده میشود تا توزیع مناسب بدست آید.
در این پژوهش با توجه به کمتر بودن نسبت نمونه نادر یعنی منجر به خسارت شده به نمونه شایع از روش نمونه برداری تضعیفی استفاده گردید که کل تعداد نمونه ها به حدود 3 هزار رکورد تقلیل پیدا کرد و توزیع نمونه ها به نسبت مساوی بوده است. شایان ذکر است این نمونه برداری پس از انجام مرحله پاک سازی داده ها انجام شد که خود مرحله پاکسازی با عث تقلیل تعداد نمونه های اصلی نیز گردیده بود.
پیشینه تحقیقسالهاست که محققان در زمینه بیمه و مسائل مرتبط با آن به تحقیق پرداخته اند و از جمله مسائلی که برای محققان بیشتر جذاب بوده است می توان به کشف تقلب اشاره کرد.
Brockett و همکاران [Brockett et. al 1998] ابتدا به کمک الگوریتم تحلیل مولفه های اصلی (PCA) به انتخاب ویژگی ها پرداختند و سپس با ترکیب الگوریتم های خوشه بندی و شبکه های عصبی به کشف تقلبات بیمه اتومبیل اقدام کردند. مزیت این کار ترکیب الگوریتمها و انتخاب ویژگی بوده که منجر به افزایش دقت خروجی بدست آمده گردید.
Phua و همکاران [ Phua et. al 2004] با ترکیب الگوریتم های شبکه های عصبی پس انتشاری ، بیزساده و درخت تصمیم c4.5 به کشف تقلب در بیمه های اتومبیل پرداختند.نقطه قوت این کار ترکیب الگوریتم ها بوده اما بدلیل عدم کاهش ویژگی ها و کاهش ابعاد مساله میزان دقت بدست آمده در حد اعلی نبوده است.
Allahyari Soeini و همکاران [Allahyari Soeini et. al 2012] نیز یک متدلوژی با استفاده از روشهای داده کاوی خوشه بندی ودرخت تصمیم برای مدیریت مشتریان ارائه دادند. از ایرادات این روش میتوان عدم استفاده از الگوریتم های دسته بندی و قوانین انجمنی را نام برد.
مورکی علی آباد ] مورکی علی‌آباد1390[ تحقیقی داشته است که اخیراً در زمینه بیمه صورت گرفته و درمورد طبقه‌بندی مشتریان صنعت بیمه با هدف شناسایی مشتریان بالقوه با استفاده از تکنیک‌های داده‌کاوی (مورد مطالعه: بیمه‌گذاران بیمه آتش‌سوزی شرکت بیمه کارآفرین (که هدف آن دسته بندی مشتریان صنعت بیمه بر اساس میزان وفاداری به شرکت، نوع بیمه نامه های خریداری شده، موقعیت جغرافیایی مکان های بیمه شده و میزان جذب به شرکت بیمه در بازه زمانی 4 سال گذشته بوده است. روش آماری مورد استفاده از تکنیک های داده کاوی نظیر درخت تصمیم و دسته بندی بود. این تحقیق نیز چون نمونه آن قبلا انجام شده بوده از الگوریتم های متفاوت استفاده نکرده است. همچنین سعی بر بهبود تحقیق قبلی نیز نداشته است. وجه تمایز این تحقیق با نمونه قبلی استفاده از ویژگی های متفاوت بوده است.
عنبری ]عنبری 1389[ نیز پژوهشی در خصوص طبقه بندی ریسک بیمه گذاران در رشته بیمه بدنه اتومبیل با استفاده از داده کاوی داشته است که هدف استفاده از داده های مربوط به بیمه نامه بدنه از کل شرکتهای بیمه (بانک اطلاعاتی بیمه خودرو) بوده و سعی بر آن شده است تا بررسی شود که آیا میتوان بیمه گذاران بیمه بدنه اتومبیل را از نظر ریسک طبقه بندی کرد؟ و آیا درخت تصمیم برای طبقه بندی بیمه گذاران بهترین ابزار طبقه بندی می باشد؟ و آیا سن و جنسیت از موثرترین عوامل در ریسک بیمه گذار محسوب می شود؟ نتایج این طبقه بندی به صورت درخت تصمیم و قوانین نشان داده شده است. ونتایج حاصل از صحت مدل درخت تصمیم با نتایج الگوریتم های شبکه عصبی و رگرسیون لجستیک مورد مقایسه قرار گرفته است. از مزیت های این تحقیق استفاده از الگوریتم های متفاوت و مقایسه نتایج حاصله برای بدست آوردین بهترین الگوریتم ها بوده است.
رستخیز پایدار]رستخیز پایدار 1389[ تحقیقی دیگر در زمینه بخش بندی مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) داشته است. با استفاده از مفاهیم شبکه خود سازمانده بخش بندی بر روی مشتریان بیمه بدنه اتومبیل بر اساس ریسک صورت گرفت. در این تحقیق عوامل تأثیرگذار بر ریسک بیمه گذاران طی دو مرحله شناسایی گردید. در مرحله اول هیجده فاکتور ریسک در چهار گروه شامل مشخصات جمعیت شناختی، مشخصات اتومبیل، مشخصات بیمه نامه و سابقه راننده از بین مقالات علمی منتشر گردیده در ژورنال های معتبر در بازه سال های 2000 الی 2009 استخراج گردید و در مرحله دوم با استفاده از نظرسنجی از خبرگان فاکتورهای نهایی تعیین گردید. مشتریان بیمه بدنه اتومبیل در این تحقیق با استفاده از شبکه های عصبی خودسازمانده به چهار گروه مشتریان با ریسک های متفاوت بخش بندی گردیدند. مزیت این تحقیق استفاده از نظر خبرگان بیمه بوده و ایراد آن عدم استفاده از ویژگی های بیشتر و الگوریتم های انتخاب ویژگی بوده است.
ایزدپرست  ]ایزدپرست1389[ همچنین تحقیقی در مورد ارائه چارچوبی برای پیش بینی خسارت مشتریان بیمه بدنه اتومبیل با استفاده از راهکار داده کاوی انجام داده است که چارچوبی برای شناسایی مشتریان بیمه بدنه اتومبیل ارائه می‌گردد که طی آن میزان خطرپذیری مشتریان پیش‌بینی شده و مشتریان بر اساس آن رده‌بندی می‌گردند. در نتیجه با استفاده از این معیار (سطح خطرپذیری) و نوع بیمه‌نامه مشتریان، میتوان میزان خسارت آنان را پیش‌بینی کرده و تعرفه بیمه‌نامه متناسب با ریسک آنان تعریف نمود. که این مطلب می‌تواند کمک شایانی برای شناسایی مشتریان و سیاستگذاری‌های تعرفه بیمه نامه باشد. در این تحقیق از دو روش خوشه‌بندی و درخت‌تصمیم استفاده می‌گردد. در روش خوشه‌بندی مشتریان بر اساس ویژگی هایشان در خوشه هایی تفکیک شده، سپس میانگین سطح خسارت در هر یک از این خوشه‌ها را محاسبه میکند. حال مشتریان آتی با توجه به اینکه به کدامیک از این خوشه‌ها شبیه تر هستند در یکی از آنها قرار می‌گیرند تا سطح خسارتشان مشخص گردد. در روش درخت‌تصمیم با استفاده از داده‌های مشتریان، درختی را بر اساس مجموعه‌ای از قوانین که بصورت "اگر-آنگاه" می‌باشد ایجاد کرده و سپس مشتریان جدید با استفاده از این درخت رده‌بندی می‌گردند. در نهایت هر دو این مدلها مورد ارزیابی قرار می‌گیرد. ایراد این روش در عدم استفاده از دسته بند ها بوده است. چون ماهیت تحقیق پیش بینی بوده است استفاده از دسته بند ها کمک شایانی به محقق در تولبد خروجی های حذاب تر می کرد.
خلاصه فصلعمده پژوهشهایی که درخصوص داده های بیمه ای صورت گرفته کمتر به سمت پیش بینی سود و زیان شرکتهای بیمه بوده است. در موارد مشابه نیزپیش بینی خسارت مشتریان انجام شده که هدف دسته بندی مشتریان بوده است. موضوع این پژوهش اگرچه از نوع همسان با تحقیقات گفته شده است اما در جزئیات بیمه شخص ثالث را پوشش می دهد که درکشور ما یک بیمه اجباری تلقی می شود. همچنین تعداد خصیصه هایی که در صدور یا خسارت این بیمه نامه دخالت دارند نسبت به سایر بیمه های دیگر بیشتر بوده ضمن اینکه بررسی سود یا زیان بیمه شخص ثالث با استفاده از دانش نوین داده کاوی کارتقریبا جدیدی محسوب می شود.

فصل سوم
2087880229743000
شرح پژوهشدر این فصل هدف بیان مراحل انجام این پژوهش و تحلیل خروجی های بدست آمده می باشد.

انتخاب نرم افزاردر اولین دهه آغاز به کار داده کاوی و در ابتدای امر، هنوز ابزار خاصی برای عملیات کاوش وجود نداشت و تقریبا نیاز بود تا تمامی تحلیل گران، الگوریتمهای موردنظر داده کاوی و یادگیری ماشین را با زبان های برنامه نویسی مانند c یا java یا ترکیبی از چند زبان پیاده سازی کنند. اما امروزه محیط های امکان پذیر برای این امر، با امکانات مناسب و قابلیت محاوره گرافیکی زیادی را می توان یافت]صنیعی آباده 1391[.
Rapidminerاین نرم افزار یک ابزار داده کاوی متن باز است که به زبان جاوا نوشته شده و از سال 2001 میلادی تا به حال توسعه داده شده است. در این نرم افزار سعی تیم توسعه دهنده بر این بوده است که تا حد امکان تمامی الگوریتم های رایج داده کاوی و همچنین یادگیری ماشین پوشش داده شوند. بطوری که حتی این امکان برای نرم افزار فراهم شده است تا بتوان سایر ابزارهای متن باز داده کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر پسند نرم افزار نیز آن را یک سرو گردن بالاتر از سایر ابزارهای رقیب قرار میدهد]صنیعی آباده 1391[.
مقایسه RapidMiner با سایر نرم افزار های مشابهدر اینجا دو نرم افزار مشهور متن باز را با RapidMiner مقایسه خواهیم کرد و معایب و مزایای آنها را بررسی می کنیم.
الف-R
یک زبان برنامه نویسی و یک پکیج داده کاوی به همراه توابع آماری است و بر پایه زبان های s و scheme پیاده سازی شده است. این نرم افزار متن باز، حاوی تکنیک های آماری مانند: مدل سازی خطی و غیرخطی، آزمون های کلاسیک آماری، تحلیل سری های زمانی، دسته بندی، خوشه بندی، و همچنین برخی قابلیت های گرافیکی است. R را می توان در محاسبات ماتریسی نیز بکار برد که این امر منجر به استفاده از آن در علم داده کاوی نیز می شود.
-مزایا:
شامل توابع آماری بسیار گسترده است.
بصورت بسیارمختصر قادر به حل مسائل آماری است.
دربرابر سایر نرم افزار های مرسوم کار با آرایه مانند Mathematica, PL, MATLAB, LISP/Scheme قدرت مند تر است.
با استفاده از ویژگی Pipeline قابلیت ترکیب بالایی را با سایر ابزارها و نرم افزارها دارد.
توابع نمودار مناسبی دارد.
-معایب:
فقدان واسط کاربری گرافیک
فقدان سفارشی سازی لزم جهت داده کاوی
ساختار زبانی کاملا متفاوت نسبت به زبان های برنامه نویسی مرسوم مانندc, PHP, java, vb, c#.
نیاز به آشنایی با زبانهای آرایه ای
قدیمی بودن این زبان نسبت به رقبا. این زبان در 1990 ساخته شده است.
ب- Scipy
یک مجموعه از کتابخانه های عددی متن باز برای برنامه نویسی به زبان پایتون است که برخی از الگوریتم های داده کاوی را نیز پوشش می دهد.
-مزایا
برای کاربردهای ریاضی مناسب است.
عملیات داده کاوی در این نرم افزار چون به زبان پایتون است راحت انجام می شود.
-معایب
الگوریتم های یادگیری مدل در این کتابخانه هنوز به بلوغ کامل نرسیده اند و درحال تکامل هستند.
برای پیاده سازی الگوریتم های داده کاوی توسط این ابزار باید از ترکیب های متفاوت آنچه در اختیار هست استفاده کرد.
ج-WEKA
ابزار رایج و متن باز داده کاوی است که کتابخانه های آماری و داده کاوی بسیاری را شامل میشود. این نرم افزار بوسیله جاوا نوشته شده است و در دانشگاه وایکاتو در کشور نیوزلند توسعه داده شده است.
-مزایا
دارای بسته های فراوان یادگیری ماشین.
دارای نمای گرافیکی مناسب.
مشخصا به عنوان یک ابزار داده کاوی معرفی شده است.
کار کردن با آن ساده است.
اجرای همزمان چندین الگوریتم و مقایسه نتایج.
همانطور که مشخص شد weka در مقابل دیگر نرم افزار های بیان شده به لحاظ قدرت و کاربر پسندی به Rapidminer نزدیک تر است و شباهت های زیادی به هم دارند زیرا که:
هردو به زبان جاوا نوشته شده اند.
هردو تحت مجوزGPL منتشر شده اند.
Rapidminer بسیاری از الگوریتمهای weka را در خود بارگذاری میکند.
اما weka معایبی نسبت به Rapidminer دارد از جمله اینکه:
در اتصال به فایلهای حاوی داده Excel و پایگاه های داده که مبتنی بر جاوا نیستند ضعیف عمل میکند.
خواندن فایلهای csv به شکل مناسبی سازماندهی نشده است.
به لحاظ ظاهری در رده پایینتری قرار دارد.
در نهایت بعد از بررسی های انجام شده حتی در میان نرم افزار های غیرمتن باز تنها ابزاری که کارایی بالاتری از Rapidminer داشت statistica بود که متن باز نبوده و استفاده از آن نیازمند تقبل هزینه آن است]صنیعی آباده 1391[.
در یازدهمین و دوازدهمین بررسی سالانه KDDnuggets Data Mining / Analytics رای گیری با طرح این سوال که کدام ابزار داده کاوی را ظرف یک سال گذشته برای یک پروژه واقعی استفاده کرده ایددر سال 2010 از بین 912 نفر و در سال 2011 ازبین 1100 نفر انجام شد. توزیع رای دهندگان بدین صورت بوده است:
اروپای غربی 37%
آمریکای شمالی 35%
اروپای شرقی 10%
آسیا 6%
اقیانوسیه 4%
آمریکای لاتین 4%
آفریقا و خاورمیانه %4
نتایج به شرح جدول 3-1 بوده است :
جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی
2011 Vote 2010 Vote Software name
37. 8% 27. 7% Rapidminer
29. 8% 23. 3% R
24. 3% 21. 8% Excel
12. 1% 13. 6% SAS
18. 4% 12. 1% Your own code
19. 2% 12. 1% KNIMe
14. 4% 11. 8% WEKA
1. 6% 10. 6% Salford
6. 3% 8. 5% Statistica
همانطور که نتایج رای گیری مشخص میکند نرم افزار Rapidminer بیشترین استفاده کننده را دارد.
در این پایان نامه نیز عملیات داده کاوی توسط این نرم افزار انجام می شود. ناگفته نماند در قسمتهایی از نرم افزار minitab و Clementine12 نیز برای بهینه کردن پاسخ بدست آمده و بالابردن کیفیت نتایج استفاده شده است.

داده ها داده های مورد استفاده در این پژوهش شامل مجموعه بیمه نامه های شخص ثالث صادر شده استان کهگیلویه و بویراحمد در سال 1390 شمسی بوده که بیمه نامه های منجر شده به خسارت نیز در این لیست مشخص گردیده اند. تعداد کل رکوردها حدود 20 هزار رکورد بوده که از این تعداد تقریباً 7. 5 درصد یعنی حدود 1500 رکوردمنجر به خسارت گردیده اند.
3-2-1- انتخاب دادهداده مورد استفاده در این پژوهش شامل دو مجموعه داده به شرح زیر بوده است:
صدور: اطلاعات بیمه نامه های صادره
خسارت: جزئیات خسارت پرداختی ازمحل هر بیمه نامه که خسارت ایجاد کرده
3-2-2-فیلدهای مجموعه داده صدور
این فیلدها در حالت اولیه 137 مورد به شرح جدول 3-2 بوده است.
3-2-3-کاهش ابعاد
در این پژوهش بخاطر موثرنبودن فیلدهایی اقدام به حذف این مشخصه ها کرده و فیلدهای موثر نهایی به 42 فیلد کاهش یافته که به شرح جدول 3-3 بدست آمده اند. کاهش ابعاد میتواند شامل حذف فیلدهای موثر که دارای اثر بسیار ناچیز درمقابل دیگر فیلدها است نیز باشد.
جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
1 بیمه‌نامه 33 مدت بیمه 65 تعهدمازاد
2 سال‌صدوربیمه‌نامه 34 زمان‌شروع 66 کدنوع‌تعهدسرنشین
3 رشته‌بیمه 35 شغل‌بیمه‌گذار 67 میزان‌تعهدسرنشین
4 نمایش سند 36 سن‌بیمه‌گذار 68 حق‌بیمه‌ثالث‌قانونی
5 مکانیزه 37 سال‌کارت 69 ثالث قانونی+تعدددیات
6 دستی 38 سریال‌کارت 70 حق‌بیمه‌بند4
7 وب‌بنیان 39 کدوسیله‌نقلیه 71 حق‌بیمه‌ماده1
8 نام‌استان 40 کدزیررشته‌آمار 72 حق‌بیمه‌مازاد
9 نام‌شعبه 41 نوع‌وسیله‌نقلیه 73 حق‌بیمه‌سرنشین
10 کدشعبه 42 سیستم 74 مالیات
11 شعبه‌محل‌صدور 43 سال ساخت 75 مازادجانی
12 شعبه 44 رنگ 76 حق‌بیمه‌مازادمالی
13 نمایندگی‌محل‌صدور 45 شماره‌شهربانی 77 عوارض‌ماده92
14 کددولتی 46 شماره‌موتور 78 حق‌بیمه‌دریافتی
15 نمایندگی 47 شماره‌شاسی 79 tadodflg
16 دولتی 48 تعدادسیلندر 80 حق‌بیمه‌تعددخسارت
17 صادره‌توسط شعبه 49 کدواحدظ‌رفیت 81 جریمه‌بیمه‌مرکزی
18 کارمندی 50 ظرفیت 82 حق‌بیمه‌صادره‌شعبه
19 کدصادره‌توسط شعبه 51 شرح‌مورداستفاده 83 حق‌بیمه‌صادره‌نمایندگی
20 سریال‌بیمه‌نامه 52 یدک‌دارد؟ 84 کداضافه‌نرخ‌حق‌بیمه
21 شماره‌بیمه‌نامه 53 اتاق‌وسیله‌نقلیه 85 اضافه‌نرخ‌ثالث
22 نام‌بیمه‌گذار 54 نوع‌پلاک 86 اضافه‌نرخ‌بند4
23 آدرس‌بیمه‌گذار 55 جنسیت 87 اضافه‌نرخ‌مازاد
24 تلفن‌بیمه‌گذار 56 کدنوع‌بیمه‌نامه 88 تعدددیات
25 کدسازمان 57 نوع‌بیمه 89 اضافه‌نرخ‌تعدددیات
26 نام‌سازمان 58 بیمه‌نامه‌سال‌قبل 90 اضافه‌نرخ‌ماده‌یک
27 کدنوع‌بیمه 59 انقضاسال‌قبل 91 دیرکردجریمه
28 cbrn. cod 60 بیمه‌گرقبل 92 کدملی‌بیمه‌گذار
29 نوع‌بیمه 61 شعبه‌قبل 93 صادره‌توسط شعبه
30 تاریخ‌صدور 62 خسارت‌داشته‌؟ 94 نوع‌مستند1
31 تاریخ‌شروع 63 تعهدمالی 95 شماره‌مستند1
32 تاریخ‌انقضا 64 تعهدبدنی 96 تاریخ‌مستند1
ادامه جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
97 مبلغ‌مستند1 111 تخفیف ایمنی 125 کداقتصادی
98 شماره‌حساب1 112 سایرتخفیف ها 126 کدملی
99 بانک1 113 ملاحظات 127 تاریخ‌ثبت
100 نوع‌مستند2 114 نام‌کاربر 128 کدشعبه‌صادرکننده‌اصلی
101 شماره‌مستند2 115 تاریخ‌سند 129 کدنمایندگی‌صادرکننده‌اصلی
102 تاریخ‌مستند2 116 کدشهربانی 130 کدسازمان‌صادرکننده‌اصلی
103 مبلغ‌مستند2 117 شعبه‌محل‌نصب 131 سال
104 شماره‌حساب2 118 کدمحل‌نصب 132 ماه
105 بانک2 119 دستی/مکانیزه 133 نوع
106 تخفیف‌نرخ‌اجباری 120 تیک‌باحسابداری 134 crecno
107 تخفیف‌نرخ‌اختیاری 121 سال‌انتقال 135 type_ex
108 تخفیف عدم خسارت 122 ماه‌انتقال 136 updflg
109 تخفیف صفرکیلومتر 123 sysid 137 hsab_sync
110 تخفیف گروهی 124 trsid کداقتصادی
جدول شماره 3-3: فیلدهای نهایی داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
1 ماه 15 تعهدمازاد 29 تاریخ‌شروع
2 سال 16 تعهدبدنی 30 تاریخ‌صدور
3 کدنمایندگی‌صادرکننده‌اصلی 17 تعهدمالی 31 نام‌سازمان
4 تخفیف گروهی 18 بیمه‌نامه‌سال‌قبل 32 شماره‌بیمه‌نامه
5 تخفیف عدم خسارت 19 نوع‌بیمه 33 کارمندی
6 نوع‌مستند1 20 نوع‌پلاک 34 صادره‌توسط شعبه
7 دیرکردجریمه 21 شرح‌مورداستفاده 35 دولتی
8 کداضافه‌نرخ‌حق‌بیمه 22 ظرفیت 36 نمایندگی‌محل‌صدور
9 حق‌بیمه‌دریافتی 23 تعدادسیلندر 37 خسارتی؟
10 عوارض‌ماده92 24 سال ساخت 38 مبلغ خسارت
11 مالیات 25 سیستم 39 تاریخ ایجادحادثه
12 حق‌بیمه‌سرنشین 26 نوع‌وسیله‌نقلیه 40 بیمه گر زیاندیده اول
13 حق‌بیمه‌مازاد 27 مدت بیمه 41 تعداد زیاندیدگان مصدوم
14 حق‌بیمه‌ثالث‌قانونی 28 تاریخ‌انقضا 42 تعداد زیاندیدگان متوفی
در کاهش ابعاد این مساله برای حذف فیلدهای مختلف نظرات کارشناسان بیمه نیز لحاظ شده است. جدول 3-4 فیلدهای حذف شده و علت حذف آنها را بیان کرده است.
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها
نام فیلد حذف شده علت حذف
Crecno-type_ex-updflg-hsab_sync-کدمحل‌نصب-دستی/مکانیزه-تیک‌باحسابداری-سال‌انتقال-ماه‌انتقال-sysid-trsid-کدزیررشته آمار-نمایش سند-مکانیزه-دستی-وب‌بنیان-Cbrn. cod کاربرد آماری
نوع-کد شعبه صادرکننده-شعبه محل نصب-کدشهربانی-سایرتخفیف ها-تخفیف ایمنی-تخفیف صفر کیلومتر-تخفیف نرخ اختیاری-تخفیف نرخ اجباری-خسارت داشته؟-شعبه قبل-جنسیت-کد نوع بیمه نامه-یدک دارد-
اتاق وسیله نقلیه-سن بیمه گذار-شغل بیمه گذار-زمان شروع-کد نوع بیمه دارای مقدار یکسان یا null
کد سازمان صادر کننده-کد نوع تعهد سرنشین-کدواحدظرفیت-کد وسیله نقلیه-کد سازمان-کد صادره توسط-نمایندگی-کد دولتی بجای این کد از فیلد اسمی معادل آن استفاده شده است و یا برعکس زیرا در نتایج خروجی قابل فهم تر خواهد بود.
تاریخ ثبت-تاریخ سند-بیمه گر قبل-مبلغ -مستند 1و2-اضافه‌نرخ‌ثالث-4اضافه‌نرخ‌بند-
اضافه‌نرخ‌مازاد-میزان تعهد سرنشین-تعدددیات-اضافه‌نرخ‌تعدددیات-اضافه‌نرخ‌ماده‌یک-تاریخ مستند1و2-شماره -حساب 1و2-بانک1و2 دارای مقدار تکراری
کدملی-بیمه نامه-کداقتصادی-نوع مستند2-
شماره مستند1و2-نام کاربر-ملاحظات-
کدملی بیمه گذار-شماره شاسی-شماره موتور-
شماره شهربانی-سریال کارت-سال کارت-
نام‌استان-نام‌شعبه-کدشعبه-شعبه‌محل‌صدور
شعبه-سال‌صدوربیمه‌نامه-رشته‌بیمه-رنگ-تلفن بیمه گذار-نام بیمه گذار-آدرس بیمه گذار-سریال بیمه نامه بدون تاثیر
حق‌بیمه‌تعددخسارت-جریمه‌بیمه‌مرکزی-
حق‌بیمه‌صادره‌شعبه-حق‌بیمه‌صادره‌نمایندگی-
مازادجانی-حق‌بیمه‌مازادمالی-حق بیمه ماده1-
حق بیمه ماده4-ثالث قانونی + تعدد دیات- انقضا سال قبل بخشی از فیلد انتخاب شده
جدول 3-5: فیلدهای استخراج شده از داده های خسارت
مبلغ خسارت
تاریخ ایجادحادثه
بیمه گر زیاندیده اول
تعداد زیاندیدگان مصدوم
تعداد زیاندیدگان متوفی
3-2-4- فیلدهای مجموعه داده خسارتاز مجموعه داده خسارت فقط فیلدهای مشخص کننده میزان خسارت و جزئیات لازم استخراج شده است. متاسفانه اطلاعات مفید تری مثل سن راننده مقصر، میزان تحصیلات و. . . در این مجموعه داده وجود نداشته است و چون هنگام ثبت خسارت برای یک بیمه نامه از اطلاعات کلیدی داده های صدور استفاده می شود، با توجه به اینکه از مرحله قبل مهمترین فیلدهای داده های صدور را در دسترس داریم بنابراین با ادغام فیلدهای خسارت و صدور به اطلاعات جامعی در خصوص یک بیمه نامه خاص دسترسی خواهیم داشت. مشخصه ها استخراج شده از داده های خسارت طبق جدول 3-5 است.

3-2-5-پاکسازی داده هاداده ها در دنیای واقعی ممکن است دارای خطا، مقادیر از دست رفته، مقادیر پرت و دورافتاده باشند [Jiawei Han, 2010]. در مرحله پاکسازی با توجه به نوع داده ممکن است یک یا چند روش پاکسازی بر روی داده اعمال شود.
3-2-6- رسیدگی به داده های از دست رفتهدر این قسمت از کار اقدام به رفع Missing data نموده که خود مرحله مهمی از پاکسازی داده بحساب می آید. در مرحله ابتدایی با مرتب سازی تمام ویژگی های قابل مرتب سازی در نرم افزار Microsoft Excel اقدام به کشف مقادیر از دست رفته کرده و از طریق دیگر ویژگی های هر رکورد مقدار از دست رفته را حدس زده ایم. همچنین درحین انتقال داده به محیط داده کاوی مقادیر از دست رفته نیز مشخص می گردند. در بعضی موارد بدلیل تعداد زیاد ویژگی های از دست رفته اقدام به حذف کامل رکورد نمودیم. این کار برای زمانی که داده ها در حجم انبوهی وجود دارند مفید واقع میشوند اما زمانی که تعداد رکوردها کم می باشد اجتناب از این عمل توصیه می شود. برای ویژگی نوع بیمه که از نوع چند اسمی بوده است فقط دو مقدار"کارمندی" و "عادی" وجود داشته که تعداد 49 مورد فاقد مقدار بوده است. کل تعداد بیمه کارمندی 27 مورد بوده است. با توجه به کم بودن تعداد داده های ازدست رفته این فیلد و پس از مقایسه نام بیمه گذاران با اسم کارمندان مشخص شد هیچ کدام از موارد فوق کارمندی نبوده و همه از نوع عادی بوده اند.
از جمله فیلدهای دارای مقادیر از دست رفته و روش رفع ایراد آنها عبارتند از:
سیستم*** 70 مورد***تشخیص با توجه به دیگر ویژگی ها
نوع وسیله نقلیه***33مورد***تشخیص با توجه به دیگر ویژگی ها
شرح مورد استفاده***11مورد***تشخیص با توجه به دیگر ویژگی هاتعدادسیلندر***2مورد***تشخیص با توجه به دیگر ویژگی ها
دولتی***28 مورد***تشخیص از روی پلاک
ماه***130 مورد***تشخیص از روی تاریخ صدور
نوع بیمه***49مورد***تشخیص از روی نام بیمه گذار
تعداد رکوردهایی که مقادیرازدست رفته در چند ویژگی مهم را داشته اند و حذف شده اند حدود 350 مورد بوده است.
3-2-7-کشف داده دور افتادهبعضی از مقادیر بسته به نوع داده علی رغم پرت تشخیص داده شدن مقادیر صحیحی می باشند. بنابراین حذف اینگونه داده ها برای کاستن پیچیدگی مساله میتواند موجب حذف قوانین مهمی در الگوریتم های مبتنی برقانون یا درختهای تصمیم شود. پس بررسی خروجی الگوریتم توسط یک فردخبره در موضوع مساله می تواند مانع از این اتفاق شود. نوع برخورد با داده پرت میتواند شامل حذف داده پرت، تغییر مقدار، حذف رکورد و در مواردی حذف مشخصه باشد.
برای تشخیص داده پرت از نمودار boxplot نرم افزار minitab 15 استفاده گردید. در این نمودار از مفهوم درصدک استفاده میشود که داده های بین 25% تا 75% که به ترتیب با Q1 و Q3 نشان داده می شوند مهم ترین بخش داده ها هستند. X50% نیز میانه را نشان می دهد و با یک خط در وسط نمودار مشخص می شود. Interquartile range (IQR) نیز مفهوم دیگری است که برابر است با IQR = Q3-Q1 .
مقادیر بیشتر از Q3 + [(Q3 - Q1) X 1. 5] و کمتر از Q1 - [(Q3 - Q1) X 1. 5]داده پرت محسوب می شوند. برای انجام اینکار نمودار boxplot را روی تک تک مشخصه های داده ها به اجرا در آورده و نتایج مطابق جدول 3-6 حاصل گردید.
جدول 3-6: نتایج نمودار boxplot
نام فیلد محاسبه مقادیر پرت توضیحات
تعداد زیاندیدگان متوفی Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقدار 1و2 نشان داده شده صحیح می باشد
تعداد زیاندیدگان مصدوم Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 1و2و3 نشان داده شده صحیح می باشد
بیمه گر زیاندیده اول Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقدار 1و2و3و. . . نشان داده شده صحیح می باشد و عدد 99 مقداری صحیح است که به معنی ندارد استفاده میگردد
مبلغ خسارت Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مبلغ خسارت 1.658.398.000 ریال و 900.000.000 ریال واقعا پرداخت گردیده است
تعداد سیلندر Q1=4, Q3=4, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=4
Q1 - [(Q3 - Q1) X 1. 5]=4مقدار 5 به عنوان تعداد سیلندر ناصحیح می باشد
ظرفیت Q1=5, Q3=5, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=5
Q1 - [(Q3 - Q1) X 1. 5]=5 مقادیر بین 1 تا 96 ظرفیتهای منطقی بر اساس تناژ یا سرنشین بوده و صحیح است اما مقدار 750 نا صحیح است
نوع پلاک Q1=3, Q3=3, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=3
Q1 - [(Q3 - Q1) X 1. 5]=3 مقادیر با مفهوم بوده و دور افتاده نیست
بیمه نامه سال قبل Q1=1, Q3=1, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=1
Q1 - [(Q3 - Q1) X 1. 5]=1 مقادیر عددی 0 یا 1 به معنی داشتن یا نداشتن بوده و صحیح است
تعهدات مالی Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه ثالث قانونی Q1=1992600, 3=3332500, IQR=1339900
Q3 + [(Q3 - Q1) X 1. 5]=5342350
Q1 - [(Q3 - Q1) X 1. 5]=17250 مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه مازاد Q1=0, Q3=9100, IQR=9100
Q3 + [(Q3 - Q1) X 1. 5]=22750
Q1 - [(Q3 - Q1) X 1. 5]=13650 مقادیر با مفهوم بوده و دور افتاده نیست
دیرکرد جریمه Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقادیر با مفهوم بوده و دور افتاده نیست
تخفیف عدم خسارت Q1=610080, Q3=1495200, IQR=885120
Q3 + [(Q3 - Q1) X 1. 5]=2822880
Q1 - [(Q3 - Q1) X 1. 5]=717600 مقادیر با مفهوم بوده و دور افتاده نیست
3-2-8-انبوهش دادهبا ادغام کردن داده های صدور و خسارت به خلق ویژگیهای جدیدی دست زده ایم. چون داده ها در دو فایل جدا گانه بوده و حجم داده زیاد بوده است برای ادغام از پرس و جوی نرم افزار Microsoft Access استفاده شد. برای تشخیص بیمه نامه های خسارت دیده از فیلد شماره بیمه نامه که در هردوفایل مشترک بود استفاده کردیم.
3-2-9- ایجاد ویژگی دستهدر این مرحله پس از ادغام ویژگی های مختلف اقدام به ایجاد یک فیلد برای تمام رکوردهایی که منجر به خسارت شده اند می نماییم. این فیلد در الگوریتمهای دسته بندی مورد استفاده قرار خواهد گرفت. برای انجام این کار از یک پر و جوی Microsoft Access استفاده میکنیم.
3-2-10-تبدیل دادهجهت استفاده کاربردی تر از برخی ویژگی ها باید مقادیر آن ویژگی تغییر کند. یک نمونه از این کار تغییر مقدار ویژگی " دیرکرد جریمه " است. مقدار این فیلد مبلغ جریمه دیرکرد بیمه گذار بوده است که با تقسیم این مبلغ به عدد 13000 تعداد روزهای تاخیر در تمدید بیمه نامه افراد مشخص می شود، زیرا به ازای هر روز تاخیر مبلغی حدود 13000ریال در سال 1390 به عنوان جریمه دیرکرد از فرد متقاضی بیمه نامه دریافت می گردید.
3-2-11-انتقال داده به محیط داده کاویپس از انجام پاکسازی، داده باید به محیط داده کاوی منتقل شود. در خلال این انتقال نیاز به تعریف و یا تغییر نوع داده وجود دارد. در طول این تغییر داده ممکن است مقادیری از داده ها بدلیل ناسازگاری و یا دلایل مشابه به عنوان داده از دست رفته مشخص گردد و یا داده از دست رفته ای که قبلاً قابل تشخیص نبوده مشخص گردد. (شکل 3-1)

شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی
3-2-12-انواع داده تعیین شده
پس از انتقال داده به محیط داده کاوی، هر ویژگی به نوع خاصی از داده توسط نرم افزار تشخیص داده شد. پس از آن نوع داده تشخیصی مورد بررسی قرار گرفت و اشتباهات پیش آمده تصحیح گردیدند. همچنین گروهی از ویژگی ها که به هیچ نوع داده ای اختصاص داده نشده بود بصورت دستی به بهترین نوع ممکن اختصاص داده شد. چون برخورد الگوریتم ها با انواع داده ها متفاوت است با توجه به موضوع پژوهش بهترین نوع داده که بتواند نسبت به الگوریتم موثرترواقع شود برای هر ویژگی درنظر گرفته شد.
جدول نوع داده های مورد استفاده در این پژوهش به شرح جدول 3-7 است:
جدول 3-7: انواع داده استفاده شده
نام فیلد نوع فیلد
ماه-سال-کدنمایندگی‌صادرکننده‌اصلی- تعداد زیاندیدگان مصدوم- نوع‌پلاک- ظ‌رفیت- تعدادسیلندر- سال ساخت- مدت بیمه- نمایندگی‌محل‌صدور- تعداد زیاندیدگان متوفی-حق‌بیمه‌ثالث‌قانونی-تعهدمازاد-تعهدبدنی-تعهدمالی Integer
- نوع‌بیمه- شرح‌مورداستفاده- بیمه گر زیاندیده اول نوع‌مستند1- سیستم نوع‌وسیله‌نقلیه- نام‌سازمان-دولتی polynominal
دیرکردجریمه-کداضافه‌نرخ‌حق‌بیمه-حق‌بیمه‌دریافتی-عوارض‌ماده92-مالیات-حق‌بیمه‌سرنشین-حق‌بیمه‌مازاد- تخفیف گروهی-تخفیف عدم خسارت- مبلغ خسارت real
بیمه‌نامه‌سال‌قبل- کارمندی- صادره‌توسط شعبه- خسارتی؟ binominal
تاریخ‌انقضا-تاریخ‌شروع-تاریخ‌صدور- تاریخ ایجادحادثه date
شماره‌بیمه‌نامه text
3-2-13-عملیات انتخاب ویژگیهای موثرتردر برخورد با برخی از الگوریتمها که با بیشتر شدن تعداد ویژگی پیچیدگی بیشتری نیز پیدا میکنند، مانند درختهای تصمیم، svm، Regression و شبکه های عصبی باید از ویژگی های کمتری استفاده کنیم. درکل انتخاب ویژگی برای استفاده در الگوریتم های دسته بندی تکنیک کارآمدی است. دراینجا ازتکنیکهای کاهش ویژگی و یا وزن دهی استفاده کرده و فیلدهای منتخبی که وزن بیشتری را دارند به عنوان ورودی الگوریتمها انتخاب گردیدند.
با توجه به اینکه احتمال ارزش دهی به یک ویژگی در تکنیکهای مختلف متغیر است و ممکن است ویژگی خاصی توسط یک تکنیک باارزش قلمداد شده و توسط تکنیکی دیگر بدون ارزش تلقی شود، نتیجه تمام تکنیکها Union, شده و فیلدهای حاصل به عنوان ورودی الگوریتم مشخص گردید.
3-3-نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی
نتایج حاصل از این تکنیک ها در شکل های 3-2 الی3-5 نمایش داده شده است.

شکل 3-2: نتایج الگوریتمPCA
در ارزشدهی به ویژگی ها

شکل 3-3: نتایج الگوریتم SVM Weighting
در ارزشدهی به ویژگی ها

شکل 3-4: نتایج الگوریتم
Weighting Deviation در ارزشدهی به ویژگی ها

شکل 3-5: نتایج الگوریتم Weighting Correlation
در ارزشدهی به ویژگی ها
3-4-ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگیلازم به توضیح است در تمام الگوریتمهایی که از 24 ویژگی جدول 3-8 استفاده شده است از تمام ویژگی ها نیز استفاده شده و نتایج با هم مقایسه گردیده اند و مشخص شد که وجود برخی ویژگی ها که در آن جدول قرار ندارند باعث کاهش دقت الگوریتم شده و در برخی الگوریتم ها نیز تفاوتی میان دو مقایسه مشخص نشد.
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف
نام فیلد نوع فیلد


تعهدمازاد- تعهدبدنی- تعهدمالی- نوع‌پلاک- ظ‌رفیت- تعدادسیلندر- سال ساخت- مدت بیمه- تعداد زیاندیدگان مصدوم- تعداد زیاندیدگان متوفی Integer
شرح‌مورداستفاده- سیستم- نوع‌وسیله‌نقلیه- بیمه گر زیاندیده اول polynominal
دیرکردجریمه- کداضافه‌نرخ‌حق‌بیمه- حق‌بیمه‌دریافتی- مالیات- حق‌بیمه‌سرنشین- حق‌بیمه‌ثالث‌قانونی- مبلغ خسارت real
بیمه‌نامه‌سال‌قبل- کارمندی- صادره‌توسط شعبه binominal
3-5-معیارهای ارزیابی الگوریتمهای دسته بندیدر این بخش توضیحاتی درخصوص چگونگی ارزیابی الگوریتم های دسته بندی و معیار های آن ارائه خواهد شد.
3-6-ماتریس درهم ریختگیماتریس در هم ریختگی چگونگی عملکرد دسته بندی را با توجه به مجموعه داده ورودی به تفکیک نشان میدهد که:
TN: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم نیز دسته آنها را به درستی منفی تشخیص داده است.
FP: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم دسته آنها را به اشتباه مثبت تشخیص داده است.
FN: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم دسته آنها را به اشتباه منفی تشخیص داده است.
TP: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم نیز دسته آنها را به درستی مثبت تشخیص داده است.
جدول 3-9: ماتریس در هم ریختگی
رکوردهای تخمینی(Predicted Records)
دسته+ دسته- FP TN دسته-
TP FN دسته+
1903095210185رکوردهای واقعی(Actual Records)
00رکوردهای واقعی(Actual Records)

مهمترین معیار برای تعیین کارایی یک الگوریتم دسته بندی معیاردقت دسته بندی است. این معیارنشان می دهد که چند درصد ازکل مجموعه رکوردهای آموزشی بدرستی دسته بندی شده است.
دقت دسته بندی بر اساس رابطه زیر محاسبه می شود:
CA=TN+TPTN+FN+TP+FP3-7-معیار AUCاین معیار برای تعیین میزان کارایی یک دسته بند بسیار موثر است. این معیار نشان دهنده سطح زیر نمودار ROC است. هرچقدرعدد AUC مربوط به یک دسته بند بزرگتر باشد، کارایی نهایی دسته بند مطلوب تر است. در ROC نرخ تشخیص صحیح دسته مثبت روی محور Y و نرخ تشخیص غلط دسته منفی روی محورX رسم میشود. اگر هر محور بازه ای بین 0و1 باشد بهترین نقطه در این معیار (0, 1) بوده و نقطه (0, 0) نقطه ای است که دسته بند مثبت و هشدار غلط هیچگاه تولید نمی شود.
3-8-روشهای ارزیابی الگوریتم های دسته بندیدر روشهای یادگیری با ناظر، دو مجموعه داده مهم به اسم داده های آموزشی و داده های آزمایشی وجود دارند. چون هدف نهایی داده کاوی روی این مجموعه داده ها یافتن نظام حاکم بر آنهاست بنابراین کارایی مدل دسته بندی بسیار مهم است. از طرف دیگر این که چه بخشی از مجموعه داده اولیه برای آموزش و چه بخشی به عنوان آزمایش استفاده شود بستگی به روش ارزیابی مورد استفاده دارد که در ادامه انواع روشهای مشهور را بررسی خواهیم کرد]صنیعی آباده 1391[.
روش Holdoutدر این روش چگونگی نسبت تقسیم مجموعه داده ها بستگی به تشخیص تحلیلگر داشته اما روش های متداول ازنسبت 50-50 و یا دو سوم برای آموزش و یک سوم برای آزمایش و ارزیابی استفاده میکنند.
مهم ترین حسن این روش سادگی و سرعت بالای عملیات ارزیابی می باشد اما معایب این روش بسیارند. اولین ایراد این روش آن است که بخشی از مجموعه داده اولیه که به عنوان داده آزمایشی است، شانسی برای حضور در مرحله آموزش ندارد. بدیهی است مدلی که نسبت به کل داده اولیه ساخته می شود، پوشش کلی تری را بر روی داده مورد بررسی خواهد داشت. بنابراین اگر به رکوردهای یک دسته در مرحله آموزش توجه بیشتری شود به همان نسبت در مرحله آزمایش تعدادرکوردهای آن دسته کمتر استفاده می شوند.
دومین مشکل وابسته بودن مدل ساخته شده به، نسبت تقسیم مجموعه داده ها است. هرچقدر داده آموزشی بزرگتر باشد، بدلیل کوچکتر شدن مجموعه داده آزمایشی دقت نهایی برای مدل یادگرفته شده غیرقابل اعتماد تر خواهد بود. و برعکس با جابجایی اندازه دو مجموعه داده چون داده آموزشی کوچک انتخاب شده است، واریانس مدل نهایی بالاتربوده و نمی توان دانش کشف شده را به عنوان تنها نظم ممکن درمجموعه داده اولیه تلقی کنیم.
روش Random Subsamplingاگر روش Holdout را چند مرتبه اجرا نموده و از نتایج بدست آمده میانگین گیری کنیم روش قابل اعتماد تری را بدست آورده ایم که Random Subsampling نامیده می شود.
ایراد این روش عدم کنترل بر روی تعداد استفاده از یک رکورد در آموزش یا ارزیابی می باشد.
3-8-3-روش Cross-Validationاگر در روش Random Subsampling هرکدام از رکوردها را به تعداد مساوی برای یادگیری و تنها یکبار برای ارزیابی استفاده کنیم روشی هوشمندانه تر اتخاذ کرده ایم. این روش در متون علمی Cross-Validation نامیده می شود. برای مثال مجموعه داده را به دوقسمت آموزش و آزمایش تقسیم میکنیم و مدل را بر اساس آن می سازیم. حال جای دوقسمت را عوض کرده و از مجموعه داده آموزش برای آزمایش و از مجموعه داده آزمایش برای آموزش استفاده کرده و مدل را می سازیم. حال میانگین دقت محاسبه شده به عنوان میانگین نهایی معرفی می شود. روش فوق 2-Fold Cross Validation نام دارد. اگر بجای 2 قسمت مجموعه داده به K قسمت تقسیم شود، و هر بار با K-1 قسمت مدل ساخته شود و یک قسمت به عنوان ارزیابی استفاده شود درصورتی که این کار K مرتبه تکرار شود بطوری که از هر قسمت تنها یکبار برای ارزیابی استفاده کنیم، روش K-Fold Cross Validation را اتخاذ کرده ایم. حداکثر مقدار k برابر تعداد رکوردهای مجموعه داده اولیه است.
3-8-4-روش Bootstrapدر روشهای ارزیابی که تاکنون اشاره شدند فرض برآن است که عملیات انتخاب نمونه آموزشی بدون جایگذاری صورت می گیرد. درواقع یک رکورد تنها یکبار در یک فرآیند آموزشی شرکت داده می شود. اگر یک رکورد بیش از یک مرتبه در عملیات یادگیری مدل شرکت داده شود روش Bootstrap را اتخاذ کرده ایم. در این روش رکوردهای آموزشی برای انجام فرآیند یادگیری مدل ازمجموعه داده اولیه به صورت نمونه برداری با جایگذاری انتخاب خواهند شد و رکوردهای انتخاب نشده جهت ارزیابی استفاده می شود.
3-9-الگوریتمهای دسته بندیدر این بخش به اجرای الگوریتم های دسته بندی پرداخته و نتایج حاصل را مشاهده خواهیم کرد.
درالگوریتمهای اجرا شده از هر سه روش Holdout, k fold Validation, Bootstrap استفاده شده است و نتایج با هم مقایسه شده اند. در روشHoldout که در نرم افزار با نام Split Validation آمده است از نسبت استاندارد آن یعنی 70 درصد مجموعه داده اولیه برای آموزش و 30 درصد برای آزمایش استفاده شده است. برای k fold Validation مقدار k برابر 10 درنظر گرفته شده است که مقدار استانداردی است. در Bootstrap نیز مقدار تقسیم بندی مجموعه داده برابر 10 قسمت درنظر گرفته شده است. مقدار local random seed نیز برابر عدد 1234567890 می باشد که برای همه مدلها، نرم افزار از آن استفاده می کند مگر اینگه در مدل خاصی عدم استفاده از آن ویا تغییر مقدارموجب بهبود عملکرد الگوریتم شده باشد که قید میگردد. اشکال 3-6و3-7 چگونگی استفاده از یک مدل ارزیابی را در Rapidminer نشان می دهد.

شکل 3-6: نمای کلی استفاده از روشهای ارزیابی

شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی
الگوریتم KNNدر انتخاب مقدار k اعداد بین 1 تا 20 و همچنین اعداد 25 تا 100 با فاصله 5 آزمایش شدند. بهترین مقدار عدد 11 بوده است.
پس از اجرای الگوریتم، بهترین نتیجه مربوط به ارزیابی Split Validation با دقت91.23%بوده است. نمودار AUC آن در شکل 3-8 ترسیم شده است.
25768302223135آستانه قابل قبول
020000آستانه قابل قبول
716280-63500دسته مثبت
020000دسته مثبت

شکل 3-8: نمودار AUC الگوریتم KNN
الگوریتم Naïve Bayesاین الگوریتم پارامترخاصی برای تنظیم ندارد.
بهترین نتیجه مربوط به ارزیابی Split Validation با دقت 96.09% بوده است. نمودار AUC آن در شکل 3-9 ترسیم شده است.
22872701749425آستانه قابل قبول
020000آستانه قابل قبول
7689856985دسته مثبت
020000دسته مثبت

شکل 3-9: نمودار AUC الگوریتم Naïve Bayes
الگوریتم Neural Networkتکنیک شبکه عصبی استفاده، مدل پرسپترون چندلایه با 4 نرون در یک لایه نهان بوده است.
تنظیمات الگوریتم شبکه عصبی به شرح زیر بوده است:
Training cycles=500
Learning rate=0.3
Momentum=0.2
Local random seed=1992
چون این الگوریتم فقط از ویژگیهای عددی پشتیبانی می کند، از عملگرهای مختلفی برای تبدیل مقادیر غیرعددی به عدد استفاده شده است. به همین دلیل تنها از روش Split validation با نسبت 70-30برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام گرفت.
شکل3-10 عملیات انجام شده را نشان می دهد.

شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی
نتیجه اجرای الگوریتم Neural Network دقت 91.25%بوده ماتریس آشفتگی آن و نمودار AUC در شکل 3-11 رسم شده است.

29222702265680آستانه قابل قبول
020000آستانه قابل قبول
725170-55245دسته مثبت
020000دسته مثبت

شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net
الگوریتم SVM خطیدر این الگوریتم نیز بدلیل عدم پشتیبانی از نوع داده اسمی از عملگرهای مختلفی برای تبدیل مقادیر غیرعددی به عدد استفاده شده است. به همین دلیل تنها از روش Split validation با نسبت 70-30 برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام شد.
شکل3-12 عملیات انجام شده را نشان می دهد.

شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی
پارامترهای الگوریتم عبارتند از :
Kernel cache=200
Max iteretions=100000
نتیجه حاصل از اجرای الگوریتم SVM خطی دقت 98.54% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-13 رسم شده است.

25711152215515آستانه قابل قبول
020000آستانه قابل قبول
1045845-111760دسته مثبت
020000دسته مثبت

شکل 3-13 : نمودار AUC الگوریتم SVM Linear
3-9-5-الگوریتم رگرسیون لجستیک
در این الگوریتم از روش Split validation با نسبت 70-30برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام شد.
نتیجه حاصل از اجرای الگوریتم رگرسیون لجستیک دقت 98.54% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-14 رسم شده است.

25482552319020آستانه قابل قبول
020000آستانه قابل قبول
974725-249555دسته مثبت
020000دسته مثبت

شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک
3-9-6- الگوریتم Meta Decision Treeدر این الگوریتم که یک درخت تصمیم است، از روش Split validationبا نسبت 70-30 برای ارزیابی استفاده شده است که دقت 96.64% اقدام به پیش بینی خسارت احتمالی نموده است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-15 رسم شده است.

26714452353945آستانه قابل قبول
020000آستانه قابل قبول
835660-73660دسته مثبت
020000دسته مثبت

شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree
با توجه به اندازه بزرگ درخت خروجی فقط قسمتی از آن در شکل 3-16 بصورت درخت نمایش داده می شود. در شکل 3-17 درخت بصورت کامل آمده است اما نتایج آن در فصل چهارم مورد تفسیر قرار خواهند گرفت.

شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree

شکل 3-17 : نمودار --ial الگوریتم Meta Decision Tree
3-9-7-الگوریتم درخت Wj48چون RapidMiner توانایی استفاده ازالگوریتمهای نرم افزار WEKA را نیز دارد، در بسیاری از الگوریتم ها قدرت مند تر عمل میکند. Wj48 نسخه WEKA از الگوریتمj48 است.
پارامترهای این الگوریتم عبارتند از:
C=0.25
M=2
در این الگوریتم از روش ارزیابی 10 Fold Validation استفاده شده است و دقت پیش بینی آن برابر 99.52% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-18 رسم شده است. نمای درخت در شکل 3-19 ترسیم شده است.

35471102441575آستانه قابل قبول
020000آستانه قابل قبول
908685160020دسته مثبت
020000دسته مثبت

شکل 3-18: نمودار AUC الگوریتم Wj48

شکل 3-19 : نمودار tree الگوریتم Wj48
3-9-8-الگوریتم درخت Random forest در این الگوریتم از هر سه روش ارزیابی بیان شده در قسمت 3-9 استفاده شده است، که بهترین کارایی مربوط به ارزیاب Split Validation با دقت96.72% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-20 رسم شده است.

—d1128

3-3-2- بهبود طراحی سایت25
3-3-3- ارزیابی اثربخشی تبلیغات26
3-3-4- یاری رساندن به انتخاب نوع محصولات26
3-4- شخصی سازی وب27
3-5- سیستم هوشمند مدیریت ارتباط با مشتری28
3-6- روش Visual Web Log Miner28
3-7- تحلیل جریان های کلیک29
3-7-1- تحلیل ترافیک30
3-7-2- تحلیل تجارت الکترونیک30
3-8- روش های مشاهده اطلاعات کاربران32
3-9- هوش تجاری34
3-10- مدیریت ارتباط با مشتریان الکترونیکی36
3-11- مدل رفتاری مشتریان39
3-12- وب سایت های انطباقی41
3-13- خلاصه فصل41
فصل چهارم42
4- ارائه روش پیشنهادی43
4-1- مقدمه43
4-2- معرفی روش پیشنهادی43
4-2-1- توسعه دانش تجاری و دانش مربوط به درک مشتریان44
4-2-2- تجزیه و تحلیل نیازمندی ها برای طراحی سایت45
4-2-3- تحلیل موقعیت سازمان در فضای رقابتی47
4-2-4- انجام فعالیت های تجاری در دنیای مجازی47
4-2-5- تهیه بازخورد از رفتار مشتریان و به روز رسانی وضعیت موجود در جهت پیشبرد اهداف سازمان 48
4-3- ارزیابی روش پیشنهادی 49
4-4- انتخاب نرم افزار50
4-5- تکنیک های مورد استفاده52
4-5-1- مدل های درخت تصمیم52
4-5-1-1- مدل C&R53
4-5-1-2- مدل CHAID54
4-5-1-3- مدل QUEST56
4-5-1-4- مدل C559
4-5-2- خوشه بندی60
4-5-3- قوانین انجمنی63
4-6- خلاصه فصل65
فصل پنجم66
5- مقایسه و نتیجه گیری67
5-1- جمع بندی مطالب67
5-2- مقایسه نتایج67
5-3- عوامل موثر بر پیاده سازی71
5-4- چالش های پیاده سازی71
5-5- نتیجه گیری72
5-6- پیشنهاداتی برای مطالعات آینده72
منابع فارسی74
منابع انگلیسی75

فهرست جداول
عنوان و شماره صفحه
جدول 3-1- تکنیک های موثر در زمینه تجارت و هوش تجاری35
جدول 3-2- گام های e-CRM37
جدول 3-3- ارتباط بین بازاریابی، اهداف، مدیریت ارتباط با مشتری و فناوری اطلاعات37
جدول 3-4- پیاده سازی چارچوب e-CRM38
جدول 4-1- فیلد های مورد سنجش50
جدول 5-1- مقایسه تکنیک های مطرح شده68
جدول 5-2- مقایسه روش های معرفی شده و روش پیشنهادی69
فهرست شکل ها و تصاویر
عنوان و شماره صفحه
شکل 2-1- چرخه تعاملات سازمان و مشتریان10
شکل 2-2- ساختار اطلاعاتی در مدیریت ارتباط با مشتری10
شکل 2-3- رابطه مدیریت ارتباط با مشتری و عملکرد بازاریابی11
شکل 2-4- ابعاد اصلی مدیریت ارتباط با مشتری الکترونیک13
شکل 2-5- مراحل وب کاوی16
شکل 2-6- ارتباط بین تکنیک های وب کاوی 18
شکل 3-1- مدل پیشنهادی برای مدیریت ارتباط با مشتری و هوش تجاری23
شکل 3-2- وب کاوی در تجارت الکترونیک25
شکل 3-3- معماری روش وب سرور32
شکل 3-4- مدل رفتاری مشتریان40
شکل 4-1- صفحه اول نرم افزار کلمنتاین نسخه 1251
شکل 4-2- اولویت بندی فیلدهای منتخب توسط الگوریتم C&R53
شکل 4-3- درخت C&R54
شکل 4-4- اولویت بندی فیلدهای منتخب توسط الگوریتم CHAID55
شکل 4-5- درخت CHAID56
شکل 4-6- اولویت بندی فیلدهای منتخب توسط الگوریتم QUEST57
شکل 4-7- درخت QUEST58
شکل 4-8- اولویت بندی فیلدهای منتخب توسط الگوریتم C559
شکل 4-9- درخت C560
شکل 4-10- تعداد تکرار بهینه در الگوریتم K-Means61
شکل 4-11- نمایش خوشه ها62
شکل 4-12- اندازه خوشه های بدست آمده از الگوریتم K-Means62
شکل 4-13- قسمتی از قوانین بدست آمده از الگوریتم GRI64
فصل اول
1- مقدمه
با افزایش فروشگاه های مجازی و تراکنش های تجارت الکترونیک، فضای وب مشتاقانی را که به دنبال مدل های جدید کسب و کار، افزایش درآمد و گسترش دامنه مشتریان خود از طریق کانال فروش برخط هستند؛ به خود جذب نموده است.
به طور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع‏رسانی جهانی، شرکت ها و سازمان ها را با حجم زیادی از داده و اطلاعات مواجه می‏کند که نیازمند وجود فناوری های جدید و ابزارهای خودکاری است که به صورت هوشمند این حجم زیاد داده را به اطلاعات و دانش تبدیل کند که داده کاوی و وب کاوی نمونه هایی از این فناوری ها می باشد. امروزه وب سایت ها نقش مهمی در ارائه اطلاعات و دانش به کاربران نهایی دارند. الگوهای استفاده از وب و وب کاوی برای کشف اطلاعات پنهان، معنی دار و در حال رشد، مورد استفاده قرار می گیرد [Kundu 2012].
با ظهور اینترنت و توسعه تجارت الکترونیکی، نحوه تجارت و داد و ستد شکل تازه ای به خود گرفته است. با توجه به حجم معاملات تجارت الکترونیکی، شرکت ها در معرض رقابتی سنگین قرارگرفته اند. با توجه به اهمیت و تاثیر رضایت و وفاداری مشتری در بیشتر نمودن سهم بازار، سازمان ها به مدیریت ارتباط با مشتری به عنوان ابزاری برای افزایش سودآوری خود می نگرند. با توجه به پیشرفت فناوری و افزایش رقابت، مهمترین چالش پیش روی هر سازمان اقتصادی افزایش سود سازمان است. در شرایط دشوار رقابت، ارتباط به هنگام و سازمان یافته با مشتریان، مناسب ترین راه افزایش رضایت مشتری، افزایش فروش و در عین حال کاهش هزینه ها می باشد [عباسی و ترکمنی 1389]. یک تجارت الکترونیک موفق از راهبردهای خدماتی خوب استفاده می کند که سبب ایجاد وفاداری در مشتری می گردد. هر تماس مشتری با فروشگاه تجارت الکترونیک، کارمندان آن، وب سایت، پشتیبانی، مرکز تماس و سایر خدمات مرتبط، بر نظر فرد نسبت به آن شرکت یا سازمان اثر دارد. فناوری های وب فرصت منحصر به فردی در ارتباط تک به تک با مشتری ایجاد نموده است. به همین دلیل ارائه سرویس و خدمات استثنایی برای مشتری بهترین راه پیشرفت برای وب سایت است.
1-1- ضرورت و اهمیت مدیریت ارتباط با مشتری
وب کاوی با استفاده از فنون داده کاوی در جهت بازیابی، استخراج و ارزیابی خودکار اطلاعات به منظور کشف دانش از مدارک و خدمات وب می پردازد و اطلاعات ساختاری وب مانند پیوندهای بین صفحات وب و اطلاعات مربوط به نحوه استفاده کاربران از وب را تجزیه و تحلیل می کند. وب کاوی می تواند در حوزه هایی مانند تحلیل و مدیریت بازار، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک مورد استفاده قرار گیرد. عرضه‏ محصولات با کیفیت برتر و ارائه‏‏ خدمات به مشتریان در سطح عالی و به طور مستمر موجب ایجاد مزیت‏های رقابتی برای شرکت ها و سازمان ها می گردد و همچنین می تواند باعث ایجاد وفاداری در مشتریان و حفظ بلند مدت آن ها گردد.
مشتریانی که از محصولات خریداری شده یا خدمات ارائه شده راضی نیستند تجربه‏ خود را به دیگران منتقل می‏کنند و زمینه کاهش درآمد و سود شرکت را فراهم آورد. انتظارات، نیازها و خواسته‏های در حال تغییر، دلالت بر این موضوع دارد که ارزیابی رضایتمندی مشتری به صورت مداوم بسیار ضروری است [Emtiyaz & Keyvanpour 2011].
بی شک می توان گفت مهم ترین دارایی اغلب سازمان ها مشتریان آن ها هستند. مشتریان به خاطر ارتباط مستقیمی که با اقدامات یک سازمان دارند، منبع ارزشمندی برای فرصت ها، تهدیدات و سوالات عملیاتی مرتبط با صنعت مربوطه می باشند. امروزه برای رشد و بقا در عرصه رقابت اقتصادی، شرکت ها و سازمان ها باید به مشتری مداری اهمیت ویژه ای داده و ارتباط خود را با خریداران کالا بیش از پیش افزایش دهند [عباسی و ترکمنی 1389].
1-2- اهداف مدیریت ارتباط با مشتری در حوزه تجارت الکترونیک

در روندهای کسب و کاری جدید، بدست آوردن رضایت مشتریان جایگاهی مهم و حیاتی در اهداف شرکت ها به خود اختصاص داده است و مدیران ارشد به خوبی می دانند موفقیت آن ها در راه رسیدن به اهداف کلان سازمان، در گرو جلب رضایت مشتریان است. هدف از مدیریت ارتباط با مشتری، توانمندسازی سازمان برای ارائه خدمات بهتر به مشتریان از طریق ایجاد فرآیندهای خودکار و یکپارچه برای جمع آوری و پردازش اطلاعات مشتریان است [عباسی و ترکمنی 1389].
در مجموع دستیابی به مزایای زیر، از اهداف مدیریت ارتباط با مشتری در حوزه تجارت الکترونیکی است [میرفخرالدینی و همکاران 1388]:
افزایش آگاهی از موجودیت آنلاین شرکت؛
افزایش اعتماد و اعتبار شرکت در محیط آنلاین؛
تقویت برداشت ها از شرکت به عنوان کسب و کاری که از فناوری های پیشرفته استفاده می کند؛
افزایش حمایت ایجاد شده برای مشتریان در طول فرآیند خرید و بعد از آن؛
افزایش تعداد کل کاربران وکاهش هزینه جذب مشتریان جدید؛
افزایش تعداد مشتریانی که موجب درآمد و مزایای بیشتر هستند؛
افزایش نرخ رسیدگی و حل شکایات مشتریان و پاسخگویی به سوالات کاربران؛
افزایش و بهبود استفاده از فناوری های پیشرفته در مقایسه با رقبا؛
به کارگیری بسیار سریع تر و موثر فرآیندهای تجاری در شرکت؛
افزایش قابلیت فرآیندهای تجاری مورد استفاده در شرکت؛
بهبود مدیریت محتوای سایت و افزایش قابلیت سوددهی؛
افزایش تنوع خدمات ارائه شده در سایت مانند پست الکترونیک، تلفن های ضروری، سیستم پاسخگویی سریع.
مدیریت ارتباط با مشتری خوب و موثر نیاز به درک روشنی از نیازهای مشتری دارد. مدیریت باید به نیازهای روز مشتریان توجه داشته باشد و بر این اساس آن ها عمل کند. جمع آوری اطلاعات در مورد مشتریان و تجزیه و تحلیل از صفحه های شخصی آن ها برای داده های بزرگ آسان نیست [Venkata Krishna et.al 2012]. مهم ترین کاربرد وب کاوی در حوزه تجارت الکترونیک و اقتصاد منجر به تشخیص بسیاری از حقایق و عوامل موثر در مدیریت ارتباط با مشتری و خدمات موثر بر مشتریان از طریق رفتار و برقراری ارتباط با سیستم می باشد [Emtiyaz & Keyvanpour 2011]. بنابراین وب کاوی کمک شایانی در شناخت سریع مشتری و کاهش هزینه‏های مربوط به بررسی مشتریان می‏کند. وب کاوی یکی از عناصر مدیریت ارتباط با مشتری در حوزه تجارت الکترونیک است و می‏تواند به حرکت شرکت‏ها به سمت مشتری محوری کمک کند. در فرآیند وب کاوی در مدیریت ارتباط با مشتری داده‏های خام از منابع مختلفی جمع‏آوری می‏شوند و به دانش و اطلاعات مفید تبدیل می گردد. وب کاوی توسط تکنیک های داده کاوی می‏تواند سودآوری مشتری‏های بالقوه را که می‏توانند به مشتریان بالفعل تبدیل شوند، پیش‏بینی کند. پس از طریق وب کاوی می توان ارزش مشتریان را تعیین، رفتار آینده آن ها را پیش‏بینی و تصمیمات آگاهانه‏ای را در این رابطه اتخاذ نمود [Gupta & Todwal 2012].
1-3- هدف پژوهش
به دلیل رقابت شدید در تجارت الکترونیک، تصمیمات اتخاذ شده جهت جذب مشتریان بهتر و نگهداری آن ها جهت موفقیت و بقای تجارت لازم است و ایجاد یک طرح مدیریت موثر ارتباط با مشتری و طراحی مناسب وب سایت ها با استفاده از تکنیک های وب کاوی به نظر می رسد تنها راه پیشروی باشد و تکنیک های وب کاوی می توانند تا حد چشمگیری به موفقیت تجارت الکترونیکی کمک نمایند. در پژوهش پیش رو، هدف تدوین و ارائه روشی بهبود یافته نسبت به روش های موجود در حوزه تجارت الکترونیک و مشتری مداری در دنیای مجازی است، به گونه ای که سبب افزایش میزان رضایت و وفاداری مشتریان، افزایش سودآوری شرکت ها و سازمان ها و ارتقای نسبی شرایط موجود در بازارهای رقابتی گردد.
1-4- مراحل انجام تحقیق
به منظور ارزیابی روش پیشنهادی، رفتار 125 مشتری اینترنتی بررسی شده است تا مواردی که از نظر آنان در مراجعه به یک فروشگاه مجازی اهمیت دارد، شناسایی شود. این موارد در 14 فیلد دسته بندی شده و سپس توسط تکنیک های مرسوم داده کاوی که در مورد وب کاربرد دارد؛ تحلیل شده است تا بتوان مناسب ترین تکنیک را برای سنجش کارایی سایت تجارت الکترونیک و در نتیجه رضایتمندی مشتریان و حفظ وفاداری آنان شناسایی نمود.
1-5- ساختار پژوهش
این پژوهش در پنج فصل تنظیم شده است. در فصل اول مقدمه، ضرورت، اهمیت و اهداف مدیریت ارتباط با مشتری، هدف پژوهش و مراحل انجام تحقیق بیان گردید. فصل دوم شامل ادبیات موضوع و مبانی نظری در زمینه مدیریت ارتباط با مشتری و کاربردهای داده کاوی و وب کاوی است. فصل سوم به بیان تحقیقات انجام شده می پردازد و مزایا و معایب روش های موجود بررسی می گردد. در فصل چهارم، راهکار پیشنهادی ارائه شده و مراحل مربوط به آن به تفضیل بیان می گردد. فصل پنجم، حاوی جمع بندی مطالب مطرح شده، نتیجه گیری و پیشنهاداتی برای پژوهش های آینده می باشد. منابع مورد استفاده در این پژوهش در انتهای پژوهش قرار دارد.
فصل دوم
2- ادبیات موضوع و مبانی نظری تحقیق
2-1- مقدمه
هدف این فصل، بیان تعاریف مدیریت ارتباط با مشتری، الزامات و اقدامات مورد نیاز برای پیاده سازی مدیریت ارتباط با مشتری در سازمان ها و ایجاد فروشگاه مجازی، ابعاد اصلی مدیریت ارتباط با مشتری الکترونیکی و اهمیت، کاربردها، مراحل و تکنیک های موثر داده کاوی و وب کاوی در این زمینه می باشد.
2-2- تعاریف مدیریت ارتباط با مشتری
متخصصان و نظریه پردازان هرکدام تعاریف مختلفی از مدیریت ارتباط با مشتری ارائه می دهند که می توان آن ها را در چهار گروه کلی با عناوین استراتژی، فناوری، فرآیند و سیستم اطلاعاتی طبقه بندی نمود. برخی از تعاریف مدیریت ارتباط با مشتریان از دیدگاه نظریه پردازان مختلف به شرح زیر است [عباسی و ترکمنی 1389]:
1- بخشی از استراتژی یک سازمان جهت شناسایی و راضی نگهداشتن مشتریان و تبدیل آن ها به مشتری دائمی می باشد. همچنین در راستای مدیریت ارتباطات مشتری با شرکت و به منظور به حداکثر رساندن ارزش هر مشتری، شرکت را یاری می نماید.
2- مجموعه متدولوژی ها، فرآیندها، نرم افزارها و سیستم ها است که به موسسات و شرکت ها در مدیریت موثر و سازمان یافته ارتباط با مشتری کمک می کند.
3- ایجاد و حفظ ارتباط شخصی با مشتریان سودآور سازمان از طریق استفاده مناسب از فناوری های اطلاعات و ارتباطات.
4- یک فرآیند، متشکل از نظارت بر مشتری، مدیریت و ارزشیابی داده ها و نهایتا ایجاد مزیت واقعی از اطلاعات استخراج شده در تعامل با آنان است.
5- استراتژی جامع کسب و کار و بازاریابی است که فناوری فرآیندها و تمام فعالیت های کسب و کار را حول مشتری یکپارچه می سازد.
3-2- الزامات و اقدامات مورد نیاز برای پیاده سازی CRM

قبل از آن که بتوان سیستم مدیریت ارتباط با مشتری را در شرکت یا سازمانی پیاده سازی کرد، لازم است قدم‏های زیر در شرکت یا سازمان برداشته شود [Tuzhilin 2012]:
آشنایی با مفاهیم و نظریه‏های مشتری مداری و کشف اهمیت و جایگاه مشتری؛
آشنایی با معیارهای کیفیت خدمات و ارتباط آن با مشتری ‏مداری؛
شناسایی موانع و مشکلات موجود برای برقراری ارتباط با مشتریان؛
مطرح نمودن راه‏حل‏هایی به منظور ارتقاء سطح مشتری‏ مداری؛
شناسایی شرایط رقابتی و ارائه راه‏حل ها.
در شکل 2-1 چرخه تعاملات بین سازمان و مشتریان مشخص شده است:

شکل 2-1- چرخه تعاملات بین سازمان و مشتریان [Tuzhilin 2012]
ساختار اطلاعاتی لازم برای مدیریت ارتباط با مشتری در یک سازمان در شکل 2-2 مشخص شده است:

شکل 2-2- ساختار اطلاعاتی در مدیریت ارتباط با مشتری [عباسی و ترکمنی 1389]
مدیریت ارتباط با مشتری راهبردی جامع و مشتمل بر فرآیند تحصیل، نگهداری و مشارکت با مشتریان منتخب برای ایجاد ارزش عالی هم برای شرکت و هم برای مشتریان است. با توجه به شکل 2-3 مدیریت ارتباط با مشتری از طریق ایجاد، حفظ و تقویت رابطه با مشتریان اصلی، سعی در شناخت آن ها، نیازها و خواسته های ایشان دارد و از طریق پاسخ مناسب و به موقع به این نیازها، رضایت مشتریان را هرچه بیشتر جلب کرده و کم کم موجب افزایش وفاداری و اعتماد آنان به سازمان می شود و بدین ترتیب عملکرد بازاریابی بهبود می یابد. رضایت و اعتماد دو شاخص اصلی عملکرد بازاریابی است و از طرف دیگر حفظ مشتریان و وفاداری آنان موجب کاهش هزینه های سازمان در جذب مشتریان جدید می شود. زیرا مشتریان وفادار، مشتریان جدیدی را به سازمان وارد می کنند و در نتیجه موجب افزایش فروش شده و سودآوری سازمان افزایش می یابد [طاهرپور کلانتری و طیبی طلوع 1389]. مدیریت موثر ارتباط با مشتری سبب افزایش درآمد، شناخت فرصت های جدید، کاهش فرصت های از دست رفته، کاهش فرار مشتریان، ایجاد وفاداری در مشتری، بهبود خدمات به مشتریان، بهبود جلوه سازمان، کاهش هزینه ها، ذخیره اطلاعات سازمان، کاهش دوباره کاری های بازاریابی می گردد [عباسی و ترکمنی 1389].

شکل 2-3- رابطه مدیریت ارتباط با مشتری و عملکرد بازاریابی [طاهرپور کلانتری و طیبی طلوع 1389]
2-4- ایجاد فروشگاه مجازی
برای ایجاد یک فروشگاه مجازی پاسخگویی به سوالات زیر لازم است تا فعالیت ها به خوبی انجام پذیرد:
چه محصولاتی برای فروش عرضه شده است؟
مشتریان چه کسانی با چه خصوصیاتی هستند؟
چرا مشتری می خواهد از این فروشگاه مجازی خرید کند؟
آزمون خرید الکترونیکی [الهی و همکاران 1388]، روشی سه مرحله ای برای پرداختن به چالش های تجارت الکترونیکی است .این آزمون برای تمامی انواع محصولات و خدمات در صنایع مختلف کاربرد دارد. آزمون خرید الکترونیکی برای خرده فروشان، تولیدکنندگان، عرضه کنندگان و هر شرکت دیگری که در بخشی از فرآیند توزیع محصول از تولید تا مصرف مشارکت می کند، قابل استفاده است. سه مرحله مربوطه به آزمون خرید الکترونیکی عبارت است از:
1- ویژگی های محصول که مربوط به میزان وابستگی محصول به حواس پنجگانه است.
2- آشنایی و خرسندی مشتری از محصول که برابر با درجه ای است که مشتری، محصول را می شناسد و به آن اعتماد دارد، قبلا آن را تجربه کرده یا از خرید مجدد آن خرسند خواهد شد.
3- ویژگی های مشتری و محصول که عمده ترین عامل انگیزش مشتری و نگرش او به خرید را مد نظر قرار می دهد. اگر ویژگی های محصول، قابلیت فروش الکترونیکی را تأیید کند و اگر مصرف کنندگان آشنایی کافی با محصول داشته و از خرید آن خرسند باشند، امکان خرید الکترونیکی آن افزایش می یابد.
در دنیای کسب و کار الکترونیکی، عوامل زیادی وجود دارد که بر تصمیم و قصد خرید از طریق سایت های وب تأثیرگذار است. مجازی بودن شبکه اینترنت، کمی اعتماد مشتری به خرید مجازی، کیفیت سایت و مدل طراحی آن مخصوصا در روش ارائه محصول و اطلاعات مربوطه، به بی رغبتی مشتریان به انجام دادن خریدهای الکترونیکی منجر می شود. از سوی دیگر، ویژگی های افراد نیز بر تصمیم و انجام خرید الکترونیکی تأثیر می گذارد، مانند وفاداری افراد به یک نام تجاری، نگرش ها، عادت ها، درک افراد برای محیط و فرصت هایی که در آن ارائه می شود، تمایل افراد به ورود به عالم تجارت جدید و استفاده از فناوری و نوآوری ها. برای کسب مزیت های رقابتی لازم است رفتار مشتری را به خوبی درک و فرآیند تصمیم گیری او تجزیه و تحلیل شود. آنچه مشتری را راضی نگه می دارد موجب ادامه حیات و فعالیت شرکت می شود. مشتری پسند کردن محصول و تعامل، دو طرح ارزشی منحصر به فرد هستند که به وفاداری الکترونیکی در رفتار برخط خریدار کمک می کنند. اکثر کسانی که از طریق وب خریداری می کنند، وب سایت هایی را ترجیح می دهند که محصولات و خدمات مشتری پسندی را ارائه کنند و این حاکی از اهمیت مشتری پسندی در ایجاد و وفاداری الکترونیکی است [الهی و همکاران 1388]. عملکرد ارتباط با مشتری الکترونیک، تحت چهار بعد اصلی در شکل 2-4 مشخص شده است:

شکل 2-4- ابعاد اصلی مدیریت ارتباط با مشتری الکترونیک [میرفخرالدینی و همکاران 1388]
2-5- اهمیت داده کاوی و وب کاوی در مدیریت ارتباط با مشتریان
داده کاوی و وب کاوی یکی از عناصر مدیریت ارتباط با مشتری است و می‏تواند به حرکت شرکت‏ها به سمت مشتری محوری کمک کند. توسط فرآیند وب کاوی می توان رفتار مشتریان در پیمایش وب سایت ها درک کرد، به طراحی مناسب وب سایت ها پرداخت و برای ارتقای فعالیت های سازمان ها در امر بازاریابی و جذب مشتریان گام برداشت [Bussa et.al 2012].
استفاده از وب کاوی در یکی از زمینه های مهم تجارت دنیای امروز، یعنی ارتباط با مشتری در جنبه شناخت مشتری، مورد بررسی قرار می گیرد. شرکت ها و سازمان ها به منظور حرکت به سوی مشتری ‏مداری می‏توانند اقدامات زیر را انجام دهند [Satish & Sunil 2012]:
کشف مجدد نقش مهم و حیاتی مشتری و درک رفتار مشتری و فروشندگان؛
یادگیری اینکه چگونه می‏توان مشتری ‏مدار بود و ارزیابی محصولات و کارایی تامین کنندگان؛
متعهد نمودن تمامی اعضای شرکت یا سازمان برای اجرای استراتژی مشتری‏ مداری و کنترل متناوب محصولات و تامین کنندگان.
به منظور ارتقای سرویس های اینترنتی و افزایش بازدیدهای کاربران، لازم است توسعه دهندگان وب دقیقا بدانند که کاربران واقعا به چه چیزی نیاز دارند و صفحاتی را که بیشتر مورد توجه بالقوه آنان قرار می گیرند، پیش بینی کنند و صفحات شخصی وب را با مشاهده الگوی رفتار کاربران ارائه دهند [Ganapathi Babu et.al 2012]. توسعه دهندگان وب با درک پروفایل کاربران و اهداف سایت، حقایقی از عادات کاربران را مشخص می نمایند. آن ها همچنین می توانند از رفتار کاربران توسط تحقیق در وب و کشف الگوهای فعالیت مشاهده کنندگان سایت آگاهی یابند [Nithya & Sumathi 2012].
2-6- کاربردهای داده کاوی و وب کاوی در مدیریت ارتباط با مشتریان

دسته بندی مشتریان: با دسته بندی مشتریان به وسیله رفتار و تحلیل جنبه های مشترک، می توان به سازمان در ارائه بهتر و مناسب خدمات یاری رساند.
ارائه خدمات شخصی سازی شده به منظور مدیریت زمان مشتریان: در فضای اینترنت مشتریان می توانند برای خدمتی خاص به شرکت های مختلفی مراجعه کنند، بنابراین چگونگی جذب و
حفظ مشتریان از دغدغه های اصلی هر شرکتی است.
کاهش هزینه های عملیاتی و بهبود وضعیت رقابتی سازمان: توسط داده کاوی و وب کاوی، عملیات تجارت الکترونیک، بازخورد قابل اطمینانی از وضعیت بازار دریافت می کند. با تحلیل رفتار آینده مشتریان می توان فعالیت های بازاریابی را در جهتی مناسب سوق داد و در هزینه های مربوط به تبلیغات و جلب مشتریان صرفه جویی نمود.
فروش متقاطع: سایت های تجارت الکترونیک برای فراهم ساختن منفعت بیشتر، از فروش متقاطع برای ارائه خدمت یا کالای جدید استفاده می کنند، یعنی مشتری می تواند خدمتی دیگری را برای یک محصول درخواست نماید. توسط تکنیک های داده کاوی و وب کاوی، با تحلیل رفتار خرید آینده مشتریان و مشخص نمودن اینکه کدام مشتری برای فروش متقاطع مناسب است، می توان منافع شرکت یا سازمان را ارتقا بخشید.
بهبود طراحی وب سایت تجارت الکترونیک: با نگهداری رفتار و بازخورد مشتریان، طراحان وب سایت می توانند ساختار مناسبی را سازمان دهی و بهینه نمایند تا مشتریان بیشتری را جذب کند. مواردی مانند دسترسی آسان و راحت مشتریان به صفحات دلخواه و ارائه یک تصویر خوشایند برای آنان، می تواند بازدیدهای آینده را افزایش دهد. همچنین امنیت مناسب، سبب افزایش رضایت و در نتیجه حفظ مشتریان می گردد [Weigang & Qingyi 2012].
2-7- مراحل وب کاوی در آماده سازی و تحلیل داده ها
با توجه به شکل 2-5 وب کاوی شامل چهار مرحله می باشد [Prasanth 2013]:
1- ماخذ یابی: یافتن اسناد منطبق از وب.
2- انتخاب اطلاعات و پیش پردازش: از لیست انتخابی، اسناد مربوط تعیین شده و پیش پردازش می شوند.
3- عمومیت بخشیدن: تحلیل اسناد و تعیین موارد مشخص.
4- تحلیل نهایی: استفاده از موارد مشخص و نشان دادن نتایج.
داده ها از منابع مختلفی جمع آوری شده، داده های مناسب انتخاب می گردد و پردازش هایی روی آن ها صورت می پذیرد. سپس فرضیه ها تعیین می شوند و ابزارهای مناسب انتخاب می گردند تا دانش مورد نظر کشف گردد. در آخر بر اساس اهداف کاربر، اطلاعات ارزشمندی تشخیص داده می شود. هدف این مرحله تنها بدست آوردن نتایج نیست بلکه پالایش اطلاعات برای اتخاذ سیاست های مناسب بازاریابی نیز در این مرحله صورت می گیرد[Weigang & Qingyi 2012].

شکل 2- 5- مراحل وب کاوی [Prasanth 2013]
2-8- تکنیک های وب کاوی موثر در حوزه تجارت الکترونیک
برخی از تکنیک های وب کاوی که می تواند در حوزه تجارت و خدمات الکترونیکی موثر واقع گردند، به صورت زیر معرفی شده است [Shinde et.al 2011]:
خوشه بندی و دسته بندی: در این روش رفتارهای منحصر به فرد در گروه های همگن شناسایی و خصوصیات مشابه از هر گروه طبقه بندی و توزیع می شود.
قوانین انجمنی: توسط این قواعد عملیات و حقایقی که در ابتدا مستقل هستند، شناسایی شده و سپس ترکیب می شوند. حقایق مورد نظر می تواند خصوصیات و رفتارهای مشاهده شده منحصر به فرد باشد.
تحلیل مسیر: در این روش ارتباط بین صفحات وب از طریق گراف ترسیم می شود که گره های گراف، صفحات وب و ارتباط بین آن ها، کمان های گراف است. این گراف همچنین می تواند مسیر پیموده شده توسط مشتری در صفحات وب را مشخص نماید.
الگوهای ترتیبی: این روش تاریخچه ای از عملیات و تراکنش هایی است که یک مشتری در یک دوره زمانی در وب سرور انجام داده است. مشکل کشف الگوهای ترتیبی، شناسایی گروهی از دسترسی های تکراری در مجموعه ای از تراکنش ها یا ملاقات ها در دوره های زمانی است.
مکعب ها: مکعب داده، آرایه ای چند بعدی است که کشف و تحلیل مجموعه ای از داده ها را از زوایای مختلف فراهم می نماید. از نظر ساختاری، داده ها دارای دو المان بعد و اندازه هستند. بعد به منظور طبقه بندی و توصیف فاکتورهای مورد مطالعه در تحلیل و اندازه برای ارزش گذاری داده های ذخیره شده در ساختار استفاده می شود.
ارتباط بین تکنیک های معرفی شده در شکل 2-6 نمایش داده شده است.

شکل 2-6- ارتباط بین تکنیک های وب کاوی[Shinde et.al 2011]
از بین تکنیک های بیان شده، سه روش اصلی قوانین انجمنی، دسته بندی و خوشه بندی بیشتر در کاربردهای تجاری وب کاوی، مورد استفاده قرار می گیرند که در ادامه توضیح داده شده است.
2-8-1- قوانین انجمنیقوانین انجمنی از ابتدایی ترین روش های داده کاوی هستند که بیشتر از سایر روش ها، در وب کاوی به کار می روند. این قوانین، به دنبال کشف ارتباط بین وی‍ژگی ها در مجموعه داده ها است و به دنبال کمی کردن ارتباط میان دو یا چند خصوصیت می باشد. این قوانین به شکل گزاره های استدلالی به فرم X => Y هستند که دو معیار اساسی پشتیبان و اطمینان در آن نقش اساسی دارند. معیار پشتیبانی بیانگر درصد مواردی است که اتفاق مورد نظر روی داده است در مقایسه با کل موارد و میزان وقوع این اتفاق مورد نظر است. قوانین انجمنی برای تشخیص رفتار مشتریان، تعیین اهداف فروش و فروش متقاطع به کار می رود.

2-8-2- دسته بندی
روش های دسته بندی داده ها را به چندین دسته از پیش تعریف شده که ویژگی های آن مشخص شده است، تقسیم می کند. دسته بندی جز روش های یادگیری با نظارت به شمار می آید زیرا در ابتدا مجموعه داده به سیستم داده می شود که دسته آن ها مشخص شده است. سپس انتظار می رود سیستم با دیدن این نمونه ها بتواند نمونه های جدید را دسته بندی کند. هدف دسته بندی، تحلیل نمونه های آموزشی و ساخت مدل دقیقی برای هر دسته با استفاده از ویژگی های موجود در داده ها و سپس استفاده از این مدل ها برای دسته بندی داده های آتی است.
2-8-3- خوشه بندیتکنیک های خوشه بندی گروه هایی از اقلام مشابه را میان حجم بالایی از داده ها تشخیص می دهد. این کار بر اساس توابع فاصله که میزان شباهت میان اقلام مختلف را محاسبه می کند، انجام می شود. در خوشه بندی مرز بین خوشه ها از قبل مشخص نیست و بر چسب های هر خوشه از پیش تعیین نشده است در صورتی که در دسته بندی، از قبل مشخص است که هر دسته شامل چه داده هایی است و برچسب های هر دسته از قبل تعریف شده است. خوشه ‌بندی داده ها بر اساس اصل مفهومی حداکثر سازی شباهت ‌های بین اعضای هر کلاس و حداقل‌ سازی شباهت‌ ها بین اعضای مربوط به کلاس‌های مختلف صورت می گیرد و جز روش های یادگیری بدون نظارت به شمار می آید. خوشه ‌بندی و دسته ‌بندی برای بهبود بازایابی، تبلیغات و مدیریت ارتباط با مخاطبین و به ‌طور خاص مشتریان کاربرد دارد.
2-9- خلاصه فصل

در این فصل مدیریت ارتباط با مشتری از دیدگاه های مختلف تعریف گردید، الزامات و اقدامات مورد نیاز برای پیاده سازی مدیریت ارتباط با مشتری در سازمان ها ذکر شد و مراحل ایجاد فروشگاه مجازی، ابعاد اصلی مدیریت ارتباط با مشتری الکترونیکی و اهمیت، کاربردها، مراحل و تکنیک های موثر داده کاوی و وب کاوی در این زمینه بیان گشت. در ادامه با بررسی روش های موجود مدیریت ارتباط با مشتریان در حوزه تجارت الکترونیک توسط تکنیک های وب کاوی، روشی تکمیل شده و بهبود یافته نسبت به روش های معرفی شده، ارائه خواهد شد.
فصل سوم
3- مروری بر تحقیقات انجام شده
3-1- مقدمه
تاکنون روش های متفاوتی در زمینه تجارت الکترونیک و مدیریت ارتباط با مشتری توسط تکنیک های وب کاوی معرفی شده است، در این فصل به برخی از آن ها اشاره و مزایا و معایب مربوط به آن بیان شده است.
3-2- مدل معرفی شده توسط دیان و داگلاس
دیان و داگلاس [Dien & Douglas 2010] در سال 2010 در پروژه - ریسرچخود، مدلی را معرفی نموده اند که برای ارزیابی استفاده فناوری اطلاعات به منظور موفقیت در کسب و کار آنلاین استفاده می شود که در شکل 3-1 مشخص شده است. آنان بیان می کنند که تبعیض قیمت، هزینه تغییر، ابزارهای مدیریت ارتباط با مشتری و هوش تجاری بر رضایتمندی و ارتباطات به عنوان متغیرهای مستقل برای موفقیت تجارت است و متغیرهای نام برده شده بر روی رضایت مشتری و ارتباطات موفقیت آمیز تاثیر می گذارد.

شکل3-1- مدل پیشنهادی برای مدیریت ارتباط با مشتری و هوش تجاری [Dien &
Douglas 2010]
3-2-1- تعریف تبعیض قیمت گذاری
قیمت کالاها و خدمات عموما بر هزینه های ثابت و متغیر و میزان تقاضا بستگی دارد. زمانی که قیمت کالا یا خدمتی بالا باشد، تعداد کمی از مشتریان تمایل به خرید دارند و اگر قیمت پایین باشد، تمایل برای خرید بالا می رود. فروشندگان به دنبال کسب منفعت بیشتر توسط فروش بیشتر هستند. تبعیض قیمت به معنای توانایی فروش محصولات یکسان به افراد یا گروه های متفاوت بر اساس رضایت آنان برای پرداخت است. در استراتژی تبعیض قیمتی، محصولات اعم از کالا یا خدمات با قیمت یکسانی ارائه نمی‌شوند. به این منظور فروشندگان باید از مشتریان شناخت کافی داشته باشند تا بتوانند قیمت گذاری را بر اساس منفعت شرکت و رضایتمندی مشتریان انجام دهند [Dien & Douglas 2010]. در واقع تبعیض قیمت گذاری به معنای این است که شرکتی برای کالایی یکسان، قیمت های متفاوتی را برای افراد و نواحی گوناگون ارائه دهد [Al-Azmi 2013].
3-2-2- معنای هزینه تغییر


هزینه تغییر به این معنا است که زمانی که فردی، مشتری یک شرکت شد، در برخی موارد به دلیل وابستگی که به محصولات آن شرکت پیدا کرده است، برای وی هزینه بر است که به سراغ یک تامین کننده دیگر برود و در خیلی از موارد هم فرآیند یافتن یک تامین کننده و عقد قرارداد و شناخت عملکرد شرکتی دیگر، برای شخص دردسرساز است؛ بنابراین مشتری حاضر می شود که خودش را با شرکت اولیه به هر طریقی هماهنگ سازد. اگر هزینه تغییر برای مشتری زیاد باشد، میزان رضایتمندی و وفاداری مشتری کاهش می یابد[Dien & Douglas 2010].

در این مدل به مشتری و نیازهای وی، سودآوری شرکت و کاهش هزینه ها توجه شده است اما به چگونگی سازماندهی مطالب، ظاهر و محتوای یک فروشگاه مجازی که در جذب مشتریان نقش به سزایی دارد، توجهی نشده است.
3-3- روش معرفی شده توسط لی و فنگ
لی و فنگ [Li & Feng 2010] در سال 2010 بیان می کنند که وب کاوی در تجارت الکترونیک بر اساس شکل 3-2 در چهار دسته قرار می گیرد: شخصی سازی سرویس، بهبود طراحی وب سایت، ارزیابی اثربخشی تبلیغات و یاری رساندن به انتخاب نوع محصولات. در ادامه هر یک از این چهار مرحله توضیح داده شده است:

شکل3-2- وب کاوی در تجارت الکترونیک [Li & Feng 2010]
3-3-1- شخصی سازی سرویس
شخصی سازی به این معنا می باشد که صفحات سایت با توجه به علاقه کاربر باشد و با تغییرات علاقه کاربر، صفحات نیز تغییر کنند و در واقع برای هر کاربر صفحه منحصر به فردی مخصوص وی ساخته شده باشد. برای این منظور نیاز است که اطلاعات مربوط به مشتری جمع آوری و نگهداری گردد و توسط تکنیک های وب کاوی، پروفایل شخصی وی ایجاد گردد[Li & Feng 2010].
ایجاد پروفایل اختصاصی برای مشتری که بتواند بر اساس سلایق و نیازهای مشتریان به تولید کالاها و ارائه خدمات بپردازد، حائز اهمیت است زیرا از این طریق می توان روابط با مشتریان را بهبود بخشید و مزایای رقابتی را افزایش داد [Rana 2012].
3-3-2- بهبود طراحی وب سایت
مناسب بودن ظاهر یک سایت بستگی به طراحی منطقی محتوا و ساختار دارد. وب کاوی می تواند جزئیات مربوط به رفتار کاربر را برای بهبود ظاهر سایت فراهم آورد [Li & Feng 2010].
زمانی که کاربر اطلاعات سایتی را بازدید می کند، سه عامل اصلی وجود دارد که بر مشاهده و ارزیابی وی تاثیر می گذارند [Gunjan et.al 2012]:
محتوای صفحات وب؛
طراحی صفحات وب؛
ساختار و طراحی وب سایت.
3-3-3- ارزیابی اثربخشی تبلیغات
تحلیل الگوهای رفتار تعداد زیادی از مشتریان توسط وب کاوی می تواند ارزیابی دقیقی برای اثربخشی ابزارهای متنوع تبلیغات فراهم سازد و به ترکیب و طراحی برنامه های تبلیغات کمک کند تا محصولات در فرآیند فروش در مکان مناسب تبلیغ گردند [Li & Feng 2010].
3-3-4- یاری رساندن به انتخاب نوع محصولات
سایت های تجارت الکترونیک از طریق عملیات بلند مدت و تجزیه و تحلیل، تعداد زیادی از الگوهای رفتاری مشتریان را که در انبارداده ها ذخیره شده اند، بر اساس تقاضای بازار برای گروه های محصولات و مواضع فروش توسط تکنیک های وب کاوی ترکیب و استدلال می کنند. در نتیجه مدیران می توانند در مورد انواع و مقدار محصولات بر اساس عامل های بدست آمده، تصمیم گیری کنند و محصولات قابل فروشی را عرضه نمایند [Li & Feng 2010].
در این روش به سلایق مشتری و ایجاد پروفایل شخصی، اهمیت ظاهر و محتوای سایت، نوع محصولات انتخابی و تبلیغات موثر بر آن توجه شده است ولی شرایط سازمانی و رقابتی و تداوم ارتباط با مشتریان در نظر گرفته نشده است.
3-4- شخصی سازی وب
رتناکومار [Ratnakumar 2010] در سال 2010 شخصی سازی وب را یکی از روش های ارتباط با مشتری معرفی نموده و آن را به چهار دسته یا استراتژی تقسیم می کند:
(1) به یاد سپاری: ساده ترین و گسترده ترین شکل شخصی سازی است، اطلاعات مشتری مانند نام و تاریخ مشاهده سایت ذخیره می شود و بعد از آن برای به رسمیت شناختن و خوش آمد گویی به مشتری استفاده می شود.
(2) سفارشی سازی: در این حالت ترجیحات مشتری در فرم های ثبت نام به منظور سفارشی کردن محتوا و ساختار یک صفحه وب به کار می رود. این فرآیند می تواند به صورت استاتیک یا حالت نیمه اتوماتیک انجام شود.
(3) سیستم های راهنما یا توصیه گر: بر اساس سیستم راهنما به طور خودکار لینکی که مربوط به سلایق مشتری است به منظور تسهیل در دسترسی به اطلاعات مورد نیاز در یک وب سایت بزرگ، پیشنهاد می شود. این روش معمولا متکی بر داده هایی است که منعکس کننده علاقه مشتری به طور ضمنی (مانند تاریخچه مرور وب سایت ثبت شده) و یا به طور صریح (از طریق پرسشنامه یا فرم ثبت نام) می باشد.
(4) پشتیبانی از عملکرد: در این سیستم یک دستیار شخصی عملیات را از طرف مشتری، به منظور تسهیل دسترسی به اطلاعات مربوطه اجرا می کند. این رویکرد نیاز به وارد شدن به قسمت هایی از جمله دسترسی، نصب، راه اندازی و تعمیر و نگهداری از نرم افزار دستیار شخصی دارد و همچنین دارای دامنه بسیار محدودی است که نمی تواند از اطلاعات مربوط به مشتریان دیگر با علایق مشابه استفاده کند.
این روش نیز مانند روش قبلی به سلایق مشتری و ایجاد پروفایل شخصی اهمیت می دهد، همچنین سهولت استفاده از سایت را نیز در نظر می گیرد، اما بر خلاف روش قبلی نسبت به ظاهر و محتوای سایت، نوع محصولات انتخابی و تبلیغات موثر بر آن بی توجه است و همچنین شرایط سازمانی و رقابتی و حفظ وفاداری مشتریان را مورد توجه قرار نمی دهد.
3- 5- سیستم هوشمند مدیریت ارتباط با مشتری

امتیاز و کیوان پور [Emtiyaz & Keyvanpour 2011] در سال 2011 سیستم مدیریت هوشمند ارتباط با مشتری را معرفی نموده اند که بر اساس تحلیل های وب کاوی مدیریت مشتری را هدایت می کند، اطلاعات را از کانال های مختلف بدست می آورد، ارتباطات را بین بخش های مختلف اصلاح می کند، سازماندهی و بررسی فعالیت های عملیاتی و فهم مناسب تجارت را بر عهده دارد. بنابراین مشتری کانال ارتباطی با شرکت یا سازمان را مطابق با سلیقه شخصی خود برای دریافت بهترین خدمات انتخاب می کند. مزایا و معایب این روش مشابه با روش شخصی سازی وب می باشد.
5- روش Visual Web Log Miner
تیواری و همکاران [Tiwari et.al 2011] در سال 2011 روش Visual Web Log Miner را معرفی نموده اند که شامل پنج لایه یکپارچگی، نشست، داده، موتور پیشنهادی و ابزارهای تجسمی است. در لایه یکپارچگی، عملیاتی نظیر استخراج، پاکسازی، انتقال و بارگذاری برای پردازش آینده داده ها استفاده می شود. این لایه از الگوهایی مانند XQuery، XSLT و XML برای ذخیره در انبار داده استفاده می کند. لایه نشست به منظور متصل کردن نمونه های وب سرویس ها و صفحات وب به مشتری استفاده می شود. این لایه برای بررسی نحوه استفاده ترکیب وب سرویس ها توسط مشتری مهم است. لایه داده، انبار داده هوشمند داده های ورودی و وقایع پیش پردازش شده، نشست های هوش تجاری و اطلاعاتی در مورد اجرای وب سرویس ها را ذخیره می کند. لایه موتور پیشنهادی، موتور داده کاوی است و مسئول بارگذاری مخازن داده های XML از پایگاه داده، اجرای دستورات SQL و اجرای الگوریتم های داده کاوی است. این لایه توسط سیستم پردازش تحلیلی آنلاین و تکنیک های داده کاوی برای شناسایی قوانین تجاری مناسب مانند دسته بندی مشتریان، جریان کلیک ها و ارتباط بین مشتریان و محصولات استفاده می کند.
از جمله مزایای این روش بهره گیری مناسب از تکنولوژی های مرتبط با وب کاوی، نمایش رابطه متقابل و وابستگی بین اجزای مختلف، کشف حساسیت ها و انجام تقریبی بهینه سازی می باشد اما عدم توجه به شرایط رقابتی و حفظ وفاداری مشتریان، عدم توجه ظاهر سایت و نوع محصولات انتخابی و تبلیغات موثر بر آن، عدم توجه به شناخت علایق و سلایق مشتری از نقاط ضعف این روش می باشد.
3-7- تحلیل جریان های کلیک
کلودیا [Claudia 2011] در سال 2011 در پروژه - ریسرچخود تحلیل و بررسی جریان های کلیک را برای مدیریت ارتباط با مشتری در دنیای مجازی مناسب می داند. جریان کلیک به معنای ترتیب صفحات وبی است که توسط کاربر بازدید شده است. زمانی که بازدید کننده به وب سایت دسترسی پیدا می کند، سرور تمام فعالیت هایی را که بازدید کننده انجام داده است را در فایل های ثبت وقایع نگهداری می کند و نشست کاربر ترتیب صفحاتی وبی از چندین سایت را که کاربر در یک دوره زمانی مشاهده کرده است، شرح می دهد. هر کلیک از موس مطابق با یک درخواست صفحه است و ترتیبی از کلیک ها مطابق با ترتیبی از لینک ها می باشد. تحلیل جریان های کلیک های پی در پی می تواند برای درک رفتار کاربر مورد استفاده قرار بگیرد. توسط این تحلیل می توان دریافت که کاربر به چه صفحاتی علاقه مند بوده یا مدت بیشتری بر روی آن درنگ کرده است و از چه صفحاتی سریعا رد شده است. به طور کلی دو نوع تحلیل برای جریان های کلیک استفاده می شود:
تحلیل ترافیک
تحلیل تجارت الکترونیک.
3-7-1- تحلیل ترافیک
تحلیل ترافیک، به بررسی رفت و آمدهای کاربر توسط جمع آوری داده های مربوط به کلیک ها که در سرور ذخیره شده است، می پردازد. این تحلیل همچنین تعداد دفعاتی را که کاربر صفحات را در طول پیمایش بارگذاری کرده است، ثبت می کند.
3-7-2- تحلیل تجارت الکترونیک
در تحلیل تجارت الکترونیک، از جریان کلیک های داده برای تعیین بازاریابی اثربخش توسط ارزیابی رفتار کاربر در طول بازدید سایت و بررسی تراکنش های فروش، استفاده می شود. این تحلیل، شاخصی است که درجه راحتی کاربر را در استفاده از فرم های مربوط به واسط کاربر، استفاده از کارت های خرید، نحوه پرداخت و ... را مشخص می نماید.
تحلیل جریان های کلیک یکی از جنبه های مهم کسب و کار و تبلیغات آنلاین است زیرا چگونگی تغییر مکان کاربران را از یک صفحه به صفحات دیگر را ثبت می کند و می تواند باعث درک مشتریان بالقوه شود. اگر کاربر در صفحاتی درنگ داشته باشند، این احتمال می رود که به محتوای آن صفحه علاقه مند بوده است.
با ساخت پروفایل کاربر برای سایت هایی مشخص، تحلیل جریان کلیک می تواند برای طراحی مناسب وب سایت و افزایش رضایتمندی مشتریان موثر واقع شود و همچنین مکان های مناسب قرار دادن تبلیغات را مشخص نماید. توسط لینک های تبلیغاتی کاربر از صفحه مبدا به صفحات دیگری ارجاع داده می شود و با تحلیل جریان های کلیک می توان نوع صفحات و سایت هایی را که کاربر به آن علاقه مند است را تعیین نمود یا کاربر را مستقیما به محلی که می تواند از آن جا مراحل خرید را انجام دهد، انتقال داد. هدف اصلی کمک به تبلیغات موثر، نمایش ارتباط بین تبلیغات و صفحات اینترنتی است که در نهایت منجر به خرید گردد.
تحلیل جریان کلیک، همچنین می تواند برای شخصی سازی استفاده گردد، به این صورت که با تحلیل سبد خرید مشتریان، کالاهایی را که بیشتر مورد توجه مشتری است را در کنار هم قرار داد. بنابراین می تواند نحوه چیده شدن محصولات در صفحات وب و طراحی فروشگاه مجازی را مطابق با سلیقه مشتری انجام داد و اجناس تخفیف دار را در کنار هم قرار نداد. این روش علاوه بر بهبود وضعیت فروشندگان، می تواند در جذب و ترغیب مشتریان برای خرید مورد استفاده قرار بگیرد.
به طور کلی مزایای این روش توجه به مشتری و نحوه پیمایش سایت توسط وی، توجه به طراحی مناسب سایت در جلب توجه مشتریان و نحوه ارائه و چیده شدن محصولات و نمایش مناسب تبلیغات است اما ضروری است که شرایط رقابتی به طور کامل در نظر گرفته شود تا ضمن جذب مشتریان بتوان در جهت حفظ رضایتمندی و وفاداری آنان گام برداشت.
3-8- روش های مشاهده اطلاعات کاربران
مالاپاتی و همکاران [Malapati et.al 2012] در سال 2012 در پروژه - ریسرچخود به منظور شناسایی الگوهای پنهان موجود در رفتار کاربران و مشاهده اطلاعات مربوط به آنان سه روش پیشنهاد داده اند: وب سرور، وب پروکسی سرور، مشتری کاربر.
در فایل های ثبت وقایع وب سرور، در یک وب سایت اطلاعات چندین کاربر که ثبت شده است؛ مشاهده می شود. در وب پروکسی سرور، اطلاعات چندین کاربر که از چندین وب سایت ثبت شده است؛ مشاهده می شود و در روش سوم اطلاعات ثبت شده یک کاربر که از چندین وب سایت ثبت شده است؛ مشاهده می گردد. ثبت وقایع در روش اول و دوم به صورت خودکار است ولی در روش سوم برای ثبت نیاز به نرم افزار اختصاصی است. روش اول، روشی کاملا ساخت یافته است که در شکل 3-3 معماری مربوط به آن مشخص شده است.

شکل 3-3- معماری روش وب سرور [Malapati et.al 2012]

روش پروکسی سرور، دشوارتر از روش اول است زیرا شناسایی رفتار حقیقی کاربر مشکل است، برای مثال آدرس های IP مشابهی می تواند توسط افراد متعددی استفاده شود ولی این امتیاز وجود دارد که می توان برای افراد رمز ورودهای منحصر به فردی قرار داد. در این روش ارتباطات چند به چند وجود دارد یعنی یک کاربر می تواند به سایت های زیادی دسترسی داشته باشد و تعدادی کاربر می توانند فقط یک سایت را بازدید کنند.
فایل های ثبت وقایع توسط وب سرور برای نگهداری مسیر درخواست هایی که در یک وب سایت به وقوع می پیوند، مورد استفاده قرار می گیرند و شامل چندین قسمت می باشند؛ تاریخ که به صورت YYYY-MM-DD چهار رقم برای سال و دو رقم برای ماه و روز می باشد. زمان که به صورت HH:MM:SS دو رقم برای ساعت، دقیقه و ثانیه می باشد. آدرس IP کلاینت که شماره کامپیوتری است که توسط آن دسترسی یا درخواست به سایت صورت گرفته است. اعتبار سنجی کاربر که برخی از وب سایت ها به منظور برقراری امنیت برای ورود کاربران نام کاربری و رمز عبور در نظر می گیرند. زمانی که کاربر این اطلاعات را وارد می کند، این موارد در فایل ثبت وقایع قرار می گیرد. نام و آدرس IP سرور، IP ثابتی است که توسط ارائه دهنده سرویس اینترنت فراهم شده است و مرجعی برای دسترسی به اطلاعات سرور است. پورت سرور که برای ارسال داده ها استفاده می شود. درخواستی که از سرور شده است که می تواند درخواست تصویر، صدا، فیلم، متن، فایل و ... باشد. مسیر میزبان است که برای نمایش ساختار وب سایت مورد استفاده قرار می گیرد. کد وضعیت که توسط سرور برگشت داده می شود و توسط سه رقم تعریف می شود که چهار وضعیت در بارگذاری صفحات دارد: کد 200 به معنای موفقیت، کد 300 به معنای ارجاع، کد 400 به معنای شکست، کد 500 به معنای خطای سرور.
تحلیل وضعیت کاربر شامل بررسی فایل های نشست و تعیین هویت کاربر است. در فایل نشست کاربر، مشخص می گردد که چه کسی به چه سایتی مراجعه کرده است، کدام صفحات را و به چه ترتیبی درخواست داده است و چه مدت آن ها را مشاهده کرده است. اگر کاربران اطلاعات خود را در زمان ورود، درج نمایند؛ شناسایی آنان به راحتی امکان پذیر است ولی در واقعیت بیشتر کاربران اطلاعات خود وارد نمی کنند و عواملی مانند استفاده از کامپیوتر مشترک، وجود دیواره های آتش و استفاده از چندین مرورگر شناسایی کاربران را مشکل می سازد. با استفاده از کوکی ها می توان رفتار کاربران را ردگیری کرد ولی با توجه به مسائل مربوط به حفظ حریم شخصی، استفاده از آن مجاز نمی باشد [Sheetal et.al 2012].
محتوا کاوی وب با ترکیب تحلیل های مربوط به فایل های ثبت وقایع و وضعیت کاربر به ارزیابی، طراحی و اصلاح ساختار وب سایت است و همچنین برای درک و تحلیل رفتار بازدیدکنندگان از دو جنبه علاقه و اطلاعات هر دسترسی و نحوه دسترسی به اطلاعات می پردازد. محتوا کاوی وب طی مراحل آماده سازی داده ها، کشف الگو و تحلیل الگو به طراحی و اصلاح ساختار سایت کمک می کند [Parvin Nina et.al 2009].
تمرکز این روش بر مشاهده و تحلیل رفتار کاربران است ولی اگر کاربر مورد تحلیل مشتری یک فروشگاه مجازی باشد، عدم توجه به شرایط بازار، شرایط رقابتی و نیازمندی های شرکت ها می تواند نقش به سزایی در کاهش سودآوری و پیشروی شرکت ها داشته باشد.
3-9- هوش تجاری
راهی و تاکور [Rahi & Thakur 2012] در سال 2012 مسئله هوش تجاری را در زمینه وب کاوی در حوزه تجارت الکترونیک مطرح نموده اند. هوش تجاری به شرکت ها و سازمان ها در تشخیص نقاط ضعف و مستحکم نمودن نقاط قوت کمک کرده و بهینه‌سازی فرآیندها را تسهیل می نماید و در پی داشتن دانش عمیق نسبت به همه عوامل مانند مشتریان، رقبا، محیط اقتصادی، عملیات و فرآیندهای سازمانی برای تصمیم گیری موثر است.
شرکت ها می توانند از ابزارهای هوش تجاری برای ارتباط با مشتریان استفاده می کنند. هوش تجاری به تحکیم، تحلیل و دسترسی به حجم وسیعی از داده ها برای اتخاذ تصمیمات تجاری کمک می کند. از ابزارهای اصلی هوش تجاری، سیستم پردازش تحلیلی آنلاین، داده کاوی و وب کاوی می باشد. پردازش تحلیلی آنلاین از تجزیه و تحلیل چند بعدی پشتیبانی می کند و انجام پرس و جوهای پیچیده را در حجم وسیعی از داده ها انجام می دهد و تکنیک های داده کاوی و وب کاوی، از میان حجم وسیعی از اطلاعات، الگوهای رفتاری مشتریان تشخیص می دهد [Dien & Douglas 2010]. ابزارهای هوش تجاری می توانند به سوالاتی مانند چگونگی راضی و شاد نگهداشتن مشتریان، جذب مشتریان بالقوه، دلایل عدم وفاداری و مراجعه به شرکت های رقیب پاسخ دهد [Al-Azmi 2013]. تکنیک های داده کاوی و وب کاوی موثر در زمینه تجارت و هوش تجاری در جدول 3-1 دسته بندی شده است.
جدول 3-1- تکنیک های موثر در زمینه تجارت و هوش تجاری [Rahi & Thakur 2012]
عملیات کاربرد روش ها
بازاریابی پیشنهاد محصول و روند تولید آن قوانین اجتماع و داده کاوی سری های زمانی
مدیریت فروش فروش محصولات یادگیری نظارتی چند مرحله ای
مدیریت امور مالی شناسایی کلاهبرداری ها ارتباط کاوی
فناوری اطلاعات کاهش روندهای تکراری خوشه بندی و متن کاوی
سرویس دهی به مشتریان ارائه پیشنهاد برای کارشناسان قوانین اجتماع، متن کاوی و تحلیل ارتباطات و مسیر
انبارداری و حمل و نقل مدیریت انبارداری خوشه بندی، قوانین اجتماع و پیش بینی
مدیریت فرآیند تجاری فرآیند کاوی خوشه بندی و قوانین اجتماع
منابع انسانی مراکز فراخوانی منابع انسانی الگوهای ترتیبی، قوانین اجتماع و خوشه بندی

هوش تجاری در زمینه وب کاوی در حوزه تجارت الکترونیک به تشخیص نقاط ضعف و تقویت نقاط قوت سازمان ها و بهینه‌سازی فرآیندها می پردازد و به نیازها و سلایق مشتریان توجه دارد اما پیاده سازی و هماهنگ سازی استراتژی های سازمان با اهداف هوش تجاری هزینه بر می باشد.
3- 10- مدیریت ارتباط با مشتریان الکترونیکی
فیض بخش توانا و همکاران [Feizbakhsh Tavana et.al 2013] در سال 2013 در پروژه - ریسرچخود، نسخه جدید CRM، e-CRM را معرفی می کنند که تاکید بیشتری بر شخصی سازی، تکنولوژی های بازاریابی مستقیم برای فروش و فرآهم آوردن خدمات مشخص و مجزا برای بخش های کوچک بازار دارد. e-CRM فرصت هایی را برای برخورد مناسب با مشتریان و ارتباط موثر با شرکت ها فراهم می آورد که هم مشتریان و هم شرکت ها از مزایای آن بهره برند. با استفاده از سیستم های شبکه مانند اینترنت، اینترانت و اکسترانت می توان کارایی تجارت های الکترونیک را بهبود بخشید و رضایت هر چه بیشتر مشتریان را فراهم آورد.
در جدول 3-2، در بازاریابی سنتی، یک نوع از محصولات برای همه برنامه های بازاریابی و برای همه افراد به صورت یکسان عرضه می شود (وضعیت 1). با شکل گیری مدیریت ارتباط با مشتری و با افزایش کانال های ارتباطی، بازاریابی فرد به فرد صورت می پذیرد (وضعیت 2). در نهایت با استفاده از فناوری اطلاعات در مدیریت ارتباط با مشتری، e-CRM به وجود می آید که از مزایای فناوری اطلاعات برای عرضه محصول مخصوص برای هر مشتری استفاده می شود.
جدول 3-3، ارتباط بین فرآیندهای بازاریابی، اهداف، بازاریابی انبوه سنتی، مدیریت ارتباط با مشتری و فناوری اطلاعات استفاده شده در مدیریت ارتباط با مشتری را نشان می دهد.
جدول 3-2- گام های e-CRM [Feizbakhsh Tavana et.al 2013]
تعداد کانال های ارتباطی e-CRM (وضعیت 3) CRM (وضعیت 2) بازاریابی فرد به فرد نگرش بازاریابی
بازاریابی سنتی (وضعیت 1) محصول مخصوص برای هر مشتری یک نوع از محصولات برای همه بازاریابی انبوه مشخصه های محصول جدول 3-3- ارتباط بین بازاریابی، اهداف، مدیریت ارتباط با مشتری و فناوری اطلاعات [Feizbakhsh Tavana et.al 2013]
فرآیند تعیین هویت تفکیک تعامل شخصی سازی
هدف تعیین مشتری منحصر به فرد ارزیابی ارزش ها و نیازهای مشتری برقراری ارتباط مداوم تکمیل نیازهای مشتری
خلق منفعت
بازاریابی انبوه سنتی - دسته بندی مراکز تلفن فروش
خدمات
CRM ایجاد پروفایل مشتری تحلیل سطوح فردی مدیریت مراکز تلفن
سیستم های پاسخگویی خودکار اتوماسیون فروش
اتوماسیون فرآیندهای بازاریابی
فناوری اطلاعات کوکی ها
شخصی سازی وب سایت ها داده کاوی
یادگیری سازمانی نرم افزارهای مبتنی بر وب و ارتباطات بدون سیستم مدیریت منابع
تجارت الکترونیک
برای پیاده سازی e-CRM از ابزارهای فناوری اطلاعات نظیر پرتال ها، ایمیل، سیستم های پاسخگویی خودکار، کاتالوگ های آنلاین، علائم تجاری و ... استفاده می شود. قابلیت این ابزارها توسط موارد زیر اندازه گیری می شود:
مورد اول، نزدیکی واسط کاربر است که مشخص می کند که چه مقدار شرکت به مشتریانش نزدیک است. مورد دوم، مربوط به بازاریابان است که باید ارزش واقعی پیاده سازی و نگهداری از ابزارها را در نظر بگیرند، اما باید توجه داشت که این معیار نسبی است و مقدار مطلقی ندارد. مورد سوم، شخصی سازی است که به معنای استفاده از یک ابزار برای درک الگوهای رفتار مشتری و نیازهایش می باشد و مورد چهارم، تعیین تعداد واقعی کاربران است که این مورد در جدول 3-4 تحت عنوان "توانایی" مشخص شده است.
جدول 3-4- پیاده سازی چارچوب e-CRM [Feizbakhsh Tavana et.al 2013]
شخصی سازی کم زیاد توانایی کم توانایی زیاد توانایی کم توانایی زیاد ارزش زیاد زیاد واسط کاربر
پاسخگویی خودکار
پرتال ها
GIS
مسیریابی کاربران
مراکز پاسخگویی تلفنی و ... برنامه های وابسته ارتباطات ارزش کم ارزش زیاد کم علائم تجاری کاتالوگ آنلاین
پرسش های متداول
دانلودها ایمیل ارزش کم برای موفقیت e-CRM پیاده سازی عوامل زیر نقش کلیدی دارد[Feizbakhsh Tavana et.al 2013]:
1- آموزش کارمندان سازمان: کارمندان باید بتوانند با مشتریان ارتباطی مناسب و شایسته داشته باشند و از فناوری های جدید در این راستا بهره ببرند.
2- مرور فرآیند ها و طراحی فرآیندهای جدید: سازمان ها بدون طراحی مناسب و منطقی فرآیندها نمی توانند در بدست آوردن اهدافشان پیروز شوند.
3- پیاده سازی فناوری های جدید: سازمان ها برای پیاده سازی e-CRM ملزم هستند تغییراتی در سازمان، ساختارها، قواعد تجاری، پایگاه داده ها و ... ایجاد نمایند.
اگر سازمان ها بدون تدوین استراتژی های مناسب و جامع نسبت به انجام تغییرات اقدام کنند، مواردی مانند ناهماهنگی بین وضعیت سازمان و e-CRM، عدم انعطاف پذیری در طرح های سازمان، عدم درک فرآیندهای تجاری سازمان، عدم تطابق با نیازهای سازمان و مشتریان، عدم حفظ حریم خصوصی مشتریان به صورت مناسب و ... پیش خواهد آمد.
با توجه به مطالب فوق، سرعت بالا، بیشتر بودن درآمد در مقایسه با هزینه ها، دسترسی دائم، سودمندی داده ها، یکپارچگی و از مزایای e-CRM و هزینه تقریبا بالای پیاده سازی و هماهنگ سازی استراتژی های سازمان با اهداف مدیریت ارتباط با مشتریان الکترونیک از معایب این روش می باشد.
3-11- مدل رفتاری مشتریان
سدات [Sadath 2013] در سال 2013 در پروژه - ریسرچخود، مدل رفتاری مشتریان را پیشنهاد می دهد. این مدل سیستمی را توصیف می کند که در آن داده های قدیمی مشتریان قرار می گیرد و یک مدل پیشگویانه مناسب در موتور امتیاز بندی اجرا می گردد. موتور امتیاز بندی یک نرم افزار کاربردی است که برای ارزیابی توابع ریاضی روی مجموعه ای از داده های ورودی به کار می رود. در فرآیند امتیاز بندی مجموعه ای از مشتریان که رفتار و علایق مشابهی دارند، شناسایی شده و در پایگاه داده یا جدولی مشخص گروه بندی می شوند و امتیاز مشخصی به آن ها داده می شود. در مرحله تحلیل با استفاده از تبدیل داده ها، گزارش ها، الگوریتم های داده کاوی، امتیاز بندی و ... فضای تصمیم گیری به وجود می آید. مرحله داده بین اجزای تعریف داده تجاری و تعاملات مشتری ارتباط برقرار می کند. انبار داده ساخته شده، داده جمع آوری شده از تعاملات مشتریان به مرحله تحلیل انتقال می دهد. در شکل 3-4 این مدل به طور کامل به تصویر کشیده شده است.

شکل 3-4- مدل رفتاری مشتریان [Sadath 2013]

در مدل رفتاری مشتریان تمرکز بر مشتریان و گروه بندی علایق آنان است اما پیمایش های کامل از جداول بزرگ در چندین نوبت، سیستم های پیچیده پردازش آنلاین، زمان بری بالا، انبار داده های بزرگ از معایب این روش است. این مدل برای زمانی که پیش بینی ها اشتباه هستند یا مواقعی که احتمال کلاه برداری بالاست مانند بخش های مالی توصیه نمی گردد.
3-12- وب سایت های انطباقی
اسحاقی و گاوالی[Eshaghi & Gawali 2013] در سال 2013 در پروژه - ریسرچخود به معرفی وب سایت های انطباقی پرداخته اند. وب سایت های انطباقی ساختار و محتوا یا ارائه اطلاعات برای پاسخگویی به اندازه گیری تعاملات کاربر با سایت را تنظیم می نمایند و تعاملات آینده کاربر را بهینه سازی می نمایند. این وب سایت ها، به صورت خودکار سازمان هایشان را بهبود می بخشند و الگوهای دسترسی کاربران را نمایش می دهند. الگوهای تعاملی کاربران ممکن است به صورت مستقیم از وب سایت جمع آوری شود یا از فایل های ثبت وقایع مربوط به وب سرور استخراج گردد. در وب سایت های انطباقی، محتوا و ساختار سایت بر اساس داده های استخراج شده از رفتار کاربر به صورت پویا سازماندهی مجدد می گردد.
این روش بر مسیر حرکت کاربر و الگوهای رفتاری مشتریان تمرکز دارد اما نیازهای سازمانی و شرایط رقابتی را در نظر نمی گیرد.
3-13- خلاصه فصل
در این فصل به برخی از روش های موجود در زمینه مدیریت ارتباط با مشتری و تجارت الکترونیک توسط تکنیک های وب کاوی اشاره شد و مزایا و معایب هر روش بیان گردید. همانگونه که مشاهده شد، روش های معرفی شده به طور کامل تمام مباحث مربوط به این حوزه را تحت پوشش قرار نمی دهند و هر روش به صورت مجرد و مجزا برخی از موارد را در نظر می گیرد. در ادامه روشی ارائه خواهد شد که ضمن در نظر گرفتن نکات مفید مطرح شده در روش های لی و فنگ، شخصی سازی وب، تحلیل جریان های کلیک، هوش تجاری، e-CRM و مدل رفتاری مشتریان و با توجه به نیازمندی های یک مشتری الکترونیکی به بیان مواردی می پردازد که برای جلب و حفظ وفاداری مشتریان اهمیت دارد.
فصل چهارم
4- ارائه روش پیشنهادی
4-1- مقدمه
در این فصل روشی برای مدیریت ارتباط با مشتریان در حوزه تجارت الکترونیک توسط تکنیک های وب کاوی معرفی خواهد شد که با الهام از نکات مفید مطرح شده در روش های لی و فنگ، شخصی سازی وب، تحلیل جریان های کلیک، هوش تجاری، e-CRM و مدل رفتاری مشتریان است و در پی افزایش میزان رضایت مشتریان و در نتیجه افزایش سودآوری شرکت ها و سازمان ها است، سپس به منظور ارزیابی روش پیشنهادی، نیازمندی ها و توقعات مشتریان اینترنتی توسط فنون متداول وب کاوی سنجیده خواهد شد.
4-2- معرفی روش پیشنهادی
روش معرفی شده، چارچوبی برای به کارگرفتن تکنیک های وب کاوی به منظور کمک به سایت های تجارت الکترونیک برای اجرای مدیریت ارتباط با مشتری است. با این چارچوب می توان فهمید که چگونه مدیریت ارتباط با مشتری می تواند از وب کاوی سود ببرد و در نتیجه موجب بهبود خدمات در سایت های تجارت الکترونیک شود. مدیران بدین وسیله می توانند توقعات مشتریانشان را بهتر بشناسند و در راستای تحقق آن ها گام بردارند. این روش پنج بخش اصلی دارد که سبب واضح شدن محیط مدیریت ارتباط با مشتری در سایت های تجارت الکترونیک می شود:
1- توسعه دانش تجاری
2- تجزیه و تحلیل نیازمندی ها برای طراحی سایت
3- تحلیل موقعیت سازمان در فضای رقابتی
4- انجام فعالیت های تجاری در دنیای مجازی
5- تهیه بازخورد از رفتار مشتریان و به روز رسانی وضعیت موجود در جهت پیشبرد اهداف سازمان
در ادامه بخش های بیان شده، تشریح شده و مشخص می گردد که در هر بخش از کدام روش های عنوان شده در مقدمه الهام گرفته شده است.
4-2-1- توسعه دانش تجاری و دانش مربوط به درک مشتریان
رضایتمندی مشتریان تحت تاثیر عواملی مانند کیفیت، قیمت، تحویل به موقع و خدمات پس از فروش قرار می گیرد. از نظر مشتری، یک محصول زمانی ارزشمند است که در برابر هزینه ای که می پردازد، مزیت ها و خدمات مناسبی دریافت کند و در این صورت است که یک شرکت می تواند در محیط رقابتی توانایی لازم را داشته باشد. مدیریت ارتباط با مشتری مشخص می کند که چه محصولات یا خدماتی، به چه مشتریانی، در چه زمانی و از چه طریقی عرضه گردد.
به منظور موفقیت در دنیای رقابتی ارائه مجموعه ای از محصولات ثابت از پیش تعیین شده برای همه مشتریان صحیح نمی باشد. مدیریت ارتباط با مشتری توسط ابزارهای تحلیل داده ها به مدیران کمک می کند تا بخش بندی های مشتریان را تشخیص دهد، به ارزش حاصل از مشتری در دراز مدت دست یابند، رفتار مشتری را پیش بینی کنند و تبلیغات بازاریابی موثری را طراحی و پیاده سازی کند. هر سازمان یا شرکتی برای شروع فرآیند ارتباط با مشتری، لازم است اطلاعات مربوط به مشتریان را در اختیار داشته باشد که می تواند از منابع داخلی مانند پرسشنامه ها و وبلاگ ها، سوابق کارت های اعتباری و منابع خارجی شامل نشانی ها، شماره تلفن ها و پروفایل های بازدید از سایت ها بدست آید. مدیرانی که امور مربوط به بازاریابی و نظارت بر محتوای سایت را بر عهده دارند، باید بتوانند برای مواردی مانند ویژگی های بازدیدکنندگان سایت، علت تمایل به خرید محصولات، نوع و میزان محصولات خریداری شده، برنامه های بازاریابی، نقاط ضعف و قوت سایت نسبت به سایر رقبا و ... پاسخ مناسبی بیابند تا جایگاه و موقعیت سایت را در تجارت الکترونیک بسنجند.
با توجه به مدل رفتاری مشتریان، مشتریان گروه بندی می شوند و توسط e-CRM، می توان بازاریابی فرد به فرد را انجام داد و از فناوری اطلاعات برای عرضه محصولات شخصی شده استفاده نمود.
4-2-2- تجزیه و تحلیل نیازمندی ها برای طراحی سایت
هنگام طراحی و ایجاد وب سایت توجه به مسائل زیر ضروری است:
1- تعریف اهداف و چشم انداز سایت تجارت الکترونیک
اهداف کوتاه مدت و بلند مدت مربوط به سایت تجارت الکترونیک چیست؟
2- تبیین و ایجاد اهداف سایت
تعریف مدیر از یک سایت موفق در زمینه تجارت الکترونیک چیست؟
نشانه های موفقیت سایت چیست و از چه طریقی می توان متوجه شد؟
سایت از منظر سازمان و مشتری چگونه توصیف می شود؟
3- تعریف مشتریان و اهداف مربوط به آنان
مشتریان سایت چه کسانی هستند؟
تعریف مدیر سایت از مشتریان بر چه اساسی می باشد؟ (شناسایی نیازها و ویژگی ها)
مشتریان به چه محصولاتی تمایل بیشتری دارند؟ (شناسایی علایق)
4- تحلیل و شناخت وظایف و فعالیت ها
مشتریان چه فعالیت هایی را در سایت انجام می دهند؟ (شناسایی محتوا و ترجیحات)
مشتریان به چه وی‍ژگی هایی از سایت بیشتر اهمیت داده یا بیشتر مورد استفاده قرار می دهند؟
چه مواردی برای موفقیت مشتری در تعامل با سایت ضروری است؟
چه جنبه هایی از سایت، دارای مشکل است و سبب آسیب پذیری سایت می شود؟
چه وظایفی برای موفقیت سازمان در زمینه طراحی و توسعه سایت و تجارت الکترونیک نقش کلیدی دارد؟
چه مواردی باعث می شود که مشتریان، سایت را مجددا بازدید نمایند؟
5- تعیین اهداف مورد نظر مشتریان
مشتریان باید چه فعالیت هایی را به راحتی، با حداقل خطا و به سرعت انجام دهند؟
مشتریان باید چه فعالیت هایی را به سرعت و با حداقل خطا به اتمام برسانند؟
رضایت مشتریان پس از استفاده از وب سایت چه میزان است؟
این موارد مشخص کننده کارآمدی، تاثیر گذاری و لذت به کارگیری سایت است.
6- تحلیل انتظارات و مشخص نمودن نیازمندی ها
دیدگاه مدیر راجع به ویژگی های سایت و آن چه که سایت باید انجام دهد، چیست؟
آیا در مورد سایت محدودیت و نقاط ضعفی وجود دارد؟
آیا سایتی وجود دارد که بتواند الگو و نمونه ای برای طراحی سایت مورد نظر باشد؟
کدام تکنیک ها می تواند در برطرف نمودن نیازمندی های سایت یاری رسان باشد؟
7- مشخص نمودن منابع موجود و تحلیل فناوری های موثر
چه منابع و ابزارهایی برای طراحی ظاهر و محتوای سایت در دسترس است؟
چه منابع و ابزارهایی برای جلب مشتریان و حفظ وفاداری آنان موجود است؟
چه منابع و ابزارهایی برای ایجاد مزیت رقابتی وجود دارد؟
چه کسانی مسئولیت ارتقا و توسعه سایت را بر عهده دارند؟
چه تکنیک هایی می تواند در بهبود طراحی سایت استفاده گردد؟
کدام تکنیک ها در حفظ مزیت رقابتی، تاثیر بیشتری دارد؟
چه تکنیک هایی می تواند در سنجش عملکرد سایت موثر باشد؟
با استفاده از ابزارهای هوش تجاری می توان برای سوالات فوق پاسخ های مناسبی یافت که نمایان گر جایگاه سازمان، موقعیت سایت و نیازمندی مشتریان در زمینه تجارت الکترونیک است.

4-2-3- تحلیل موقعیت سازمان در فضای رقابتی
در دنیای تجاری امروز، مشتریان به دنبال بدست آوردن حداکثر خدمات با حداقل هزینه می باشند و بنابراین با توجه به تحلیلی که در بخش قبل از سایت بدست می آید و به منظور ارتقای مزیت رقابتی می توان از روش لی و فنگ و شخصی سازی وب استفاده کرد. شخصی سازی سرویس، بهبود طراحی وب سایت، ارزیابی اثربخشی تبلیغات و یاری رساندن به انتخاب نوع محصولات، در ایجاد مزیت های رقابتی بسیار موثر است. ارائه محصولات قابل فروش و انجام فعالیت های بازاریابی مناسب و تبلیغات فراگیر از جمله مواردی است که در دنیای رقابت بسیار مورد توجه قرار می گیرد. همچنین ساختار، محتوا و ظاهر وب سایت و ایجاد پروفایل اختصاصی به منظور درک نیازها و سلایق مشتریان برای بهبود روابط با آنان، برای جلب نظر مشتریان بسیار اهمیت دارد. روش شخصی سازی وب با استراتژی های به یاد سپاری، سفارشی سازی، سیستم های توسعه گر و پشتیبانی از عملکرد در بهبود فعالیت های سازمان مورد استفاده قرار می گیرد. در این بخش نیز ابزارهای هوش تجاری می توانند به شرکت ها در تشخیص و ارزیابی نقاط ضعف و قوت یاری رساند.
4-2-4- انجام فعالیت های تجاری در دنیای مجازی
پس از عبور از سه بخش فوق، شرکت ها عملا وارد دنیای مجازی می شوند تا فعالیت های تجاری خود را آغاز نمایند. توجه به این نکته ضروری است که اگر چه ورود ممکن است همراه با دشواری باشد ولی ماندگاری و ایجاد اطمینان برای مشتریان برای تعاملات بلند مدت همواره دارای مشکلات و چالش های فراوانی است. در این بخش همواره باید از ابزارهای هوش تجاری و تحلیل های مربوط به جریان کلیک و مدل رفتاری مشتریان برای سود آوری و بازدهی شرایط موجود استفاده نمود.
تکنولوژی جریان های کلیک با مشخص نمودن رفتار خرید مشتریان، الگوهایی را تعیین می نماید و برای حفظ مشتریان سودآور، ارتقا عملکرد وب سایت و تهیه بیشتر محصولات سفارشی حمایت می کند. علاوه بر این شرکت های تجارت الکترونیک می توانند کیفیت محصولات خود را بهبود ببخشند یا مشکلات فروش خود را قبل از وقوع، پیش بینی کنند [Prasanth 2013].
4-2-5- تهیه بازخورد از رفتار مشتریان و به روز رسانی وضعیت موجود در جهت پیشبرد اهداف سازمان
در این مرحله چگونگی پاسخگویی وب سایت به اهداف مشتریان با توجه به دلایل بازدید و نیازمندی های آنان مشخص می گردد. بدین منظور لازم است مواردی مانند راحتی و سهولت استفاده از سایت در یافتن اطلاعات مربوط به محصولات یا خدمات، کارآمدی و انجام مناسب فعالیت های مورد نظر، قابلیت درک مشتریان از ظاهر و محتوای سایت و خرسندی و رضایت از تعامل با سایت سنجیده شود. به منظور جمع آوری اطلاعات، می توان فعالیت های زیر را انجام داد:
الف) ارزیابی تعاملات مشتریان با سایت که شامل پست های الکترونیکی، بخش ارسال سوال و تماس های تلفنی می باشد. مشتریان نیازها و درخواست های خود را معمولا از این طریق مطرح می نمایند.
ب) نظر سنجی آنلاین: در این بخش با قرار دادن پرسشنامه در وب سایت می توان سوالاتی با محوریت موضوعات مطرح شده فوق از مشتریان سوال نمود. با بررسی پرسشنامه ها می توان فهمید که به طور کلی مشتریان از محتوا و خدمات سایت رضایت دارند یا خیر؟
ج) بررسی سوابق مربوط به سایت و جست و جوها: سوابق مربوط به وب سایت نحوه استفاده مشتریان از سایت را مشخص می نمایند. از جمله مهمترین مواردی که در این بخش تحلیل و بررسی می شوند، شامل تعداد مشتریانی است که فقط صفحه اصلی را بازدید نموده اند، مشخص نمودن صفحاتی است که بیشترین بازدید کننده را داشته اند و محصولات یا خدماتی است که بیشتر مورد جستجو قرار گرفته است.
توسعه دهندگان وب با درک پروفایل کاربران و اهداف سایت، حقایقی از عادات کاربران را مشخص نمایند. آن ها همچنین می توانند از رفتار کاربران توسط تحقیق در وب و کشف الگوهای فعالیت مشاهده کنندگان سایت آگاهی یابند. تحلیل گران وب با استفاده از داده هایی که در فایل های ثبت وقایع وب موجود است، به اطلاعات پنهان و شیوه های پیشگویانه برای وب کاوی و تکنیک های کشف دانش دست یابند [Nithya & Sumathi 2012].
در این بخش نیز می توان از ابزارهای هوش تجاری و تحلیل های مربوط به جریان کلیک و مدل رفتاری مشتریان برای پیشبرد اهداف سازمانی بهره برد.
4-3- ارزیابی روش پیشنهادی
به منظور ارزیابی و تحلیل روش پیشنهادی و با تمرکز بر بخش دوم از پنج بخش بیان شده، توقعات و انتظارات 125 مشتری اینترنتی در 14 فیلد دسته بندی شده و به عنوان ورودی الگوریتم های داده کاوی در نظر گرفته می شود و خروجی آن فیلد سطح کارایی سایت نامیده می شود. در واقع مشخص می گردد، کدام موارد از اهمیت بیشتری برای طراحی ظاهر و محتوای یک سایت تجارت الکترونیک برخوردار است و باعث افزایش وفاداری مشتریان اینترنتی می شود. شرکت ها یا سازمان ها با توجه به این موارد می توانند در جهت ارتقای سایت اینترنتی خود اقدام نمایند و سبب افزایش مزایای رقابتی و بازده بالاتر شوند.
14 فیلد مورد نظر در جدول 4-1 آورده شده و با توجه به اظهارنظر مشتریان و داده های مربوط به آمار سایت در مقیاس 1 تا 5 با توجه به درجه اهمیت بسیارکم، کم، متوسط، زیاد و خیلی زیاد رتبه بندی شده است.
جدول 4-1- فیلدهای مورد سنجش
نام فیلد ها
سهولت استفاده از سایت تنوع روش های فروش
قابل درک بودن ظاهر و محتوای سایت تنوع روش های پرداخت
استقرار مناسب اطلاعات رضایت و خرسندی از تعامل با سایت
ترتیب مناسب قرارگیری صفحات دسترسی به سایت به صورت 24/7
اطلاع رسانی مناسب در مورد محصولات و خدمات امنیت و حفظ حریم شخصی
به روز بودن اطلاعات سایت انجام کارآمد فعالیت های مورد نظر
تنوع محصولات یا خدمات پاسخگویی و رفع مشکلات احتمالی
4-4- انتخاب نرم افزار

—d1143

شکل 2-2. ماتریس مجاورت .................................................................................................................................... 11
شکل 2-3. رابطه دودویی و گراف آستانه ................................................................................................................. 12
شکل 2-4. گراف‌های آستانه برای ماتریس ........................................................................................................ 12
شکل 2-5. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی منفرد ..................................................................... 13
شکل 2-6. دندوگرام پیوندی منفرد برای ماتریس............................................................................................... 13
شکل 2-7. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی کامل ...................................................................... 14
شکل 2-8. دندوگرام پیوندی کامل برای ماتریس ............................................................................................... 14
شکل 2-9. الگوریتم خوشه‌بندی افرازبندی...................................................................................... 16
شکل 2-10. الگوریتم فازی خوشه‌بندی ...................................................................................................... 18
شکل 2-11. خوشه‌بندی کاهشی .............................................................................................................................. 23
شکل 2-12. شبه‌کد الگوریتم MKF ........................................................................................................................ 26
شکل2-13. (الف) مجموعه داده با تعداد 10 خوشه واقعی. (ب) منحنی ........................................................ 29
شکل2-1۴. (الف) مجموعه داده (ب) منحنی مربوطه ..................................................................................... 29
شکل2-15. دو افراز اولیه با تعداد سه خوشه ........................................................................................................... 31
شکل2-16. نمونه‌های اولیه در نتایج الگوریتم ................................................................................ 36
شکل 2-17. زیر شبه کد الگوریتم خوشه‌بندی ترکیبی توسط مدل مخلوط .............................................................. 43
شکل 2-18. خوشه‌بندی ترکیبی ............................................................................................................................... 44
شکل 2-19. نمونه ماتریس، جهت تبدیل خوشه‌بندی به ابر گراف ................................................................. 45
شکل 2-20. ماتریس شباهت بر اساس خوشه برای مثال شکل (3-5) .................................................................... 46
شکل 2-21. الگوریتم افرازبندی ابر گراف ............................................................................................................... 47
شکل 2-22. الگوریتم فرا خوشه‌بندی ..................................................................................................................... 49
شکل2-23. الگوریتم خوشه‌بندی ترکیبی مبتنی بر ماتریس همبستگی ...................................................................... 50
شکل2-24. الگوریتم افرازبندی با تکرار ................................................................................................................... 53
شکل2-25. نمایش گراف مجاورت در مراحل کاهش درجه ماتریس و شمارش آن ................................................ 54
شکل2-26. مثال روند تغییر توزیع تعداد خوشه ....................................................................................................... 55
شکل2-27. جریان کار عمومی برای پیاده‌سازی الگوریتم افرازبندی گراف .............................................................. 55
شکل 2-28. گراف تابع در بازه بین صفر و یک ............................................................................................. 62
شکل 2-29. الگوریتم خوشه‌بندی ترکیبی طیفی مبتنی بر انتخاب بر اساس شباهت ................................................ 63
شکل 2-30. مثالی از ماتریس اتصال ........................................................................................................................ 66
شکل 2-31. شبه کد خوشه‌بندی ترکیبی انتخابی لی‌مین .......................................................................................... 68
شکل 2-32. روش ارزیابی خوشهی یک افراز در روش MAX ............................................................................... 69
شکل 2-33. چهارچوب خوشهبندی ترکیبی مبتنی بر انتخاب با استفاده از مجموعه‌ای از خوشه‌های یک افراز ...... 71
شکل 2-34. چهارچوب روش بهترین افراز توافقی اعتبارسنجی شده ...................................................................... 72
فصل سوم
شکل3-1. چهارچوب الگوریتم خوشه‌بندی خردمند با استفاده از آستانه‌گیری ......................................................... 82
شکل3-۲. محاسبه درجه استقلال دو خوشه‌بندی ..................................................................................................... 86
شکل3-3. تأثیر عدم تمرکز بر روی پیچیدگی داده ................................................................................................... 89
شکل3-3. تأثیر انتخاب افرازها در خوشه‌بندی ترکیبی مبتنی بر انتخاب بر مقدار NMI ارزیابی‌شده ........................ 91
شکل3-4. شبه کد خوشه‌بندی خردمند با استفاده از آستانه‌گیری .............................................................................. 92
شکل3-5. دسته‌بندی الگوریتم‌های خوشه‌بندی ........................................................................................................ 94
شکل3-6. کد الگوریتم K-means به زبان استقلال الگوریتم‌ خوشه‌بندی ................................................................. 98
شکل3-7. تبدیل کد‌های شروع و پایان به گراف .................................................................................................... 100
شکل3-8. تبدیل عملگر شرط ساده به گراف ......................................................................................................... 100
شکل3-9. تبدیل عملگر شرط کامل به گراف ......................................................................................................... 101
شکل3-10. تبدیل عملگر شرط تو در تو به گراف ................................................................................................. 101
شکل3-11. تبدیل عملگر حلقه ساده به گراف ....................................................................................................... 102
شکل3-12. تبدیل عملگر حلقه با پرش به گراف ................................................................................................... 102
شکل3-13. پیاده‌سازی شرط ساده بدون هیچ کد اضافی ........................................................................................ 103
شکل3-14. پیاده‌سازی شرط ساده با کدهای قبل و بعد آن .................................................................................... 103
شکل3-15. پیاده‌سازی شرط کامل ......................................................................................................................... 104
شکل3-16. پیاده‌سازی شرط‌ تو در تو .................................................................................................................... 104
شکل3-17. پیاده‌سازی یک شرط کامل در یک شرط ساده .................................................................................... 105
شکل3-18. پیاده‌سازی یک شرط کامل در یک شرط کامل دیگر ........................................................................... 105
شکل3-19. پیاده‌سازی حلقه ساده .......................................................................................................................... 106
شکل3-20. پیاده‌سازی یک حلقه ساده داخل حلقه‌ای دیگر ................................................................................... 106
شکل3-21. پیاده‌سازی یک حلقه داخل یک شرط کامل ........................................................................................ 106
شکل3-22. پیاده‌سازی یک شرط کامل داخل یک حلقه ساده ................................................................................ 107
شکل3-23. ماتریس درجه وابستگی‌ کد ................................................................................................................. 108
شکل3-24. شبه کد مقایسه محتوای دو خانه از آرایه‌های استقلال الگوریتم .......................................................... 108
شکل3-25. چهارچوب خوشه‌بندی خردمند مبتنی بر گراف استقلال الگوریتم ...................................................... 110
شکل3-26. شبه کد خوشه‌بندی خردمند مبتنی بر گراف استقلال الگوریتم ............................................................ 113
فصل چهارم
شکل۴-۱. مجموعه داده Halfring .......................................................................................................................... 118
شکل4-2. الگوریتم K-means ................................................................................................................................ 121
شکل4-3. الگوریتم FCM ...................................................................................................................................... 121
شکل4-4. الگوریتم Median K-Flats .................................................................................................................... 122
شکل4-5. الگوریتم Gaussian Mixture ................................................................................................................ 122
شکل4-6. الگوریتم خوشه‌بندی Subtractive ......................................................................................................... 122
شکل4-7. الگوریتم پیوندی منفرد با استفاده از معیار فاصله اقلیدسی ..................................................................... 123
شکل4-8. الگوریتم پیوندی منفرد با استفاده از معیار فاصله Hamming ................................................................ 123
شکل4-9. الگوریتم پیوندی منفرد با استفاده از معیار فاصله Cosine ..................................................................... 123
شکل4-10. الگوریتم پیوندی کامل با استفاده از معیار فاصله اقلیدسی ................................................................... 124
شکل4-1۱. الگوریتم پیوندی کامل با استفاده از معیار فاصله Hamming .............................................................. 124
شکل4-1۲. الگوریتم پیوندی کامل با استفاده از معیار فاصله Cosine .................................................................... 124
شکل4-1۳. الگوریتم پیوندی میانگین با استفاده از معیار فاصله اقلیدسی ............................................................... 124
شکل4-14. الگوریتم پیوندی میانگین با استفاده از معیار فاصله Hamming .......................................................... 125
شکل4-15. الگوریتم پیوندی میانگین با استفاده از معیار فاصله Cosine ............................................................... 125
شکل4-16. الگوریتم پیوندی بخشی با استفاده از معیار فاصله اقلیدسی ................................................................ 125
شکل4-17. الگوریتم پیوندی بخشی با استفاده از معیار فاصله Hamming ............................................................ 125
شکل4-18. الگوریتم پیوندی بخشی با استفاده از معیار فاصله Cosine ................................................................. 126
شکل4-19. طیفـی با استفاده از ماتریس شباهت نامتراکم ...................................................................................... 126
شکل4-20. طیفـی با استفاده از روش نیستروم با متعادل ساز .............................................................................. 127
شکل4-21. طیفـی با استفاده از روش نیستروم بدون متعادل ساز ......................................................................... 127
شکل4-22. نرم‌افزار تحلیل‌گر کد استقلال الگوریتم ............................................................................................... 128
شکل4-23. ماتریس AIDM ................................................................................................................................... 129
شکل4-24. میانگین دقت الگوریتم‌های خوشه‌بندی ............................................................................................... 131
شکل4-25. رابطه میان آستانه استقلال و زمان اجرای الگوریتم در روش پیشنهادی اول ........................................ 133
شکل4-26. رابطه میان آستانه پراکندگی و زمان اجرای الگوریتم در روش پیشنهادی اول ..................................... 133
شکل4-27. رابطه میان آستانه استقلال و دقت نتیجه نهایی در روش پیشنهادی اول .............................................. 134
شکل4-28. رابطه میان آستانه پراکندگی و دقت نتیجه نهایی در روش پیشنهادی اول ............................................ 134
شکل4-29. رابطه میان آستانه عدم تمرکز و دقت نتیجه نهایی در روش پیشنهادی اول ......................................... 135
شکل4-30. رابطه میان آستانه پراکندگی و زمان اجرای الگوریتم در روش پیشنهادی دوم ..................................... 135
شکل4-31. رابطه میان آستانه پراکندگی و دقت نتایج نهایی در روش پیشنهادی دوم ............................................ 136
شکل4-32. رابطه میان آستانه عدم تمرکز و دقت نتایج نهایی در روش پیشنهادی دوم ......................................... 137
شکل4-33. مقایسه زمان اجرای الگوریتم‌ ............................................................................................................... 138
فصل اول
مقدمه
center3187700
1. مقدمه1-1. خوشه‌بندیبه عنوان یکی از شاخه‌های وسیع و پرکاربرد هوش مصنوعی، یادگیری ماشین به تنظیم و اکتشاف شیوه‌ها و الگوریتم‌هایی می‌پردازد که بر اساس آن‌ها رایانه‌ها و سامانه‌های اطلاعاتی توانایی تعلم و یادگیری پیدا می‌کنند. طیف پژوهش‌هایی که در مورد یادگیری ماشینی صورت می‌گیرد گسترده ‌است. در سوی نظر‌ی آن پژوهش‌گران بر آن‌اند که روش‌های یادگیری تازه‌ای به وجود بیاورند و امکان‌پذیری و کیفیت یادگیری را برای روش‌هایشان مطالعه کنند و در سوی دیگر عده‌ای از پژوهش‌گران سعی می‌کنند روش‌های یادگیری ماشینی را بر مسائل تازه‌ای اعمال کنند. البته این طیف گسسته نیست و پژوهش‌های انجام‌شده دارای مؤلفه‌هایی از هر دو رو‌یکرد هستند. امروزه، داده‌کاوی به عنوان یک ابزار قوی برای تولید اطلاعات و دانش از داده‌های خام، در یادگیری ماشین شناخته‌شده و همچنان با سرعت در حال رشد و تکامل است. به طور کلی می‌توان تکنیک‌های داده‌کاوی را به دو دسته بانظارت و بدون نظارت تقسیم کرد [29, 46].
در روش بانظارت ما ورودی (داده یادگیری) و خروجی (کلاس داده) یک مجموعه داده را به الگوریتم هوشمند می‌دهیم تا آن الگوی بین ورودی و خروجی را تشخیص دهد در این روش خروجی کار ما مدلی است که می‌تواند برای ورودی‌های جدید خروجی درست را پیش‌بینی کند. روش‌های طبقه‌بندی و قوانین انجمنی از این جمله تکنیک‌ها می‌باشد. روش‌های با نظارت کاربرد فراوانی دارند اما مشکل عمده این روش‌ها این است که همواره باید داده‌ای برای یادگیری وجود داشته باشد که در آن به ازای ورودی مشخص خروجی درست آن مشخص شده باشد. حال آنکه اگر در زمینه‌ای خاص داده‌ای با این فرمت وجود نداشته باشد این روش‌ها قادر به حل این‌گونه مسائل نخواهند بود [29, 68]. در روش بدون نظارت برخلاف یادگیری بانظارت هدف ارتباط ورودی و خروجی نیست، بلکه تنها دسته‌بندی ورودی‌ها است. این نوع یادگیری بسیار مهم است چون خیلی از مسائل (همانند دنیای ربات‌ها) پر از ورودی‌هایی است که هیچ برچسبی (کلاس) به آن‌ها اختصاص داده نشده است اما به وضوح جزئی از یک دسته هستند [46, 68]. خوشه‌بندی شاخص‌ترین روش در داده‌کاوی جهت حل مسائل به صورت بدون ناظر است. ایده اصلی خوشه‌بندی اطلاعات، جدا کردن نمونه‌ها از یکدیگر و قرار دادن آن‌ها در گروه‌های شبیه به هم می‌باشد. به این معنی که نمونه‌های شبیه به هم باید در یک گروه قرار بگیرند و با نمونه‌های گروه‌های دیگر حداکثر متفاوت را دارا باشند [20, 26]. دلایل اصلی برای اهمیت خوشه‌بندی عبارت‌اند از:
اول، جمع‌آوری و برچسب‌گذاری یک مجموعه بزرگ از الگوهای نمونه می‌تواند بسیار پرکاربرد و باارزش باشد.
دوم، می‌توانیم از روش‌های خوشه‌بندی برای پیدا کردن و استخراج ویژگی‌ها و الگوهای جدید استفاده کنیم. این کار می‌تواند کمک به سزایی در کشف دانش ضمنی داده‌ها انجام دهد.
سوم، با خوشه‌بندی می‌توانیم یک دید و بینشی از طبیعت و ساختار داده به دست آوریم که این می‌تواند برای ما باارزش باشد.
چهارم، خوشه‌بندی می‌تواند منجر به کشف زیر رده‌های مجزا یا شباهت‌های بین الگوها ممکن شود که به طور چشمگیری در روش طراحی طبقه‌بندی قابل استفاده باشد.
1-2. خوشه‌بندی ترکیبیهر یک از الگوریتم‌های خوشه‌بندی، با توجه به اینکه بر روی جنبه‌های متفاوتی از داده‌ها تاکید می‌کند، داده‌ها را به صورت‌های متفاوتی خوشه‌بندی می‌نماید. به همین دلیل، نیازمند روش‌هایی هستیم که بتواند با استفاده از ترکیب این الگوریتم‌ها و گرفتن نقاط قوت هر یک، نتایج بهینه‌تری را تولید کند. در واقع هدف اصلی خوشه‌بندی ترکیبی جستجوی بهترین خوشه‌ها با استفاده از ترکیب نتایج الگوریتم‌های دیگر است [1, 8, 9, 54, 56]. به روشی از خوشه‌بندی ترکیبی که زیرمجموعه‌ی منتخب از نتایج اولیه برای ترکیب و ساخت نتایج نهایی استفاده می‌شود خوشه‌بندی ترکیبی مبتنی بر انتخاب زیرمجموعه نتایج اولیه می‌گویند. در این روش‌ها بر اساس معیاری توافقی مجموعه‌ای از مطلوب‌ترین نتایج اولیه را انتخاب کرده و فقط توسط آن‌ها نتیجه نهایی را ایجاد می‌کنیم [21]. معیارهای مختلفی جهت انتخاب مطلوب‌ترین روش پیشنهاد شده است که معیار اطلاعات متقابل نرمال شده، روش ماکزیموم و APMM برخی از آن‌ها می‌باشند [8, 9, 21, 67]. دو مرحله مهم در خوشه‌بندی ترکیبی عبارت‌اند از:
اول، الگوریتم‌های ابتدایی خوشه‌بندی که خوشه‌بندی اولیه را انجام می‌دهد.
دوم، جمع‌بندی نتایج این الگوریتم‌های اولیه (پایه) برای به دست آوردن نتیجه نهایی.
1-3. خرد جمعینظریه خرد جمعی که اولین بار توسط سورویکی در سال 2004 در کتابی با همان عنوان منتشر شد، استنباطی از مسائل مطرح‌شده توسط گالتون و کندورست می‌باشد، و نشان می‌دهد که قضاوت‌های جمعی و دموکراتیک از اعتبار بیشتری نسبت به آنچه که ما انتظار داشتیم برخوردار است، ما تأثیرات این ایده را در حل مسائل سیاسی، اجتماعی در طی سال‌های اخیر شاهد هستیم. در ادبیات خرد جمعی هر جامعه‌ای را خردمند نمی‌گویند. از دیدگاه سورویکی خردمند بودن جامعه در شرایط چهارگانه پراکندگی، استقلال، عدم تمرکز و روش ترکیب مناسب است [55].
1-4. خوشه‌بندی مبتنی بر انتخاب بر اساس نظریه خرد جمعیهدف از این تحقیق استفاده از نظریه خرد جمعی برای انتخاب زیرمجموعه‌ی مناسب در خوشه‌بندی ترکیبی می‌باشد. تعاریف سورویکی از خرد جمعی مطابق با مسائل اجتماعی است و در تعاریف آن عناصر سازنده تصمیمات رأی افراد می‌باشد. در این تحقیق ابتدا مبتنی بر تعاریف پایه سورویکی از خرد جمعی و ادبیات مطرح در خوشه‌بندی ترکیبی، تعریف پایه‌ای از ادبیات خرد جمعی در خوشه‌بندی ترکیبی ارائه می‌دهیم و بر اساس آن الگوریتم پیشنهادی خود را در جهت پیاده‌سازی خوشه‌بندی ترکیبی ارائه می‌دهیم [55]. شرایط چهارگانه خوشه‌بندی خردمند که متناسب با تعاریف سورویکی باز تعریف شده است به شرح زیر می‌باشد:
پراکندگی نتایج اولیه، هر الگوریتم خوشه‌بندی پایه باید به طور جداگانه و بدون واسطه به داده‌های مسئله دسترسی داشته و آن را تحلیل و خوشه‌بندی کند حتی اگر نتایج آن غلط باشد.
استقلال الگوریتم، روش تحلیل هر یک از خوشه‌بندی‌های پایه نباید تحت تأثیر روش‌های سایر خوشه‌بندی‌های پایه تعیین شود، این تأثیر می‌تواند در سطح نوع الگوریتم (گروه) یا پارامترهای اساسی یک الگوریتم خاص (افراد) باشد.
عدم تمرکز، ارتباط بین بخش‌های مختلف خوشه‌بندی خرد جمعی باید به گونه‌ای باشد تا بر روی عملکرد خوشه‌بندی پایه تأثیری ایجاد نکند تا از این طریق هر خوشه‌بندی پایه شانس این را داشته باشد تا با شخصی سازی و بر اساس دانش محلی خود بهترین نتیجه ممکن را آشکار سازد.
مکانیزم ترکیب مناسب، باید مکانیزمی وجود داشته باشد که بتوان توسط آن نتایج اولیه الگوریتم‌های پایه را با یکدیگر ترکیب کرده و به یک نتیجه نهایی (نظر جمعی) رسید.
در این تحقیق دو روش برای ترکیب خوشه‌بندی ترکیبی و خرد جمعی پیشنهاد شده است. با استفاده از تعاریف بالا الگوریتم روش اول مطرح خواهد شد که در آن، جهت رسیدن به نتیجه نهایی از آستانه‌گیری استفاده می‌شود. در این روش الگوریتم‌های خوشه‌بندی اولیه غیر هم نام کاملاً مستقل فرض خواهند شد و برای ارزیابی استقلال الگوریتم‌های هم نام نیاز به آستانه‌گیری می‌باشد. در روش دوم، سعی شده است تا دو بخش از روش اول بهبود یابد. از این روی جهت مدل‌سازی الگوریتم‌ها و ارزیابی استقلال آن‌ها نسبت به هم یک روش مبتنی بر گراف شبه کد ارائه می‌شود و میزان استقلال به دست آمده در این روش به عنوان وزنی برای ارزیابی پراکندگی در تشکیل جواب نهایی مورد استفاده قرار می‌گیرد. جهت ارزیابی، روش‌های پیشنهادی با روش‌های پایه، روش‌ ترکیب کامل و چند روش معروف ترکیب مبتنی بر انتخاب مقایسه خواهد شد. از این روی از چهارده داده استاندارد و یا مصنوعی که عموماً از سایت UCI [76] جمع‌آوری شده‌اند استفاده شده است. در انتخاب این داده‌ها سعی شده، داده‌هایی با مقیاس‌ کوچک، متوسط و بزرگ انتخاب شوند تا کارایی روش بدون در نظر گرفتن مقیاس داده ارزیابی شود. همچنین جهت اطمینان از صحت نتایج تمامی آزمایش‌های تجربی گزارش‌شده حداقل ده بار تکرار شده است.
1-4-1- فرضیات تحقیقاین تحقیق بر اساس فرضیات زیر اقدام به ارائه روشی جدید در خوشه‌بندی ترکیبی مبتنی بر انتخاب بر اساس نظریه خرد جمعی می‌کند.
۱ ) در این تحقیق تمامی آستانه‌گیری‌ها بر اساس میزان صحت نتایج نهایی و مدت زمان اجرای الگوریتم به صورت تجربی انتخاب می‌شوند.
۲ ) در این تحقیق جهت ارزیابی عملکرد یک الگوریتم، نتایج اجرای آن را بر روی‌داده‌های استاندارد UCI در محیطی با شرایط و پارامترهای مشابه نسبت به سایر الگوریتم‌ها ارزیابی می‌کنیم که این داده‌ها الزاماً حجیم یا خیلی کوچک نیستند.
۳ ) جهت اطمینان از صحت نتایج آزمایش‌ها ارائه‌شده در این تحقیق، حداقل اجرای هر الگوریتم بر روی هر داده ده بار تکرار شده و نتیجه‌ی نهایی میانگین نتایج به دست آمده می‌باشد.
4 ) از آنجایی که روش مطرح‌شده در این تحقیق یک روش مکاشفه‌ای است سعی خواهد شد بیشتر با روش‌های مکاشفه‌ای مطرح در خوشه‌بندی ترکیبی مقایسه و نتایج آن مورد بررسی قرار گیرد.
در این فصل اهداف، مفاهیم و چالش‌های این تحقیق به صورت خلاصه ارائه شد. در ادامه این تحقیق، در فصل دوم، الگوریتم‌های خوشه‌بندی پایه و روش‌های خوشه‌بندی‌ ترکیبی مورد بررسی قرار می‌گیرد. همچنین به مرور روش‌های انتخاب خوشه و یا افراز در خوشه‌بندی ترکیبی مبتنی بر انتخاب خواهیم پرداخت. در فصل سوم، نظریه خرد جمعی و دو روش پیشنهادی خوشه‌بندی خردمند ارائه می‌شود. در فصل چهارم، به ارائه نتایج آزمایش‌های تجربی این تحقیق و ارزیابی آن‌ها می‌پردازیم و در فصل پنجم، به ارائه‌ی نتایج و کار‌های آتی خواهیم پرداخت.

فصل دوم
مروری بر ادبیات تحقیق
center2132965
2. مروری بر ادبیات تحقیق2-1. مقدمهدر این بخش، کارهای انجام‌شده در خوشه‌بندی و خوشه‌بندی ترکیبی را مورد مطالعه قرار می‌دهیم. ابتدا چند الگوریتم‌ پایه خوشه‌بندی معروف را معرفی خواهیم کرد. سپس چند روش کاربردی جهت ارزیابی خوشه، خوشه‌بندی و افرازبندی را مورد مطالعه قرار می‌دهیم. در ادامه به بررسی ادبیات خوشه‌بندی ترکیبی خواهیم پرداخت و روش‌های ترکیب متداول را بررسی خواهیم کرد. از روش‌های خوشه‌بندی ترکیبی، روش ترکیب کامل و چند روش معروف مبتنی بر انتخاب را به صورت مفصل شرح خواهیم داد.
2-2. خوشه‌بندیدر این بخش ابتدا انواع الگوریتم‌های خوشه‌بندی پایه را معرفی می‌کنیم و سپس برخی از آن‌ها را مورد مطالعه قرار می‌دهیم سپس برای ارزیابی نتایج به دست آمده چند متریک معرفی خواهیم کرد.
2-2-1. الگوریتم‌های خوشه‌بندی پایهبه طور کلی، الگوریتم‌های خوشه‌بندی را می‌توان به دو دسته کلی تقسیم کرد:
1- الگوریتم‌های سلسله مراتبی
2- الگوریتم‌های افرازبندی
الگوریتم‌های سلسله مراتبی، یک روال برای تبدیل یک ماتریس مجاورت به یک دنباله از افرازهای تو در تو، به صورت یک درخت است. در این روش‌ها، مستقیماً با داده‌ها سروکار داریم و از روابط بین آن‌ها برای به دست آوردن خوشه‌ها استفاده می‌کنیم. یکی از ویژگی‌های این روش قابلیت تعیین تعداد خوشه‌ها به صورت بهینه می‌باشد. در نقطه مقابل الگوریتم‌های سلسله مراتبی، الگوریتم‌های افرازبندی قرار دارند. هدف این الگوریتم‌ها، تقسیم داده‌ها در خوشه‌ها، به گونه‌ای است که داده‌های درون یک خوشه بیش‌ترین شباهت را به همدیگر داشته باشند؛ و درعین‌حال، بیش‌ترین فاصله و اختلاف را با داده‌های خوشه‌های دیگر داشته باشند. در این فصل تعدادی از متداول‌ترین الگوریتم‌های خوشه‌بندی، در دو دسته سلسله مراتبی و افرازبندی، مورد بررسی قرار می‌گیرند. از روش سلسله‌ مراتبی چهار الگوریتم‌ از سری الگوریتم‌های پیوندی را مورد بررسی قرار می‌دهیم. و از الگوریتم‌های افرازبندی K-means، FCM و الگوریتم طیفی را مورد بررسی خواهیم داد.
2-2-1-1. الگوریتم‌های سلسله مراتبیهمان‌گونه که در شکل 2-1 مشاهده می‌شود، روال الگوریتم‌های خوشه‌بندی سلسله مراتبی را می‌تواند به صورت یک دندوگرام نمایش داد. این نوع نمایش تصویری از خوشه‌بندی سلسله مراتبی، برای انسان، بیشتر از یک لیست از نمادها قابل‌درک است. در واقع دندوگرام، یک نوع خاص از ساختار درخت است که یک تصویر قابل‌فهم از خوشه‌بندی سلسله مراتبی را ارائه می‌کند. هر دندوگرام شامل چند لایه از گره‌هاست، به طوری که هر لایه یک خوشه را نمایش می‌دهد. خطوط متصل‌کننده گره‌ها، بیانگر خوشه‌هایی هستند که به صورت آشیانه‌ای داخل یکدیگر قرار دارند. برش افقی یک دندوگرام، یک خوشه‌بندی را تولید می‌کند [33]. شکل 2-1 یک مثال ساده از خوشه‌بندی و دندوگرام مربوطه را نشان می‌دهد.

شکل 2-1. یک خوشه‌بندی سلسله مراتبی و درخت متناظر
اگر الگوریتم‌های خوشه‌بندی سلسله مراتبی، دندوگرام را به صورت پایین به بالا بسازند، الگوریتم‌های خوشه‌بندی سلسله مراتبی تراکمی نامیده می‌شوند. همچنین، اگر آن‌ها دندوگرام را به صورت بالا به پایین بسازند، الگوریتم‌های خوشه‌بندی سلسله مراتبی تقسیم‌کننده نامیده می‌شوند [26]. مهم‌ترین روش‌های خوشه‌بندی سلسله مراتبی الگوریتم‌های سری پیوندی می‌باشد که در این بخش تعدادی از کاراترین آن‌ها مورد بررسی قرار خواهند گرفت که عبارت‌اند از:
الگوریتم پیوندی منفرد
الگوریتم پیوندی کامل
الگوریتم پیوندی میانگین
الگوریتم پیوندی بخشی
2-2-1-1-1. تعاریف و نماد‌ها
شکل 2-2. ماتریس مجاورت
قبل از معرفی این الگوریتم‌ها، در ابتدا نمادها و نحوه نمایش مسئله نمایش داده خواهد شد. فرض کنید که یک ماتریس مجاورت متقارن داریم. وارده در هر سمت قطر اصلی قرار دارد که شامل یک جای گشت اعداد صحیح بین 1 تا است. ما مجاورت‌ها را عدم شباهت در نظر می‌گیریم. به این معنی است که اشیاء 1 و 3 بیشتر از اشیاء 1 و 2 به هم شبیه‌اند. یک مثال از ماتریس مجاورت معمول برای است که در شکل 2-2 نشان داده شده است. یک گراف آستانه، یک گراف غیر جهت‌دار و غیر وزن‌دار، روی گره، بدون حلقه بازگشت به خود یا چند لبه است. هر نود یک شیء را نمایش می‌دهد. یک گراف آستانه برای هر سطح عدم شباهت به این صورت تعریف می‌شود: اگر عدم شباهت اشیاء و از حد آستانه کوچک‌تر باشد، با واردکردن یک لبه بین نودهای ویک گراف آستانه تعریف می‌کنیم.
(2-1)if and only if
شکل 2-3 یک رابطه دودویی به دست آمده از ماتریس مربوط به شکل 2-2 را برای مقدار آستانه 5 نشان می‌دهد. نماد "*" در موقعیت ماتریس، نشان می‌دهد که جفت متعلق به رابطه دودویی می‌باشد. شکل 2-4، گراف‌های آستانه برای ماتریس را نمایش می‌دهد.

شکل 2-3. رابطه دودویی و گراف آستانه برای مقدار آستانه 5.

شکل 2-4. گراف‌های آستانه برای ماتریس
2-2-1-1-2. الگوریتم پیوندی منفرداین الگوریتم روش کمینه و روش نزدیک‌ترین همسایه نیز نامیده می‌شود [26]. اگر و خوشه‌ها باشند، در روش پیوندی منفرد، فاصله آن‌ها برابر خواهد بود با:
(2-2)
که نشان‌دهنده فاصله (عدم شباهت) بین نقاط a و b در ماتریس مجاورت است. شکل 2-5 این الگوریتم را نمایش می‌دهد. شکل 2-6 دندوگرام حاصل از روش پیوندی منفرد را برای ماتریس ، را نشان می‌دهد.
Step 1. Begin with the disjoint clustering implied by threshold graph, which contains no edges and which places every object in a unique cluster, as the current clustering. Set.
Step 2. From threshold graph.
If the number of comonents (maximally connected subgraphs) in, is less than the number of clusters in the current clustering, redefiene the current clustering by naming each component of as a cluster.
Step 3. If consists of a single connected graph, stop. Else, setand go to step 2.
شکل 2-5. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی منفرد

شکل 2-6. دندوگرام پیوندی منفرد برای ماتریس
2-2-1-1-3. الگوریتم پیوندی کاملاین الگوریتم روش بیشینه یا روش دورترین همسایه نیز نامیده می‌شود. الگوریتم پیوندی کامل می‌گوید که وقتی دو خوشه و شبیه به هم هستند که بیشینه روی تمام ها در و کوچک باشد. به عبارت دیگر، در این الگوریتم، برای یکی کردن دو خوشه، همه جفت‌ها در دو خوشه باید شبیه به هم باشند [26]. اگر و خوشه‌ها باشند، در روش پیوندی کامل، فاصله آن‌ها برابر خواهد بود با:
(2-3)
که نشان‌دهنده فاصله(عدم شباهت) بین نقاط a و در ماتریس مجاورت است. شکل 2-7 این الگوریتم و شکل 2-8 دندوگرام حاصل از این روش را برای ماتریس ، را نشان می‌دهد.


Step 1. Begin with the disjoint clustering implied by threshold graph, which contains no edges and which places every object in a unique cluster, as the current clustering. Set.
Step 2. From threshold graph.
If two of the current clusters from a clique (maximally complete sub graph) in, redefine the current clustering by merging these two clusters into a single cluster.
Step 3. If, so that is the complete graph on the nodes, stop. Else, set and go to step 2.
شکل 2-7. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی کامل

شکل 2-8. دندوگرام پیوندی کامل برای ماتریس
2-2-1-1-4. الگوریتم پیوندی میانگینالگوریتم پیوندی منفرد اجازه می‌دهد تا خوشه‌ها به صورت دراز و نازک رشد کنند. این در شرایطی است که الگوریتم پیوندی کامل خوشه‌های فشرده‌تری تولید می‌کند. هر دو الگوریتم مستعد خطا با داده‌های خارج از محدوده هستند. الگوریتم خوشه‌بندی پیوندی میانگین، یک تعادلی بین مقادیر حدی الگوریتم‌های پیوندی منفرد و کامل است. الگوریتم پیوندی میانگین همچنین، روش جفت-گروه بدون وزن با استفاده از میانگین حسابی نامیده می‌شود. این الگوریتم، یکی از پرکاربردترین الگوریتم‌های خوشه‌بندی سلسله مراتبی می‌باشد [26]. اگر یک خوشه با تعداد تا عضو، و یک خوشه دیگر با تعداد تا عضو باشند، در روش پیوندی میانگین، فاصله آن‌ها برابر خواهد بود با:
(2-4)
که نشان‌دهنده فاصله(عدم شباهت) بین نقاط a و در ماتریس مجاورت است.
2-2-1-1-5. الگوریتم پیوندی بخشیروش پیوندی بخشی که از مربع مجموع خطا‌های (SSE) خوشه‌های یک افراز برای ارزیابی استفاده می‌کند، یکی دیگر از روش‌های سلسله مراتبی می‌باشد [60]. اگر یک خوشه با تعداد تا عضو، و یک خوشه دیگر با تعداد تا عضو باشند و نماد به معنای فاصله اقلیدسی و و مراکز خوشه‌های و باشد آنگاه در روش پیوندی بخشی، فاصله آن‌ها برابر خواهد بود با:
(2-5)
2-2-1-2. الگوریتم‌های افرازبندییک خاصیت مهم روش‌های خوشه‌بندی سلسله مراتبی، قابلیت نمایش دندوگرام است که تحلیل‌گر را قادر می‌سازد تا ببیند که چگونه اشیاء در سطوح متوالی مجاورت، در خوشه‌ها به هم پیوند می‌خورند یا تفکیک می‌شوند. همان طور که اشاره شد، هدف الگوریتم‌های افرازبندی، تقسیم داده‌ها در خوشه‌ها، به گونه‌ای است که داده‌های درون یک خوشه بیش‌ترین شباهت را به همدیگر داشته باشند؛ و درعین‌حال، بیش‌ترین فاصله و اختلاف را با داده‌های خوشه‌های دیگر داشته باشند. آن‌ها یک افراز منفرد از داده را تولید می‌کنند و سعی می‌کنند تا گروه‌های طبیعی حاضر در داده را کشف کنند. هر دو رویکرد خوشه‌بندی، دامنه‌های مناسب کاربرد خودشان را دارند. معمولاً روش‌های خوشه‌بندی سلسله مراتبی، نیاز به ماتریس مجاورت بین اشیاء دارند؛ درحالی‌که روش‌های افرازبندی، به داده‌ها در قالب ماتریس الگو نیاز دارند. نمایش رسمی مسئله خوشه‌بندی افرازبندی می‌تواند به صورت زیر باشد:
تعیین یک افراز از الگوها در گروه، یا خوشه، با داشتن الگو در یک فضای d-بعدی؛ به طوری که الگوها در یک خوشه بیش‌ترین شباهت را به هم داشته و با الگوهای خوشه‌های دیگر بیش‌ترین، تفاوت را داشته باشند. تعداد خوشه‌ها،، ممکن است که از قبل مشخص‌شده نباشد، اما در بسیاری از الگوریتم‌های خوشه‌بندی افرازبندی، تعداد خوشه‌ها باید از قبل معلوم باشند. در ادامه برخی از معروف‌ترین و پرکاربردترین الگوریتم‌های افرازبندی مورد بررسی قرار خواهند گرفت.
2-2-1-2-1. الگوریتم K-meansدر الگوریتم مراکز خوشه‌ها بلافاصله بعد از اینکه یک نمونه به یک خوشه می‌پیوندد محاسبه می‌شوند. به طور معمول بیشتر روش‌های خوشه‌بندی ترکیبی از الگوریتم جهت خوشه‌بندی اولیه خود استفاده می‌کنند [37, 47, 57]. اما مطالعات اخیر نشان داده‌اند که با توجه به رفتار هر مجموعه داده، گاهی اوقات یک روش خوشه‌بندی خاص پیدا می‌شود که دقت بهتری از برای بعضی از مجموعه داده‌ها می‌دهد [1, 54]. اما الگوریتم به دلیل سادگی و توانایی مناسب در خوشه‌بندی همواره به عنوان انتخاب اول مطالعات خوشه‌بندی ترکیبی مورد مطالعه قرار گرفته است. در شکل 2-10 شبه کد الگوریتم را مشاهده می‌کنید:
1. Place K points into the space represented by the objects that are being clustered.
These points represent initial group centroids.
2. Assign each object to the group that has the closest centroid.
3. When all objects have been assigned, recalculate the positions of the K centroids.
4. Repeat Steps 2 and 3 until the centroids no longer move. This produces a separation
of the objects into groups from which the metric to be minimized can be calculated
شکل 2-9. الگوریتم خوشه‌بندی افرازبندی
مقادیر مراکز اولیه‌ی‌ متفاوت برای الگوریتم می‌تواند منجر به خوشه‌بندی‌های مختلفی شود. به خاطر اینکه این الگوریتم مبتنی بر مربع خطا است، می‌تواند به کمینه محلی همگرا شود، مخصوصاً برای خوشه‌هایی که به طور خیلی خوبی از هم تفکیک نمی‌شوند، این امر صادق است. نشان داده شده است که هیچ تضمینی برای همگرایی یک الگوریتم تکراری به یک بهینه سراسری نیست [33]. به طور خلاصه می‌توان ویژگی‌های الگوریتم را به صورت زیر برشمرد:
1- بر اساس فاصله اقلیدسی تمامی ویژگی‌ها می‌باشد.
2- منجر به تولید خوشه‌هایی به صورت دایره، کره و یا ابر کره می‌شود.
3- نسبت به روش‌های دیگر خوشه‌بندی، ساده و سریع است.
4- همگرایی آن به یک بهینه محلی اثبات شده است، اما تضمینی برای همگرایی به بهینه سراسری وجود ندارد.
5- نسبت به مقداردهی اولیه مراکز خوشه‌ها خیلی حساس است.
2-2-1-2-2. الگوریتم FCMالگوریتم FCM اولین بار توسط دون [13] ارائه شد. سپس توسط بزدک [66] بهبود یافت. این متد دیدگاه جدیدی را در خوشه‌بندی بر اساس منطق فازی [62] ارائه می‌دهد. در این دیدگاه جدید، به جای اینکه داده‌ها در یک خوشه عضو باشند، در تمامی خوشه‌ها با یک ضریب عضویت که بین صفر و یک است، عضو هستند و ما در این نوع خوشه‌بندی، دنبال این ضرایب هستیم. در روش‌های معمول در جایی که ما داده داشته باشیم، جواب نهایی ماتریس خواهد بود که هر خانه شامل برچسب خوشه‌ی داده‌ی نظیر آن می‌باشد. ولی در این روش در صورت داشتن خوشه، جواب نهایی یک ماتریس خواهد بود که در آن هر ردیف شامل ضرایب عضویت داده‌ی نظیر به آن خوشه است. بدیهی است که جمع افقی هر ردیف (ضرایب عضویت یک داده خاص) برابر با یک خواهد بود. یک روش معمول جهت رسیدن به جواب‌هایی غیر فازی بر اساس نتایج نهایی الگوریتم فازی، برچسب‌زنی داده بر اساس آن ضریبی که مقدار حداکثر را در این داده دارد، می‌باشد. رابطه 2-6 معادله پایه در روش فازی است: [66]
(2-6) ,
در رابطه 2-6 متغیرm یک عدد حقیقی بزرگ‌تر از یک و درجه عضویت داده در خوشه j-ام می‌باشد، که خود ، i-امین داده d-بُعدی از داده‌ی مورد مطالعه می‌باشد و مرکز d-بعدی خوشه j-ام‌ است و هر روش معمول جهت اندازه‌گیری شباهت میان داده و مرکز خوشه می‌باشد. در روش خوشه‌بندی فازی مراکز خوشه () و درجه عضویت () با تکرار مکرر به ترتیب بر اساس رابطه‌های 2-7 و 2-8 به‌روزرسانی می‌شوند، تا زمانی که شرط توقف درست در آید. در این شرط مقدار یک مقدار توافقی بسیار کوچک‌تر از یک می‌باشد که مطابق با نوع داده و دقت خوشه‌بندی قابل جایگذاری خواهد بود. بدیهی است که هر چقدر این مقدار به سمت صفر میل کند درجه عضویت دقیق‌تر و مقدار زمان اجرا بیشتر خواهد بود [66].
(2-7)
(2-8)
مراحل اجرای الگوریتم در شبه کد شکل 2-11 شرح داده شده است:
1.Initialize matrix,
2.At k-step: calculate the centers vectors with

3.Update ,

4. If then STOP; otherwice returen to step 2.
شکل 2-10. الگوریتم فازی خوشه‌بندی
2-2-1-2-3. الگوریتم طیفیروش خوشه‌بندی طیفی که بر اساس مفهوم گراف طیفی [11] مطرح شده است، از ماتریس شباهت برای کاهش بعد داده‌ها در خوشه‌بندی استفاده می‌کند. در این روش یک گراف وزن‌دار بدون جهت به نحوی تولید می‌شود که رئوس گراف نشان‌دهنده‌ی مجموعه نقاط و هر یال وزن‌دار نشان‌دهنده‌ی میزان شباهت جفت داده‌های متناظر باشد. بر خلاف روش‌های کلاسیک، این روش، روی‌ داده‌ای پراکنده‌ در فضایی با شکل‌ هندسی غیر محدب، نتایج مطلوبی تولید می‌کند [63]. کاربرد این روش در محاسبات موازی [69, 70]، تنظیم بار [15]، طراحی VLSI [28]، طبقه‌بندی تصاویر [35] و بیوانفورماتیک [31, 59] می‌باشد.
در خوشه‌بندی طیفی از بردارهای ویژگی در ماتریس شباهت برای افراز مجموعه‌ داده استفاده می‌شود. در اغلب این روش‌ها، مقدار ویژه اولویت بردارها را تعیین می‌کند. ولی این نحوه‌ی انتخاب، انتخاب بهترین بردارها را تضمین نمی‌دهد. در اولین تحقیقی که در این زمینه توسط ژیانگ و گنگ [61] انجام شد، مسئله‌ی انتخاب بردارهای ویژگی مناسب جهت بهبود نتایج خوشه‌بندی پیشنهاد گردید. در روش پیشنهادی آن‌ها شایستگی هر یک از بردارهای با استفاده از تابع چگالی احتمال هر بردار تخمین زده می‌شود. وزنی به بردارهایی که امتیاز لازم را به دست آورندگ، اختصاص یافته و برای خوشه‌بندی از آن‌ها استفاده می‌شود. در کاری دیگر که توسط ژائو [64] انجام شده است، هر یک از بردارهای ویژه به ترتیب حذف می‌شوند و مقدار آنتروپی مجموعه بردارهای باقی‌مانده محاسبه می‌شود. برداری که حذف آن منجر به افزایش آنتروپی و ایجاد بی‌نظمی بیشتر در مجموعه داده شود، اهمیت بیشتری داشته و در رتبه بالاتری قرار می‌گیرد. سپس زیرمجموعه‌ای از مناسب‌ترین بردارها برای خوشه‌بندی مورد استفاده قرار می‌گیرند. الگوریتم خوشه‌بندی طیفی دارای متدهای متفاوتی جهت پیاده‌سازی است، که الگوریتم‌های برش نرمال، NJW، SLH وPF از آن جمله می‌باشد. در تمامی این روش‌ها، بخش اول، یعنی تولید گراف، مشترک می‌باشد. ما در ادامه ابتدا به بررسی بخش مشترک این روش‌ها می‌پردازیم. سپس به تشریح دو روش پر کاربرد برش نرمال و NJW می‌پردازیم.
در الگوریتم خوشه‌بندی طیفی، افراز داده‌ها بر اساس تجزیه‌ی ماتریس شباهت و به دست آوردن بردارها و مقادیر ویژه‌ی آن صورت می‌گیرد. مجموعه‌ی با داده‌یبعدی را در نظر بگیرید، می‌توان برای این مجموعه گراف وزن‌دار و بدون جهت را ساخت به صورتی که رئوس گراف نشان‌دهنده داده و یال‌ها که ماتریس شباهت را تشکیل می‌دهند بیانگر میزان شباهت بین هر جفت داده متناظر باشند. ماتریس شباهت به صورت رابطه 2-9 تعریف می‌شود:
(2-9)
تابع میزان شباهت بین دو داده را اندازه می‌گیرد. می‌تواند یک تابع گوسی به صورت باشد. که در آن فاصله‌ی بین دو نمونه را نشان می‌دهد و پارامتر مقیاس سرعت کاهش تابع با افزایش فاصله بین دو نمونه را مشخص می‌کند. در ادامه به بررسی دو الگوریتم خوشه‌بندی طیفی برش نرمال و NJW می‌پردازیم.
2-2-1-2-3-1. الگوریتم برش نرمالالگوریتم برش نرمال توسط شی و ملیک [35] برای قطعه‌بندی تصاویر ارائه شده است. در این روش، میزان تفاوت بین خوشه‌های مختلف و شباهت بین اعضا یک خوشه، بر اساس فاصله‌ی داده‌ها محاسبه می‌کند. رابطه 2-10 اشاره به مفهوم شباهت داده دارد که با استفاده از آن اقدام به ساخت گراف وزن‌دار می‌نماییم:
(2-10)
موقعیت i-امین داده (پیکسل در تصاویر) و بردار ویژگی از صفات داده (مانند روشنایی در تصاویر) می‌باشد. با کمک حد آستانه می‌توان میزان تنکی ماتریس شباهت را با توجه به تعداد اثرگذار داده‌های همسایه تعیین کرد. گام‌های این الگوریتم به صورت زیر می‌باشد:
محاسبه ماتریس درجه.
محاسبه ماتریس لاپلاسین.
محاسبه دومین بردار ویژگی متناظر با دومین کوچک‌ترین مقدار ویژه.
استفاده از برای خوشه‌بندی (قطعه‌بندی در تصاویر) گراف.
روش برش نرمال بیشتر در قطعه‌بندی تصاویر کاربرد دارد و معمولاً در خوشه‌بندی داده از سایر الگوریتم‌های خوشه‌بندی طیفی استفاده می‌کنند.
2-2-1-2-3-2. الگوریتم NJWایده الگوریتم استفاده از اولین بردار ویژه متناظر با بزرگ‌ترین مقدار ویژه ماتریس لاپلاسین است. مراحل این الگوریتم به صورت زیر می‌باشد: [51]
ساخت ماتریس شباهت با استفاده از رابطه 2-9.
محاسبه ماتریس درجه، و ماتریس لاپلاسین.
به دست آوردن اولین بردار ویژه متناظر با اولین بزرگ‌ترین مقدار ماتریسو تشکیل ماتریس ستونی.
نرمال سازی مجدد و تشکیل به طوری که همه سطرهای آن طول واحد داشته باشد.
خوشه‌بندی مجموعه داده بازنمایی شده با استفاده از.

2-2-1-2-4. الگوریتم خوشه‌بندی کاهشیالگوریتم خوشه‌بندی کاهشی یکی از سریع‌ترین الگوریتم‌های تک گذر، برای تخمین تعداد خوشه و مراکز آن‌ها در مجموعه‌ی داده می‌باشد. این مفهوم یعنی به جای تحت تأثیر قرار گرفتن محاسبات از ابعاد مسئله، متناسب با اندازه مسئله آن را انجام دهیم. با این وجود، مراکز واقعی خوشه الزاماً یکی از نقاط داده موجود در مجموعه داده نیست ولی در بیشتر موارد این انتخاب تخمین خوبی است که به صورت ویژه از این رویکرد در محاسبات کاهشی استفاده می‌شود. اگر هر نقطه از مجموعه داده به عنوان گزینه‌ای برای مرکز خوشه در نظر گرفته شود، معیار تراکم هر نقطه به صورت زیر تعریف می‌شود [79].
(2-11)
در رابطه بالا یک ثابت مثبت است، که نشان‌دهنده‌ی شعاع همسایگی (سایر نقاط داده که نزدیک‌ترین نقاط به این داده خاص هستند) می‌باشد، و نشان‌دهنده‌ی سایر داده‌های مجموعه، و نشان‌دهنده‌ی تعداد این داده‌ها است. از این روی، داده‌ای دارای بیش‌ترین مقدار تراکم می‌باشد که بیش‌ترین نقاط داده در همسایگی آن است. اولین مرکز خوشه بر اساس بزرگ‌ترین مقدار تراکم انتخاب می‌شود. بعد از این انتخاب میزان تراکم هر یک از نقاط داده به صورت زیر به‌روز می‌شود [79].
(2-12)
در رابطه بالا ثابت مثبت همسایگی را تعریف می‌کند که میزان کاهش تراکم قابل اندازه‌گیری را نشان می‌دهد. از آنجایی که نقاط داده در نزدیکی مرکز خوشه اول به طور قابل‌توجهی مقادیر چگالی را کاهش می‌دهند بعد از به‌روز کردن مقادیر تابع چگالی توسط رابطه بالا مرکز خوشه بعدی بر اساس داده‌ای که بزرگ‌ترین مقدار چگالی را دارد انتخاب می‌شود. این فرآیند آن قدر تکرار می‌شود تا به تعداد کافی مرکز خوشه ایجاد شود. پس از اتمام این فرآیند می‌توان توسط الگوریتم که مراکز داده در آن توسط فرآیند بالا به صورت دستی داده شده است (نه به صورت تصادفی)، داده‌ها را خوشه‌بندی کرد. شبه کد شکل زیر روند فرآیند بالا را نشان می‌دهد که در آن ابتدا مقادیر ثابت‌ها () و مجموعه داده به عنوان ورودی گرفته می‌شود و پس از ساخت مراکز داده مطابق با تعاریف بالا، این مراکز برای خوشه‌بندی در الگوریتم استفاده می‌شود [79].
Inputs Dataset, Constants
Output Clusters
Steps
1. Initialize constants and density values
2. Make a new cluster center.
3. Update density values
4. If the sufficient number of clusters are not obtained, go to 2.
3. Clustering the dataset by k-means, using fix centers.
شکل 2-11. خوشه‌بندی کاهشی
2-2-1-2-5. الگوریتم خوشه‌بندی Median K-Flatالگوریتم Median K-Flat یا به اختصار MKF مجموعه داده‌یرا به K خوشه‌ی افراز می‌کند که هر خوشه یک شبه فضای d-بُعدی تقریباً خطی می‌باشد. پارامتر‌ با فرض ماتریسی با ابعاد می‌باشد، که هر یک از خانه‌های آن تخمین شبه فضای خطی متعامد می‌باشد. قابل به ذکر است که می‌باشد. در این جا تخمین شبه فضای خوشه‌های را نام‌گذاری می‌کنیم. مطابق تعاریف بالا تابع انرژی برای افرازهای ‌ بر اساس شبه فضای به شکل زیر تعریف می‌شود [77].
(2-13)
این الگوریتم سعی می‌کند تا مجموعه داده را به خوشه‌های ‌تبدیل کند به نحوی که تابع انرژی کمینه باشد. تا وقتی که سطوح تخت اساسی به شکل شبه فضای خطی هستند ما می‌توانیم به صورت فرضی المان‌های X را در یک حوضه واحد نرمال کنیم به طوری که برای و تابع انرژی را به شکل زیر بیان کنیم: [77]
(2-14)
این الگوریتم برای کمینه‌سازی تابع انرژی الگوریتمMKF از روش کاهش گرادیان تصادفی استفاده می‌کند. مشتق تابع انرژی بر اساس ماتریس به شرح زیر است:
(2-15)
این الگوریتم نیاز به تطبیق بر اساس مؤلفه‌ی متعامد مشتق دارد. بخشی از مشتق که با شبه فضای موازی است به شرح زیر می‌باشد.
(2-16)
از این روی مؤلفه متعامد برابر است با رابطه 2-17 می‌باشد.
(2-17)
در رابطه بالا برابر با رابطه 2-18 است.
(2-18)
با در نظر گرفتن محاسبات بالا، الگوریتم MKF تصمیم می‌گیرد که داده تصادفی از مجموعه داده، عضو کدام باشد، و از این طریق شروع به چیدن داده‌ها می‌کند. آن گاه، الگوریتم تابع را به‌روز کند که در آن (مرحله زمانی) پارامتری است که توسط کاربر تعیین می‌شود. این فرآیند آن قدر تکرار می‌شود تا ضابطه همگرایی دیده شود. آنگاه هر نقطه از مجموعه داده به نزدیک‌ترین شبه فضای که تعیین‌کننده خوشه‌هاست اختصاص داده می‌شود. شبه کد زیر فرآیند الگوریتم MKF را نشان می‌دهد [77].
Input:
: Data, normalized onto the unit sphere, d: dimension of subspaces K: number of subspaces, the initialized subspaces. : step parameter.
Output: A partition of X into K disjoint clusters
Steps:
1. Pick a random point in X
2. Find its closest subspace , where
3. Compute by
4. Update
5. Orthogonalize
6. Repeat steps 1-5 until convergence
7. Assign each xi to the nearest subspace
شکل 2-12. شبه‌کد الگوریتم MKF [77]
2-2-1-2-6. الگوریتم خوشه‌بندی مخلوط گوسییک مخلوط گوسی یا همان را می‌توان ترکیب محدبی از چگالی‌های گوسی دانست. یک چگالی گوسی در فضای d-بُعدی به ازای میانگین، توسط ماتریس هم‌وردایی با ابعاد به صورت زیر تعریف می‌شود: [83]
(2-19)
در رابطه بالا پارامتر‌های و را تعریف می‌کند. از این روی مؤلفه به صورت زیر تعریف می‌شود:
(2-20)
در رابطه (2-20) پارامتر وزن مخلوط کردن و مؤلفه مخلوط می‌باشد. از آنجا که در مقایسه با تخمین چگالی غیر پارامتری، تعداد کمتری از توابع چگالی در تخمین چگالی مخلوط باید ارزیابی شود، از این روی ارزیابی چگالی کارآمدتر خواهد بود. علاوه بر آن، استفاده از اجرای محدودیت هموار کردن بر روی برخی از مؤلفه‌های مخلوط در نتیجه‌ی چگالی به ما اجازه می‌دهد تا چگالی مستحکم‌تری را تخمین بزنیم. الگوریتم حداکثر-انتظار یا همان به ما اجازه به‌روز کردن پارامتر‌های مؤلفه‌ی مخلوط را مطابق با مجموعه داده به ازای هر می‌دهد، به طوری که احتمال هرگز کوچک‌تر از مخلوط جدید نشود. به‌روز کردن الگوریتم می‌تواند در یک فرآیند تکراری برای تمامی مؤلفه‌های مطابق با رابطه‌های زیر انجام شود: [83]
(2-21)
(2-22)
(2-23)
(2-24)
در این تحقیق از روش پیشنهادی بومن و همکاران برای پیاده‌سازی الگوریتم مخلوط گوسی استفاده شده است. از آنجایی که روش پیاده‌سازی و توضیحات مربوط به الگوریتم مخلوط گوسی در روش ترکیب مبتنی بر مخلوط استفاده می‌شود از این روی در بخش روش‌های ترکیب نتایج با تابع توافقی آن را بررسی خواهیم کرد.
2-2-2. معیارهای ارزیابیدر یادگیری با ناظر ارزیابی راحت تر از یادگیری بدون ناظر است. برای مثال آن چیز که ما در رده‌بندی باید ارزیابی کنیم مدلی است که ما توسط داده‌های یادگیری به الگوریتم هوش مصنوعی آموزش داده‌ایم. در روش‌های با ناظر ورودی و خروجی داده معلوم است و ما بخشی از کل داده را برای آزمون جدا کرده و بخش دیگر را به عنوان داده یادگیری استفاده می‌کنیم و پس از تولید مدل مطلوب ورودی داده آزمون را در مدل وارد کرده و خروجی مدل را با خروجی واقعی می‌سنجیم. از این روی معیارهای بسیاری برای ارزیابی روش‌های با ناظر ارائه‌شده‌اند.
در یادگیری بدون ناظر روش متفاوت است. در این روش هیچ شاخص معینی در داده جهت ارزیابی وجود ندارد و ما به دنبال دسته‌بندی کردن داده‌ها بر اساس شباهت‌ها و تفاوت‌ها هستیم. از این روی برخلاف تلاش‌های خیلی از محققان، ارزیابی خوشه‌بندی خیلی توسعه داده نشده است و به عنوان بخشی از تحلیل خوشه‌بندی رایج نشده است. در واقع، ارزیابی خوشه‌بندی یکی از سخت‌ترین بخش‌های تحلیل خوشه‌بندی است [33]. معیارهای عددی، یا شاخص‌هایی که برای قضاوت جنبه‌های مختلف اعتبار یک خوشه به کار می روند، به سه دسته کلی تقسیم می‌شوند:
1- شاخص خارجی که مشخص می‌کند که کدام خوشه‌های پیداشده به وسیله الگوریتم خوشه‌بندی با ساختارهای خارجی تطبیق دارند. در این روش نیاز به اطلاعات اضافی مثل برچسب نقاط داده، داریم. آنتروپی یک مثالی از شاخص خارجی است.
2- شاخص داخلی که برای اندازه‌گیری میزان خوبی یک ساختار خوشه‌بندی بدون توجه به اطلاعات خارجی به کار می‌‌رود. یک نمونه از شاخص داخلی است.
3- شاخص نسبی که برای مقایسه دو خوشه‌بندی مختلف یا دو خوشه مختلف به کار می‌رود. اغلب یک شاخص خارجی یا داخلی برای این تابع استفاده می‌شود. برای مثال، دو خوشه‌بندی می‌توانند با مقایسه یا آنتروپی‌شان مقایسه شوند.
این فصل تعدادی از مهم‌ترین و رایج‌ترین روش‌های به‌کاررفته برای ارزیابی خوشه‌بندی را مرور خواهد کرد.
2-2-2-1. معیار SSEیک معیار داخلی ارزیابی خوشه‌بندی، مثل، می‌تواند برای ارزیابی یک خوشه‌بندی نسبت به خوشه‌بندی دیگر به کار رود. به علاوه، یک معیار داخلی اغلب می‌تواند برای ارزیابی یک خوشه‌بندی کامل یا یک خوشه تنها به استفاده شود. این اغلب به خاطر این است که این روش، سعی می‌کند تا میزان خوبی کلی خوشه‌بندی را به عنوان یک جمع وزن‌دار از خوبی‌های هر خوشه در نظر می‌گیرد. با استفاده از رابطه 2-25 محاسبه می‌شود [68].
(2-25)
کهیک نقطه داده در خوشه است و، j-امین ویژگی از داده X است. ، j-امین ویژگی از مرکز خوشه می‌باشد. برای مقایسه دو خوشه‌بندی مختلف روی یک داده با یک تعداد مشابه، تنها مقایسه مقدارهای متناظر آن‌ها کافی است. هر چه مقدار کمتر باشد، آن خوشه‌بندی بهتر خواهد بود. البته، وقتی تعداد نقاط داده در دو خوشه متفاوت باشند، مقایسه مستقیم از روی مقدار خوب نخواهد بود. بنابراین، یک خوشه معیار مناسب تری برای مقایسه است. رابطه 2-26 این معیار را نشان می‌دهد که در آن مقدار تعداد کل نمونه‌هاست [68].
(2-26)
تعداد درست خوشه‌ها در الگوریتم ، اغلب می‌تواند با استفاده از نگاه کردن به منحنی مشخص شود. این منحنی با رسم مقادیر به ازایهای مختلف به دست می‌آید. تعداد خوشه‌های بهینه با توجه به منحنی، ای است که به ازای آن نرخ کاهش مقدار، قابل چشم‌پوشی شود. شکل 2-13-ب منحنی را برای داده‌های شکل 2-13-الف، نشان می‌دهد.

(الف)
(ب)
شکل2-13. (الف) مجموعه داده با تعداد 10 خوشه واقعی. (ب) منحنی مربوطه [68]
همان طور که از شکل 2-13-ب برمی‌آید، برای مقادیرهای از صفر تا 10 شیب منحنی نسبت به بقیه مقادیر، تندتر می‌باشد. این امر نشان‌دهنده آن است که مقدار یک مقدار بهینه برای تعداد خوشه‌ها می‌باشد.

(الف)
(ب)
شکل2-14. (الف) مجموعه داده (ب) منحنی مربوطه [2]
شکل 2-14-ب نیز منحنی را برای داده‌های شکل 2-14-الف، نشان می‌دهد. مشاهده می‌شود که در این داده‌ها، چون تعداد خوشه‌ها نسبت به شکل 2-14-الف کاملاً گویا نیست، بنابراین، منحنی آن نیز نرم تر خواهد بود . اما با توجه به شکل 2-14-ب، می‌توان گفت که تعداد نسبتاً خوب باشد. چون منحنی برای های بعد از 8، دارای شیب کندتری خواهد شد. با توجه به نتایج فوق می‌توان گفت که اگرچه منحنی برای همه مسایل نمی‌تواند جواب بهینه برای تعداد بدهد، اما می‌تواند به عنوان یک معیار خوب برای این امر مطرح باشد.
2-2-2-2. معیار اطلاعات متقابل نرمال شدهمعیار اطلاعات متقابل () توسط کاور و توماس [71] معرفی شد که یک روش جهت اندازه‌گیری کیفیت اطلاعات آماری مشترک بین دو توزیع است. از آنجایی که این معیار وابسته به اندازه خوشه‌ها است در [54] روشی جهت نرمال سازی آن ارائه شده است. فرد و جین [19] روش نرمال سازی اطلاعات متقابل را اصلاح کردند و آن را تحت عنوان اطلاعات متقابل نرمال () ارائه داده‌اند. رابطه 2-27 اطلاعات متقابل نرمال شده را نشان می‌دهد[1, 2, 19] .
(2-27)
در رابطه 2-27 پارامتر کل نمونه‌ها است و یعنی افرازهایی که اندیس آن‌ها شامل i با تمام مقادیر j می‌باشد و یعنی افرازهایی که تمام مقادیر i با و اندیس j را شامل شود. از رابطه 2-28 محاسبه می‌شود [1, 2, 19].
(2-28)
, ,
در صورتی که دو افراز به صورت و که در آن کل داده و خوشه اول و خوشه دوم هر یک از افرازها باشد آنگاه نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد، نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد، نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد و نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد. در واقع و به ترتیب بیانگر کل نمونه‌های موجود در و می‌باشد [1].
شکل 2-15 دو افراز اولیه را نشان می‌دهد که میزان پایداری برای هر کدام از خوشه‌های به دست آمده هم محاسبه شده است. در این مثال الگوریتم به عنوان الگوریتم خوشه‌بندی اولیه انتخاب شده است و تعداد خوشه‌های اولیه برابر با سه نیز به عنوان پارامتر آن از قبل مشخص شده است. همچنین، در این مثال تعداد افرازهای موجود در مجموعه مرجع برابر با ۴۰ می‌باشد. در ۳۶ افراز نتایجی مشابه با شکل 2-15 (a) و در 4 حالت باقیمانده نیز نتایجی مشابه با شکل 2-15 (a) حاصل شده است [1].

شکل2-15. دو افراز اولیه با تعداد سه خوشه. (a) خوشه‌بندی درست (b) خوشه‌بندی نادرست [1]
از آن جایی که در مجموعه مرجع در ۹۰ % مواقع، داده‌های متراکم گوشه بالا‐چپ از شکل 2-15 در یک خوشه مجزا گروه‌بندی شده‌اند، بنابراین این خوشه باید مقدار پایداری بالایی را به خود اختصاص دهد. اگرچه این مقدار نباید دقیقاً برابر با یک باشد (چون در همه موارد این خوشه درست تشخیص داده نشده است)، مقدار پایداری با روش متداول اطلاعات متقابل نرمال شده مقدار یک را بر می‌گرداند. از آن جایی که ادغام دو خوشه سمت راست تنها در ۱۰ % موارد مانند شکل 2-15 (b) اتفاق افتاده است، خوشه حاصل باید مقدار پایداری کمی به دست آورد. اگر چه خوشه حاصل از ادغام دو خوشه سمت راستی، به ندرت ( ۱۰ % موارد) در مجموعه مرجع دیده شده است، مقدار پایداری برای این خوشه نیز برابر با یک به دست می‌آید. در اینجا مشکل روش متداول محاسبه پایداری با استفاده از اطلاعات متقابل نرمال شده ظاهر می‌شود. از آنجایی که معیار اطلاعات متقابل نرمال شده یک معیار متقارن است، مقدار پایداری خوشه بزرگ ادغامی سمت راست (با ۱۰ % تکرار) دقیقاً برابر با میزان پایداری خوشه متراکم گوشه بالا‐چپ (با ۹۰ % تکرار) به دست می‌آید. به عبارت دیگر در مواردی که داده‌های دو خوشه مکمل یکدیگر باشند، یعنی اجتماع داده‌های آن‌ها شامل کل مجموعه داده شود و اشتراک داده‌های آن‌ها نیز تهی باشد، مقدار پایداری برای هر دو به یک اندازه برابر به دست می‌آید. از دیدگاه دیگر، این اتفاق زمانی رخ می‌دهد که تعداد خوشه‌های تشکیل‌دهنده مجموعه در خوشه‌بندی مرجع عددی بیشتر از یک باشد. هر زمان که با ادغام دو یا بیشتر از خوشه‌ها به دست آید، منجر به نتایج نادرست در مقدار پایداری می‌شود. ما این مشکل را تحت عنوان مشکل تقارن در اطلاعات متقابل نرمال شده می‌شناسیم. در سال‌های اخیر روش‌هایی جهت حل این مشکل ارائه‌شده‌اند که یکی از آن‌ها را علیزاده و همکاران در [1, 9]ارائه داده‌اند که در‌ آن بزرگ‌ترین خوشه از بین مجموعه مرجع (که بیش از نصف نمونه‌هایش در خوشه مورد مقایسه وجود دارد) جایگزین اجتماع همه خوشه‌ها می‌شود که ما آن را با عنوان روش Max می‌شناسیم. روش دیگر جهت رفع این مشکل معیار APMM می‌باشد. در ادامه به بررسی این معیار می‌پردازیم [1, 8, 67].
2-2-2-3. معیار APMMبر خلاف معیارکه برای اندازه‌گیری شباهت دو افراز طراحی شده است معیار روشی برای اندازه‌گیری میزان شباهت یک خوشه در یک افراز است که توسط عـلیزاده و همکاران [8, 67] معرفی شده است رابطه 2-29 این معیار را معرفی می‌کند.
(2-29)
در رابطه 2-29 پارامتر خوشه i-ام در افراز می‌باشد و افراز متناظر با خوشه در خوشه‌بندی است. پارامتر تعداد کل نمونه‌های مجموعه داده و تعداد نمونه‌های مشترک بین خوشه‌های و می‌باشد. همچنین، تعداد خوشه‌های موجود در افراز می‌باشد. در این روش برای محاسبه پایداری خوشه از رابطه 2-30 استفاده می‌کنیم [8, 67].
(2-30)
در رابطه 2-30 پارامتر نشان‌دهنده j-امین افراز از مجموعه مرجع است و تعداد کل افرازها است [8, 67]. از آنجایی که این معیار برای ارزیابی شباهت یک خوشه است می‌توان هم برای ارزیابی خوشه و هم برای ارزیابی افراز استفاده کرد. جهت استفاده از این معیار برای ارزیابی یک افراز کافی است آن را برای تک‌تک خوشه‌های آن افراز استفاده کنیم و در نهایت از کل مقادیر میانگین بگیریم.
2-۳. خوشه‌بندی ترکیبیکلمه’Ensemble‘ ریشه فرانسوی دارد و به معنی باهم بودن یا در یک زمان می‌باشد و معمولاً اشاره به واحدها و یا گروه‌های مکملی دارد که باهم در اجرای یک کار واحد همکاری می‌کنند. ترکیب تاریخ طولانی در دنیای واقعی دارد، نظریه هیئت‌منصفه ی کندورست که در سال 1785 میلادی مطرح شده است و این ایده را مطرح می‌کند که، احتمال نسبی درستی نظر گروهی از افراد (رأی اکثریت) بیشتر از نظر هر یک از افراد به تنهایی می‌باشد را می‌توان دلیلی برای ترکیب نتایج در دنیای واقعی دانست [10, 27]. خوشه‌بندی ترکیبی روشی جدید در خوشه‌بندی می‌باشد که از ترکیب نتایج روش‌های خوشه‌بندی متفاوت به دست می‌آید از آنجایی که اکثر روش‌های خوشه‌بندی پایه روی جنبه‌های خاصی از داده‌ها تاکید می‌کنند، در نتیجه روی مجموعه داده‌های خاصی کارآمد می‌باشند. به همین دلیل، نیازمند روش‌هایی هستیم که بتواند با استفاده از ترکیب این الگوریتم‌ها و گرفتن نقاط قوت هر یک، نتایج بهینه‌تری را تولید کند. هدف اصلی خوشه‌بندی ترکیبی جستجوی نتایج بهتر و مستحکم‌تر، با استفاده از ترکیب اطلاعات و نتایج حاصل از چندین خوشه‌بندی اولیه است [18, 54]. خوشه‌بندی ترکیبی می‌تواند جواب‌های بهتری از نظر استحکام، نو بودن، پایداری و انعطاف‌پذیری نسبت به روش‌های پایه ارائه دهد [3, 21, 54, 57]. به طور خلاصه خوشه‌بندی ترکیبی شامل دو مرحله اصلی زیر می‌باشد : [34, 54]
1- تولید نتایج متفاوت از خوشه‌بندی‌ها، به عنوان نتایج خوشه‌بندی اولیه بر اساس اعمال روش‌های مختلف که این مرحله را، مرحله ایجاد تنوع یا پراکندگی می‌نامند.
2- ترکیب نتایج به دست آمده از خوشه‌بندی‌های متفاوت اولیه برای تولید خوشه نهایی؛ که این کار توسط تابع توافقی (الگوریتم ترکیب‌کننده) انجام می‌شود.
2-۳-1. ایجاد تنوع در خوشه‌بندی ترکیبیدر خوشه‌بندی ترکیبی، هرچه خوشه‌بندی‌های اولیه نتایج متفاوت تری ارائه دهند نتیجه نهایی بهتری حاصل می‌شود. در واقع هرچه داده‌ها از جنبه‌های متفاوت‌تری مطالعه و بررسی شوند (تشخیص الگوهای پنهان داده) نتیجه نهایی که از ترکیب این نتایج حاصل می‌شود متعاقباً دارای دقت بالاتری خواهد بود که این امر منجر به کشف دانش ضمنی پنهان در داده نیز خواهد شد. تنوع در این بخش به این معنا می‌باشد که با استفاده از روش‌های متفاوت مجموعه داده را از دیدگاه‌های گوناگونی مورد بررسی قرار دهیم. در این فصل برای ایجاد پراکندگی در بین نتایج حاصل چند راه‌کار مختلف پیشنهاد می‌کنیم و به بررسی مطالعات انجام‌شده در هر یک از آن‌ها می‌پردازیم. راه‌های مختلفی برای ایجاد پراکندگی در خوشه‌بندی ترکیبی وجود دارد که عبارت‌اند از:
استفاده از الگوریتم‌های متفاوت خوشه‌بندی.
تغییر مقادیر اولیه و یا سایر پارامترهای الگوریتم خوشه‌بندی انتخاب‌شده.
انتخاب بعضی از ویژگی داده‌ها یا ایجاد ویژگی‌های جدید.
تقسیم‌بندی داده‌های اصلی به زیرمجموعه‌هایی متفاوت و مجزا.
در حقیقت به خاطر ماهیت بدون ناظر بودن مسئله خوشه‌بندی این اصل که آیا پراکندگی به وجود آمده مفید می‌باشد یا مفید نیست را نمی‌تواند مورد مطالعه قرارداد اما نتایج تجربی نشان داده است که ایجاد پراکندگی در خوشه‌بندی‌های اولیه به طور معمول موجب بهبود خوشه‌بندی در اکثر مواقع می‌شود لذا در روش‌های ارائه‌شده هدف تنها بررسی مجموعه داده از زوایای مختلف است [42] .
2-۳-1-1. استفاده از الگوریتم‌های مختلف خوشه‌بندی ترکیبیبه طور معمول بیشتر روش‌های خوشه‌بندی ترکیبی از الگوریتم جهت خوشه‌بندی اولیه خود استفاده می‌کنند [37, 47, 56, 57]. اما در روش‌های ارائه‌شده نشان داده شده است که با توجه به رفتار هر مجموعه داده گاهی اوقات یک روش خوشه‌بندی خاص پیدا می‌شود که دقت بهتری از برای بعضی از مجموعه داده‌ها می‌دهد [54]. اما الگوریتم به دلیل سادگی و توانایی مناسب در خوشه‌بندی همواره به عنوان انتخاب اول در خوشه‌بندی ترکیبی مورد مطالعه قرار گرفته است. نکته مهمی که در انتخاب الگوریتم‌ها باید به آن دقت کرد این است که الگوریتم‌هایی همانند که بر اساس فاصله اقلیدسی تمامی ‌ویژگی‌ها کار می‌کنند، در صورتی که حتی یک ویژگی یک نمونه دارای یک مقدار غیرمنتظره باشد، نمونه به طور نادرست دسته‌بندی می‌شود. با توجه به این مسئله می‌توان از روش‌هایی مشابه این الگوریتم‌ها که مقاوم در برابر نویز هستند جهت رسیدن به پایداری و کیفیت بیشتر استفاده کرد. نکته دیگری که در انتخاب الگوریتم‌های پایه باید به آن توجه کرد این است که برخی از روش‌ها همانند الگوریتم‌های سلسله مراتبی پیوندی همواره با تکرار مکرر روی یک داده یک جواب منحصربه‌فرد ایجاد می‌کنند که در صورت ایجاد نتایج با این‌گونه الگوریتم‌ها باید فقط یکی از هر نوع آن را در ساخت نتایج نهایی استفاده کرد.
2-۳-1-2. تغییر پارامترهای اولیه خوشه‌بندی ترکیبییکی دیگر از راه‌های افزایش پراکندگی تغییر پارامترهای اولیه الگوریتم‌های خوشه‌بندی می‌باشد. برای مثال در الگوریتم می‌توان با تغییر تعداد خوشه‌ها در الگوریتم، یا تعداد دفعات تکرار اجرای الگوریتم و یا تغییر نمونه‌های اولیه الگوریتم میزان پراکندگی را افزایش داد. در شکل 2-16 اثر نمونه‌های اولیه در خوشه‌بندی نهایی به وضوح قابل‌مشاهده می‌باشد. در شکل زیر در سمت چپ ابتدا نحوه توزیع نمونه‌ها نمایش داده شده است و سپس نتایج سه بار اجرای مختلف الگوریتم با سه نمونه شروع مختلف نمایش داده شده است [2, 6].

شکل2-16. نمونه‌های اولیه در نتایج الگوریتم . شکل‌ها به ترتیب از چپ به راست 1) نمایش فضایی14 نمونه پراکنده در فضا. 2) نتایج به دست آمده با نمونه‌های اولیه 1 و 8. 3)نتایج به دست آمده با نمونه‌های اولیه 2 و 3 . 4)نتایج به دست آمده با نمونه‌های اولیه 1 و 13 [2].
2-۳-1-3. انتخاب یا تولید ویژگی‌های جدیداستفاده از برخی از ویژگی‌های کل فضای مجموعه داده و یا تولید ویژگی‌های جدید یکی دیگر از راه‌کارهای افزایش پراکندگی در خوشه‌بندی ترکیبی می‌باشد. بسیاری از مطالعات در حیطه طبقه‌بندی اطلاعات اقدام به انتخاب زیرمجموعه‌ای از ویژگی‌ها می‌نماید که باعث افزایش میزان پراکندگی، کاهش حجم محاسبات و بالا بردن دقت طبقه‌بندی کننده می‌شود [54]. ولی به دلیل ماهیت بدون ناظر بودن مسئله در خوشه‌بندی، انتخاب زیرمجموعه‌ای از ویژگی‌ها کمتر مورد توجه بوده است و بیشتر سعی در تولید ویژگی‌های جدید بوده است. روش‌های گوناگونی برای تولید ویژگی و استفاده از آن در خوشه‌بندی ترکیبی وجود دارد که ساده‌ترین آن‌ها نرمال سازی داده‌ها می‌باشد. معمولاً داده‌های مسائلی که از فاصله اقلیدسی برای خوشه‌بندی آن‌ها استفاده می‌شود نرمال می‌شوند. نتایج تجربی نشان داده است که علیرغم اینکه نرمال سازی داده‌ها در بعضی مواقع موجب بهبود کار می‌شود در بعضی موارد موجب افت کارایی یک روش می‌شود [12].

user8286

فصل دوم
شکل 2-1. یک خوشه‌بندی سلسله مراتبی و درخت متناظر ..................................................................................... 10
شکل 2-2. ماتریس مجاورت .................................................................................................................................... 11
شکل 2-3. رابطه دودویی و گراف آستانه ................................................................................................................. 12
شکل 2-4. گراف‌های آستانه برای ماتریس ........................................................................................................ 12
شکل 2-5. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی منفرد ..................................................................... 13
شکل 2-6. دندوگرام پیوندی منفرد برای ماتریس............................................................................................... 13
شکل 2-7. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی کامل ...................................................................... 14
شکل 2-8. دندوگرام پیوندی کامل برای ماتریس ............................................................................................... 14
شکل 2-9. الگوریتم خوشه‌بندی افرازبندی...................................................................................... 16
شکل 2-10. الگوریتم فازی خوشه‌بندی ...................................................................................................... 18
شکل 2-11. خوشه‌بندی کاهشی .............................................................................................................................. 23
شکل 2-12. شبه‌کد الگوریتم MKF ........................................................................................................................ 26
شکل2-13. (الف) مجموعه داده با تعداد 10 خوشه واقعی. (ب) منحنی ........................................................ 29
شکل2-1۴. (الف) مجموعه داده (ب) منحنی مربوطه ..................................................................................... 29
شکل2-15. دو افراز اولیه با تعداد سه خوشه ........................................................................................................... 31
شکل2-16. نمونه‌های اولیه در نتایج الگوریتم ................................................................................ 36
شکل 2-17. زیر شبه کد الگوریتم خوشه‌بندی ترکیبی توسط مدل مخلوط .............................................................. 43
شکل 2-18. خوشه‌بندی ترکیبی ............................................................................................................................... 44
شکل 2-19. نمونه ماتریس، جهت تبدیل خوشه‌بندی به ابر گراف ................................................................. 45
شکل 2-20. ماتریس شباهت بر اساس خوشه برای مثال شکل (3-5) .................................................................... 46
شکل 2-21. الگوریتم افرازبندی ابر گراف ............................................................................................................... 47
شکل 2-22. الگوریتم فرا خوشه‌بندی ..................................................................................................................... 49
شکل2-23. الگوریتم خوشه‌بندی ترکیبی مبتنی بر ماتریس همبستگی ...................................................................... 50
شکل2-24. الگوریتم افرازبندی با تکرار ................................................................................................................... 53
شکل2-25. نمایش گراف مجاورت در مراحل کاهش درجه ماتریس و شمارش آن ................................................ 54
شکل2-26. مثال روند تغییر توزیع تعداد خوشه ....................................................................................................... 55
شکل2-27. جریان کار عمومی برای پیاده‌سازی الگوریتم افرازبندی گراف .............................................................. 55
شکل 2-28. گراف تابع در بازه بین صفر و یک ............................................................................................. 62
شکل 2-29. الگوریتم خوشه‌بندی ترکیبی طیفی مبتنی بر انتخاب بر اساس شباهت ................................................ 63
شکل 2-30. مثالی از ماتریس اتصال ........................................................................................................................ 66
شکل 2-31. شبه کد خوشه‌بندی ترکیبی انتخابی لی‌مین .......................................................................................... 68
شکل 2-32. روش ارزیابی خوشهی یک افراز در روش MAX ............................................................................... 69
شکل 2-33. چهارچوب خوشهبندی ترکیبی مبتنی بر انتخاب با استفاده از مجموعه‌ای از خوشه‌های یک افراز ...... 71
شکل 2-34. چهارچوب روش بهترین افراز توافقی اعتبارسنجی شده ...................................................................... 72
فصل سوم
شکل3-1. چهارچوب الگوریتم خوشه‌بندی خردمند با استفاده از آستانه‌گیری ......................................................... 82
شکل3-۲. محاسبه درجه استقلال دو خوشه‌بندی ..................................................................................................... 86
شکل3-3. تأثیر عدم تمرکز بر روی پیچیدگی داده ................................................................................................... 89
شکل3-3. تأثیر انتخاب افرازها در خوشه‌بندی ترکیبی مبتنی بر انتخاب بر مقدار NMI ارزیابی‌شده ........................ 91
شکل3-4. شبه کد خوشه‌بندی خردمند با استفاده از آستانه‌گیری .............................................................................. 92
شکل3-5. دسته‌بندی الگوریتم‌های خوشه‌بندی ........................................................................................................ 94
شکل3-6. کد الگوریتم K-means به زبان استقلال الگوریتم‌ خوشه‌بندی ................................................................. 98
شکل3-7. تبدیل کد‌های شروع و پایان به گراف .................................................................................................... 100
شکل3-8. تبدیل عملگر شرط ساده به گراف ......................................................................................................... 100
شکل3-9. تبدیل عملگر شرط کامل به گراف ......................................................................................................... 101
شکل3-10. تبدیل عملگر شرط تو در تو به گراف ................................................................................................. 101
شکل3-11. تبدیل عملگر حلقه ساده به گراف ....................................................................................................... 102
شکل3-12. تبدیل عملگر حلقه با پرش به گراف ................................................................................................... 102
شکل3-13. پیاده‌سازی شرط ساده بدون هیچ کد اضافی ........................................................................................ 103
شکل3-14. پیاده‌سازی شرط ساده با کدهای قبل و بعد آن .................................................................................... 103
شکل3-15. پیاده‌سازی شرط کامل ......................................................................................................................... 104
شکل3-16. پیاده‌سازی شرط‌ تو در تو .................................................................................................................... 104
شکل3-17. پیاده‌سازی یک شرط کامل در یک شرط ساده .................................................................................... 105
شکل3-18. پیاده‌سازی یک شرط کامل در یک شرط کامل دیگر ........................................................................... 105
شکل3-19. پیاده‌سازی حلقه ساده .......................................................................................................................... 106
شکل3-20. پیاده‌سازی یک حلقه ساده داخل حلقه‌ای دیگر ................................................................................... 106
شکل3-21. پیاده‌سازی یک حلقه داخل یک شرط کامل ........................................................................................ 106
شکل3-22. پیاده‌سازی یک شرط کامل داخل یک حلقه ساده ................................................................................ 107
شکل3-23. ماتریس درجه وابستگی‌ کد ................................................................................................................. 108
شکل3-24. شبه کد مقایسه محتوای دو خانه از آرایه‌های استقلال الگوریتم .......................................................... 108
شکل3-25. چهارچوب خوشه‌بندی خردمند مبتنی بر گراف استقلال الگوریتم ...................................................... 110
شکل3-26. شبه کد خوشه‌بندی خردمند مبتنی بر گراف استقلال الگوریتم ............................................................ 113
فصل چهارم
شکل۴-۱. مجموعه داده Halfring .......................................................................................................................... 118
شکل4-2. الگوریتم K-means ................................................................................................................................ 121
شکل4-3. الگوریتم FCM ...................................................................................................................................... 121
شکل4-4. الگوریتم Median K-Flats .................................................................................................................... 122
شکل4-5. الگوریتم Gaussian Mixture ................................................................................................................ 122
شکل4-6. الگوریتم خوشه‌بندی Subtractive ......................................................................................................... 122
شکل4-7. الگوریتم پیوندی منفرد با استفاده از معیار فاصله اقلیدسی ..................................................................... 123
شکل4-8. الگوریتم پیوندی منفرد با استفاده از معیار فاصله Hamming ................................................................ 123
شکل4-9. الگوریتم پیوندی منفرد با استفاده از معیار فاصله Cosine ..................................................................... 123
شکل4-10. الگوریتم پیوندی کامل با استفاده از معیار فاصله اقلیدسی ................................................................... 124
شکل4-1۱. الگوریتم پیوندی کامل با استفاده از معیار فاصله Hamming .............................................................. 124
شکل4-1۲. الگوریتم پیوندی کامل با استفاده از معیار فاصله Cosine .................................................................... 124
شکل4-1۳. الگوریتم پیوندی میانگین با استفاده از معیار فاصله اقلیدسی ............................................................... 124
شکل4-14. الگوریتم پیوندی میانگین با استفاده از معیار فاصله Hamming .......................................................... 125
شکل4-15. الگوریتم پیوندی میانگین با استفاده از معیار فاصله Cosine ............................................................... 125
شکل4-16. الگوریتم پیوندی بخشی با استفاده از معیار فاصله اقلیدسی ................................................................ 125
شکل4-17. الگوریتم پیوندی بخشی با استفاده از معیار فاصله Hamming ............................................................ 125
شکل4-18. الگوریتم پیوندی بخشی با استفاده از معیار فاصله Cosine ................................................................. 126
شکل4-19. طیفـی با استفاده از ماتریس شباهت نامتراکم ...................................................................................... 126
شکل4-20. طیفـی با استفاده از روش نیستروم با متعادل ساز .............................................................................. 127
شکل4-21. طیفـی با استفاده از روش نیستروم بدون متعادل ساز ......................................................................... 127
شکل4-22. نرم‌افزار تحلیل‌گر کد استقلال الگوریتم ............................................................................................... 128
شکل4-23. ماتریس AIDM ................................................................................................................................... 129
شکل4-24. میانگین دقت الگوریتم‌های خوشه‌بندی ............................................................................................... 131
شکل4-25. رابطه میان آستانه استقلال و زمان اجرای الگوریتم در روش پیشنهادی اول ........................................ 133
شکل4-26. رابطه میان آستانه پراکندگی و زمان اجرای الگوریتم در روش پیشنهادی اول ..................................... 133
شکل4-27. رابطه میان آستانه استقلال و دقت نتیجه نهایی در روش پیشنهادی اول .............................................. 134
شکل4-28. رابطه میان آستانه پراکندگی و دقت نتیجه نهایی در روش پیشنهادی اول ............................................ 134
شکل4-29. رابطه میان آستانه عدم تمرکز و دقت نتیجه نهایی در روش پیشنهادی اول ......................................... 135
شکل4-30. رابطه میان آستانه پراکندگی و زمان اجرای الگوریتم در روش پیشنهادی دوم ..................................... 135
شکل4-31. رابطه میان آستانه پراکندگی و دقت نتایج نهایی در روش پیشنهادی دوم ............................................ 136
شکل4-32. رابطه میان آستانه عدم تمرکز و دقت نتایج نهایی در روش پیشنهادی دوم ......................................... 137
شکل4-33. مقایسه زمان اجرای الگوریتم‌ ............................................................................................................... 138
فصل اول
مقدمه
center3187700
1. مقدمه1-1. خوشه‌بندیبه عنوان یکی از شاخه‌های وسیع و پرکاربرد هوش مصنوعی، یادگیری ماشین به تنظیم و اکتشاف شیوه‌ها و الگوریتم‌هایی می‌پردازد که بر اساس آن‌ها رایانه‌ها و سامانه‌های اطلاعاتی توانایی تعلم و یادگیری پیدا می‌کنند. طیف پژوهش‌هایی که در مورد یادگیری ماشینی صورت می‌گیرد گسترده ‌است. در سوی نظر‌ی آن پژوهش‌گران بر آن‌اند که روش‌های یادگیری تازه‌ای به وجود بیاورند و امکان‌پذیری و کیفیت یادگیری را برای روش‌هایشان مطالعه کنند و در سوی دیگر عده‌ای از پژوهش‌گران سعی می‌کنند روش‌های یادگیری ماشینی را بر مسائل تازه‌ای اعمال کنند. البته این طیف گسسته نیست و پژوهش‌های انجام‌شده دارای مؤلفه‌هایی از هر دو رو‌یکرد هستند. امروزه، داده‌کاوی به عنوان یک ابزار قوی برای تولید اطلاعات و دانش از داده‌های خام، در یادگیری ماشین شناخته‌شده و همچنان با سرعت در حال رشد و تکامل است. به طور کلی می‌توان تکنیک‌های داده‌کاوی را به دو دسته بانظارت و بدون نظارت تقسیم کرد [29, 46].
در روش بانظارت ما ورودی (داده یادگیری) و خروجی (کلاس داده) یک مجموعه داده را به الگوریتم هوشمند می‌دهیم تا آن الگوی بین ورودی و خروجی را تشخیص دهد در این روش خروجی کار ما مدلی است که می‌تواند برای ورودی‌های جدید خروجی درست را پیش‌بینی کند. روش‌های طبقه‌بندی و قوانین انجمنی از این جمله تکنیک‌ها می‌باشد. روش‌های با نظارت کاربرد فراوانی دارند اما مشکل عمده این روش‌ها این است که همواره باید داده‌ای برای یادگیری وجود داشته باشد که در آن به ازای ورودی مشخص خروجی درست آن مشخص شده باشد. حال آنکه اگر در زمینه‌ای خاص داده‌ای با این فرمت وجود نداشته باشد این روش‌ها قادر به حل این‌گونه مسائل نخواهند بود [29, 68]. در روش بدون نظارت برخلاف یادگیری بانظارت هدف ارتباط ورودی و خروجی نیست، بلکه تنها دسته‌بندی ورودی‌ها است. این نوع یادگیری بسیار مهم است چون خیلی از مسائل (همانند دنیای ربات‌ها) پر از ورودی‌هایی است که هیچ برچسبی (کلاس) به آن‌ها اختصاص داده نشده است اما به وضوح جزئی از یک دسته هستند [46, 68]. خوشه‌بندی شاخص‌ترین روش در داده‌کاوی جهت حل مسائل به صورت بدون ناظر است. ایده اصلی خوشه‌بندی اطلاعات، جدا کردن نمونه‌ها از یکدیگر و قرار دادن آن‌ها در گروه‌های شبیه به هم می‌باشد. به این معنی که نمونه‌های شبیه به هم باید در یک گروه قرار بگیرند و با نمونه‌های گروه‌های دیگر حداکثر متفاوت را دارا باشند [20, 26]. دلایل اصلی برای اهمیت خوشه‌بندی عبارت‌اند از:
اول، جمع‌آوری و برچسب‌گذاری یک مجموعه بزرگ از الگوهای نمونه می‌تواند بسیار پرکاربرد و باارزش باشد.
دوم، می‌توانیم از روش‌های خوشه‌بندی برای پیدا کردن و استخراج ویژگی‌ها و الگوهای جدید استفاده کنیم. این کار می‌تواند کمک به سزایی در کشف دانش ضمنی داده‌ها انجام دهد.
سوم، با خوشه‌بندی می‌توانیم یک دید و بینشی از طبیعت و ساختار داده به دست آوریم که این می‌تواند برای ما باارزش باشد.
چهارم، خوشه‌بندی می‌تواند منجر به کشف زیر رده‌های مجزا یا شباهت‌های بین الگوها ممکن شود که به طور چشمگیری در روش طراحی طبقه‌بندی قابل استفاده باشد.
1-2. خوشه‌بندی ترکیبیهر یک از الگوریتم‌های خوشه‌بندی، با توجه به اینکه بر روی جنبه‌های متفاوتی از داده‌ها تاکید می‌کند، داده‌ها را به صورت‌های متفاوتی خوشه‌بندی می‌نماید. به همین دلیل، نیازمند روش‌هایی هستیم که بتواند با استفاده از ترکیب این الگوریتم‌ها و گرفتن نقاط قوت هر یک، نتایج بهینه‌تری را تولید کند. در واقع هدف اصلی خوشه‌بندی ترکیبی جستجوی بهترین خوشه‌ها با استفاده از ترکیب نتایج الگوریتم‌های دیگر است [1, 8, 9, 54, 56]. به روشی از خوشه‌بندی ترکیبی که زیرمجموعه‌ی منتخب از نتایج اولیه برای ترکیب و ساخت نتایج نهایی استفاده می‌شود خوشه‌بندی ترکیبی مبتنی بر انتخاب زیرمجموعه نتایج اولیه می‌گویند. در این روش‌ها بر اساس معیاری توافقی مجموعه‌ای از مطلوب‌ترین نتایج اولیه را انتخاب کرده و فقط توسط آن‌ها نتیجه نهایی را ایجاد می‌کنیم [21]. معیارهای مختلفی جهت انتخاب مطلوب‌ترین روش پیشنهاد شده است که معیار اطلاعات متقابل نرمال شده، روش ماکزیموم و APMM برخی از آن‌ها می‌باشند [8, 9, 21, 67]. دو مرحله مهم در خوشه‌بندی ترکیبی عبارت‌اند از:
اول، الگوریتم‌های ابتدایی خوشه‌بندی که خوشه‌بندی اولیه را انجام می‌دهد.
دوم، جمع‌بندی نتایج این الگوریتم‌های اولیه (پایه) برای به دست آوردن نتیجه نهایی.
1-3. خرد جمعینظریه خرد جمعی که اولین بار توسط سورویکی در سال 2004 در کتابی با همان عنوان منتشر شد، استنباطی از مسائل مطرح‌شده توسط گالتون و کندورست می‌باشد، و نشان می‌دهد که قضاوت‌های جمعی و دموکراتیک از اعتبار بیشتری نسبت به آنچه که ما انتظار داشتیم برخوردار است، ما تأثیرات این ایده را در حل مسائل سیاسی، اجتماعی در طی سال‌های اخیر شاهد هستیم. در ادبیات خرد جمعی هر جامعه‌ای را خردمند نمی‌گویند. از دیدگاه سورویکی خردمند بودن جامعه در شرایط چهارگانه پراکندگی، استقلال، عدم تمرکز و روش ترکیب مناسب است [55].
1-4. خوشه‌بندی مبتنی بر انتخاب بر اساس نظریه خرد جمعیهدف از این تحقیق استفاده از نظریه خرد جمعی برای انتخاب زیرمجموعه‌ی مناسب در خوشه‌بندی ترکیبی می‌باشد. تعاریف سورویکی از خرد جمعی مطابق با مسائل اجتماعی است و در تعاریف آن عناصر سازنده تصمیمات رأی افراد می‌باشد. در این تحقیق ابتدا مبتنی بر تعاریف پایه سورویکی از خرد جمعی و ادبیات مطرح در خوشه‌بندی ترکیبی، تعریف پایه‌ای از ادبیات خرد جمعی در خوشه‌بندی ترکیبی ارائه می‌دهیم و بر اساس آن الگوریتم پیشنهادی خود را در جهت پیاده‌سازی خوشه‌بندی ترکیبی ارائه می‌دهیم [55]. شرایط چهارگانه خوشه‌بندی خردمند که متناسب با تعاریف سورویکی باز تعریف شده است به شرح زیر می‌باشد:
پراکندگی نتایج اولیه، هر الگوریتم خوشه‌بندی پایه باید به طور جداگانه و بدون واسطه به داده‌های مسئله دسترسی داشته و آن را تحلیل و خوشه‌بندی کند حتی اگر نتایج آن غلط باشد.
استقلال الگوریتم، روش تحلیل هر یک از خوشه‌بندی‌های پایه نباید تحت تأثیر روش‌های سایر خوشه‌بندی‌های پایه تعیین شود، این تأثیر می‌تواند در سطح نوع الگوریتم (گروه) یا پارامترهای اساسی یک الگوریتم خاص (افراد) باشد.
عدم تمرکز، ارتباط بین بخش‌های مختلف خوشه‌بندی خرد جمعی باید به گونه‌ای باشد تا بر روی عملکرد خوشه‌بندی پایه تأثیری ایجاد نکند تا از این طریق هر خوشه‌بندی پایه شانس این را داشته باشد تا با شخصی سازی و بر اساس دانش محلی خود بهترین نتیجه ممکن را آشکار سازد.
مکانیزم ترکیب مناسب، باید مکانیزمی وجود داشته باشد که بتوان توسط آن نتایج اولیه الگوریتم‌های پایه را با یکدیگر ترکیب کرده و به یک نتیجه نهایی (نظر جمعی) رسید.
در این تحقیق دو روش برای ترکیب خوشه‌بندی ترکیبی و خرد جمعی پیشنهاد شده است. با استفاده از تعاریف بالا الگوریتم روش اول مطرح خواهد شد که در آن، جهت رسیدن به نتیجه نهایی از آستانه‌گیری استفاده می‌شود. در این روش الگوریتم‌های خوشه‌بندی اولیه غیر هم نام کاملاً مستقل فرض خواهند شد و برای ارزیابی استقلال الگوریتم‌های هم نام نیاز به آستانه‌گیری می‌باشد. در روش دوم، سعی شده است تا دو بخش از روش اول بهبود یابد. از این روی جهت مدل‌سازی الگوریتم‌ها و ارزیابی استقلال آن‌ها نسبت به هم یک روش مبتنی بر گراف شبه کد ارائه می‌شود و میزان استقلال به دست آمده در این روش به عنوان وزنی برای ارزیابی پراکندگی در تشکیل جواب نهایی مورد استفاده قرار می‌گیرد. جهت ارزیابی، روش‌های پیشنهادی با روش‌های پایه، روش‌ ترکیب کامل و چند روش معروف ترکیب مبتنی بر انتخاب مقایسه خواهد شد. از این روی از چهارده داده استاندارد و یا مصنوعی که عموماً از سایت UCI [76] جمع‌آوری شده‌اند استفاده شده است. در انتخاب این داده‌ها سعی شده، داده‌هایی با مقیاس‌ کوچک، متوسط و بزرگ انتخاب شوند تا کارایی روش بدون در نظر گرفتن مقیاس داده ارزیابی شود. همچنین جهت اطمینان از صحت نتایج تمامی آزمایش‌های تجربی گزارش‌شده حداقل ده بار تکرار شده است.
1-4-1- فرضیات تحقیقاین تحقیق بر اساس فرضیات زیر اقدام به ارائه روشی جدید در خوشه‌بندی ترکیبی مبتنی بر انتخاب بر اساس نظریه خرد جمعی می‌کند.
۱ ) در این تحقیق تمامی آستانه‌گیری‌ها بر اساس میزان صحت نتایج نهایی و مدت زمان اجرای الگوریتم به صورت تجربی انتخاب می‌شوند.
۲ ) در این تحقیق جهت ارزیابی عملکرد یک الگوریتم، نتایج اجرای آن را بر روی‌داده‌های استاندارد UCI در محیطی با شرایط و پارامترهای مشابه نسبت به سایر الگوریتم‌ها ارزیابی می‌کنیم که این داده‌ها الزاماً حجیم یا خیلی کوچک نیستند.
۳ ) جهت اطمینان از صحت نتایج آزمایش‌ها ارائه‌شده در این تحقیق، حداقل اجرای هر الگوریتم بر روی هر داده ده بار تکرار شده و نتیجه‌ی نهایی میانگین نتایج به دست آمده می‌باشد.
4 ) از آنجایی که روش مطرح‌شده در این تحقیق یک روش مکاشفه‌ای است سعی خواهد شد بیشتر با روش‌های مکاشفه‌ای مطرح در خوشه‌بندی ترکیبی مقایسه و نتایج آن مورد بررسی قرار گیرد.
در این فصل اهداف، مفاهیم و چالش‌های این تحقیق به صورت خلاصه ارائه شد. در ادامه این تحقیق، در فصل دوم، الگوریتم‌های خوشه‌بندی پایه و روش‌های خوشه‌بندی‌ ترکیبی مورد بررسی قرار می‌گیرد. همچنین به مرور روش‌های انتخاب خوشه و یا افراز در خوشه‌بندی ترکیبی مبتنی بر انتخاب خواهیم پرداخت. در فصل سوم، نظریه خرد جمعی و دو روش پیشنهادی خوشه‌بندی خردمند ارائه می‌شود. در فصل چهارم، به ارائه نتایج آزمایش‌های تجربی این تحقیق و ارزیابی آن‌ها می‌پردازیم و در فصل پنجم، به ارائه‌ی نتایج و کار‌های آتی خواهیم پرداخت.

فصل دوم
مروری بر ادبیات تحقیق
center2132965
2. مروری بر ادبیات تحقیق2-1. مقدمهدر این بخش، کارهای انجام‌شده در خوشه‌بندی و خوشه‌بندی ترکیبی را مورد مطالعه قرار می‌دهیم. ابتدا چند الگوریتم‌ پایه خوشه‌بندی معروف را معرفی خواهیم کرد. سپس چند روش کاربردی جهت ارزیابی خوشه، خوشه‌بندی و افرازبندی را مورد مطالعه قرار می‌دهیم. در ادامه به بررسی ادبیات خوشه‌بندی ترکیبی خواهیم پرداخت و روش‌های ترکیب متداول را بررسی خواهیم کرد. از روش‌های خوشه‌بندی ترکیبی، روش ترکیب کامل و چند روش معروف مبتنی بر انتخاب را به صورت مفصل شرح خواهیم داد.
2-2. خوشه‌بندیدر این بخش ابتدا انواع الگوریتم‌های خوشه‌بندی پایه را معرفی می‌کنیم و سپس برخی از آن‌ها را مورد مطالعه قرار می‌دهیم سپس برای ارزیابی نتایج به دست آمده چند متریک معرفی خواهیم کرد.
2-2-1. الگوریتم‌های خوشه‌بندی پایهبه طور کلی، الگوریتم‌های خوشه‌بندی را می‌توان به دو دسته کلی تقسیم کرد:
1- الگوریتم‌های سلسله مراتبی
2- الگوریتم‌های افرازبندی
الگوریتم‌های سلسله مراتبی، یک روال برای تبدیل یک ماتریس مجاورت به یک دنباله از افرازهای تو در تو، به صورت یک درخت است. در این روش‌ها، مستقیماً با داده‌ها سروکار داریم و از روابط بین آن‌ها برای به دست آوردن خوشه‌ها استفاده می‌کنیم. یکی از ویژگی‌های این روش قابلیت تعیین تعداد خوشه‌ها به صورت بهینه می‌باشد. در نقطه مقابل الگوریتم‌های سلسله مراتبی، الگوریتم‌های افرازبندی قرار دارند. هدف این الگوریتم‌ها، تقسیم داده‌ها در خوشه‌ها، به گونه‌ای است که داده‌های درون یک خوشه بیش‌ترین شباهت را به همدیگر داشته باشند؛ و درعین‌حال، بیش‌ترین فاصله و اختلاف را با داده‌های خوشه‌های دیگر داشته باشند. در این فصل تعدادی از متداول‌ترین الگوریتم‌های خوشه‌بندی، در دو دسته سلسله مراتبی و افرازبندی، مورد بررسی قرار می‌گیرند. از روش سلسله‌ مراتبی چهار الگوریتم‌ از سری الگوریتم‌های پیوندی را مورد بررسی قرار می‌دهیم. و از الگوریتم‌های افرازبندی K-means، FCM و الگوریتم طیفی را مورد بررسی خواهیم داد.
2-2-1-1. الگوریتم‌های سلسله مراتبیهمان‌گونه که در شکل 2-1 مشاهده می‌شود، روال الگوریتم‌های خوشه‌بندی سلسله مراتبی را می‌تواند به صورت یک دندوگرام نمایش داد. این نوع نمایش تصویری از خوشه‌بندی سلسله مراتبی، برای انسان، بیشتر از یک لیست از نمادها قابل‌درک است. در واقع دندوگرام، یک نوع خاص از ساختار درخت است که یک تصویر قابل‌فهم از خوشه‌بندی سلسله مراتبی را ارائه می‌کند. هر دندوگرام شامل چند لایه از گره‌هاست، به طوری که هر لایه یک خوشه را نمایش می‌دهد. خطوط متصل‌کننده گره‌ها، بیانگر خوشه‌هایی هستند که به صورت آشیانه‌ای داخل یکدیگر قرار دارند. برش افقی یک دندوگرام، یک خوشه‌بندی را تولید می‌کند [33]. شکل 2-1 یک مثال ساده از خوشه‌بندی و دندوگرام مربوطه را نشان می‌دهد.

شکل 2-1. یک خوشه‌بندی سلسله مراتبی و درخت متناظر
اگر الگوریتم‌های خوشه‌بندی سلسله مراتبی، دندوگرام را به صورت پایین به بالا بسازند، الگوریتم‌های خوشه‌بندی سلسله مراتبی تراکمی نامیده می‌شوند. همچنین، اگر آن‌ها دندوگرام را به صورت بالا به پایین بسازند، الگوریتم‌های خوشه‌بندی سلسله مراتبی تقسیم‌کننده نامیده می‌شوند [26]. مهم‌ترین روش‌های خوشه‌بندی سلسله مراتبی الگوریتم‌های سری پیوندی می‌باشد که در این بخش تعدادی از کاراترین آن‌ها مورد بررسی قرار خواهند گرفت که عبارت‌اند از:
الگوریتم پیوندی منفرد
الگوریتم پیوندی کامل
الگوریتم پیوندی میانگین
الگوریتم پیوندی بخشی
2-2-1-1-1. تعاریف و نماد‌ها
شکل 2-2. ماتریس مجاورت
قبل از معرفی این الگوریتم‌ها، در ابتدا نمادها و نحوه نمایش مسئله نمایش داده خواهد شد. فرض کنید که یک ماتریس مجاورت متقارن داریم. وارده در هر سمت قطر اصلی قرار دارد که شامل یک جای گشت اعداد صحیح بین 1 تا است. ما مجاورت‌ها را عدم شباهت در نظر می‌گیریم. به این معنی است که اشیاء 1 و 3 بیشتر از اشیاء 1 و 2 به هم شبیه‌اند. یک مثال از ماتریس مجاورت معمول برای است که در شکل 2-2 نشان داده شده است. یک گراف آستانه، یک گراف غیر جهت‌دار و غیر وزن‌دار، روی گره، بدون حلقه بازگشت به خود یا چند لبه است. هر نود یک شیء را نمایش می‌دهد. یک گراف آستانه برای هر سطح عدم شباهت به این صورت تعریف می‌شود: اگر عدم شباهت اشیاء و از حد آستانه کوچک‌تر باشد، با واردکردن یک لبه بین نودهای ویک گراف آستانه تعریف می‌کنیم.
(2-1)if and only if
شکل 2-3 یک رابطه دودویی به دست آمده از ماتریس مربوط به شکل 2-2 را برای مقدار آستانه 5 نشان می‌دهد. نماد "*" در موقعیت ماتریس، نشان می‌دهد که جفت متعلق به رابطه دودویی می‌باشد. شکل 2-4، گراف‌های آستانه برای ماتریس را نمایش می‌دهد.

شکل 2-3. رابطه دودویی و گراف آستانه برای مقدار آستانه 5.

شکل 2-4. گراف‌های آستانه برای ماتریس
2-2-1-1-2. الگوریتم پیوندی منفرداین الگوریتم روش کمینه و روش نزدیک‌ترین همسایه نیز نامیده می‌شود [26]. اگر و خوشه‌ها باشند، در روش پیوندی منفرد، فاصله آن‌ها برابر خواهد بود با:
(2-2)
که نشان‌دهنده فاصله (عدم شباهت) بین نقاط a و b در ماتریس مجاورت است. شکل 2-5 این الگوریتم را نمایش می‌دهد. شکل 2-6 دندوگرام حاصل از روش پیوندی منفرد را برای ماتریس ، را نشان می‌دهد.
Step 1. Begin with the disjoint clustering implied by threshold graph, which contains no edges and which places every object in a unique cluster, as the current clustering. Set.
Step 2. From threshold graph.
If the number of comonents (maximally connected subgraphs) in, is less than the number of clusters in the current clustering, redefiene the current clustering by naming each component of as a cluster.
Step 3. If consists of a single connected graph, stop. Else, setand go to step 2.
شکل 2-5. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی منفرد

شکل 2-6. دندوگرام پیوندی منفرد برای ماتریس
2-2-1-1-3. الگوریتم پیوندی کاملاین الگوریتم روش بیشینه یا روش دورترین همسایه نیز نامیده می‌شود. الگوریتم پیوندی کامل می‌گوید که وقتی دو خوشه و شبیه به هم هستند که بیشینه روی تمام ها در و کوچک باشد. به عبارت دیگر، در این الگوریتم، برای یکی کردن دو خوشه، همه جفت‌ها در دو خوشه باید شبیه به هم باشند [26]. اگر و خوشه‌ها باشند، در روش پیوندی کامل، فاصله آن‌ها برابر خواهد بود با:
(2-3)
که نشان‌دهنده فاصله(عدم شباهت) بین نقاط a و در ماتریس مجاورت است. شکل 2-7 این الگوریتم و شکل 2-8 دندوگرام حاصل از این روش را برای ماتریس ، را نشان می‌دهد.
Step 1. Begin with the disjoint clustering implied by threshold graph, which contains no edges and which places every object in a unique cluster, as the current clustering. Set.
Step 2. From threshold graph.
If two of the current clusters from a clique (maximally complete sub graph) in, redefine the current clustering by merging these two clusters into a single cluster.
Step 3. If, so that is the complete graph on the nodes, stop. Else, set and go to step 2.
شکل 2-7. الگوریتم خوشه‌بندی سلسله مراتبی تراکمی پیوندی کامل

شکل 2-8. دندوگرام پیوندی کامل برای ماتریس
2-2-1-1-4. الگوریتم پیوندی میانگینالگوریتم پیوندی منفرد اجازه می‌دهد تا خوشه‌ها به صورت دراز و نازک رشد کنند. این در شرایطی است که الگوریتم پیوندی کامل خوشه‌های فشرده‌تری تولید می‌کند. هر دو الگوریتم مستعد خطا با داده‌های خارج از محدوده هستند. الگوریتم خوشه‌بندی پیوندی میانگین، یک تعادلی بین مقادیر حدی الگوریتم‌های پیوندی منفرد و کامل است. الگوریتم پیوندی میانگین همچنین، روش جفت-گروه بدون وزن با استفاده از میانگین حسابی نامیده می‌شود. این الگوریتم، یکی از پرکاربردترین الگوریتم‌های خوشه‌بندی سلسله مراتبی می‌باشد [26]. اگر یک خوشه با تعداد تا عضو، و یک خوشه دیگر با تعداد تا عضو باشند، در روش پیوندی میانگین، فاصله آن‌ها برابر خواهد بود با:
(2-4)
که نشان‌دهنده فاصله(عدم شباهت) بین نقاط a و در ماتریس مجاورت است.
2-2-1-1-5. الگوریتم پیوندی بخشیروش پیوندی بخشی که از مربع مجموع خطا‌های (SSE) خوشه‌های یک افراز برای ارزیابی استفاده می‌کند، یکی دیگر از روش‌های سلسله مراتبی می‌باشد [60]. اگر یک خوشه با تعداد تا عضو، و یک خوشه دیگر با تعداد تا عضو باشند و نماد به معنای فاصله اقلیدسی و و مراکز خوشه‌های و باشد آنگاه در روش پیوندی بخشی، فاصله آن‌ها برابر خواهد بود با:
(2-5)
2-2-1-2. الگوریتم‌های افرازبندییک خاصیت مهم روش‌های خوشه‌بندی سلسله مراتبی، قابلیت نمایش دندوگرام است که تحلیل‌گر را قادر می‌سازد تا ببیند که چگونه اشیاء در سطوح متوالی مجاورت، در خوشه‌ها به هم پیوند می‌خورند یا تفکیک می‌شوند. همان طور که اشاره شد، هدف الگوریتم‌های افرازبندی، تقسیم داده‌ها در خوشه‌ها، به گونه‌ای است که داده‌های درون یک خوشه بیش‌ترین شباهت را به همدیگر داشته باشند؛ و درعین‌حال، بیش‌ترین فاصله و اختلاف را با داده‌های خوشه‌های دیگر داشته باشند. آن‌ها یک افراز منفرد از داده را تولید می‌کنند و سعی می‌کنند تا گروه‌های طبیعی حاضر در داده را کشف کنند. هر دو رویکرد خوشه‌بندی، دامنه‌های مناسب کاربرد خودشان را دارند. معمولاً روش‌های خوشه‌بندی سلسله مراتبی، نیاز به ماتریس مجاورت بین اشیاء دارند؛ درحالی‌که روش‌های افرازبندی، به داده‌ها در قالب ماتریس الگو نیاز دارند. نمایش رسمی مسئله خوشه‌بندی افرازبندی می‌تواند به صورت زیر باشد:
تعیین یک افراز از الگوها در گروه، یا خوشه، با داشتن الگو در یک فضای d-بعدی؛ به طوری که الگوها در یک خوشه بیش‌ترین شباهت را به هم داشته و با الگوهای خوشه‌های دیگر بیش‌ترین، تفاوت را داشته باشند. تعداد خوشه‌ها،، ممکن است که از قبل مشخص‌شده نباشد، اما در بسیاری از الگوریتم‌های خوشه‌بندی افرازبندی، تعداد خوشه‌ها باید از قبل معلوم باشند. در ادامه برخی از معروف‌ترین و پرکاربردترین الگوریتم‌های افرازبندی مورد بررسی قرار خواهند گرفت.


2-2-1-2-1. الگوریتم K-meansدر الگوریتم مراکز خوشه‌ها بلافاصله بعد از اینکه یک نمونه به یک خوشه می‌پیوندد محاسبه می‌شوند. به طور معمول بیشتر روش‌های خوشه‌بندی ترکیبی از الگوریتم جهت خوشه‌بندی اولیه خود استفاده می‌کنند [37, 47, 57]. اما مطالعات اخیر نشان داده‌اند که با توجه به رفتار هر مجموعه داده، گاهی اوقات یک روش خوشه‌بندی خاص پیدا می‌شود که دقت بهتری از برای بعضی از مجموعه داده‌ها می‌دهد [1, 54]. اما الگوریتم به دلیل سادگی و توانایی مناسب در خوشه‌بندی همواره به عنوان انتخاب اول مطالعات خوشه‌بندی ترکیبی مورد مطالعه قرار گرفته است. در شکل 2-10 شبه کد الگوریتم را مشاهده می‌کنید:
1. Place K points into the space represented by the objects that are being clustered.
These points represent initial group centroids.
2. Assign each object to the group that has the closest centroid.
3. When all objects have been assigned, recalculate the positions of the K centroids.
4. Repeat Steps 2 and 3 until the centroids no longer move. This produces a separation
of the objects into groups from which the metric to be minimized can be calculated
شکل 2-9. الگوریتم خوشه‌بندی افرازبندی
مقادیر مراکز اولیه‌ی‌ متفاوت برای الگوریتم می‌تواند منجر به خوشه‌بندی‌های مختلفی شود. به خاطر اینکه این الگوریتم مبتنی بر مربع خطا است، می‌تواند به کمینه محلی همگرا شود، مخصوصاً برای خوشه‌هایی که به طور خیلی خوبی از هم تفکیک نمی‌شوند، این امر صادق است. نشان داده شده است که هیچ تضمینی برای همگرایی یک الگوریتم تکراری به یک بهینه سراسری نیست [33]. به طور خلاصه می‌توان ویژگی‌های الگوریتم را به صورت زیر برشمرد:
1- بر اساس فاصله اقلیدسی تمامی ویژگی‌ها می‌باشد.
2- منجر به تولید خوشه‌هایی به صورت دایره، کره و یا ابر کره می‌شود.
3- نسبت به روش‌های دیگر خوشه‌بندی، ساده و سریع است.
4- همگرایی آن به یک بهینه محلی اثبات شده است، اما تضمینی برای همگرایی به بهینه سراسری وجود ندارد.
5- نسبت به مقداردهی اولیه مراکز خوشه‌ها خیلی حساس است.
2-2-1-2-2. الگوریتم FCMالگوریتم FCM اولین بار توسط دون [13] ارائه شد. سپس توسط بزدک [66] بهبود یافت. این متد دیدگاه جدیدی را در خوشه‌بندی بر اساس منطق فازی [62] ارائه می‌دهد. در این دیدگاه جدید، به جای اینکه داده‌ها در یک خوشه عضو باشند، در تمامی خوشه‌ها با یک ضریب عضویت که بین صفر و یک است، عضو هستند و ما در این نوع خوشه‌بندی، دنبال این ضرایب هستیم. در روش‌های معمول در جایی که ما داده داشته باشیم، جواب نهایی ماتریس خواهد بود که هر خانه شامل برچسب خوشه‌ی داده‌ی نظیر آن می‌باشد. ولی در این روش در صورت داشتن خوشه، جواب نهایی یک ماتریس خواهد بود که در آن هر ردیف شامل ضرایب عضویت داده‌ی نظیر به آن خوشه است. بدیهی است که جمع افقی هر ردیف (ضرایب عضویت یک داده خاص) برابر با یک خواهد بود. یک روش معمول جهت رسیدن به جواب‌هایی غیر فازی بر اساس نتایج نهایی الگوریتم فازی، برچسب‌زنی داده بر اساس آن ضریبی که مقدار حداکثر را در این داده دارد، می‌باشد. رابطه 2-6 معادله پایه در روش فازی است: [66]
(2-6) ,
در رابطه 2-6 متغیرm یک عدد حقیقی بزرگ‌تر از یک و درجه عضویت داده در خوشه j-ام می‌باشد، که خود ، i-امین داده d-بُعدی از داده‌ی مورد مطالعه می‌باشد و مرکز d-بعدی خوشه j-ام‌ است و هر روش معمول جهت اندازه‌گیری شباهت میان داده و مرکز خوشه می‌باشد. در روش خوشه‌بندی فازی مراکز خوشه () و درجه عضویت () با تکرار مکرر به ترتیب بر اساس رابطه‌های 2-7 و 2-8 به‌روزرسانی می‌شوند، تا زمانی که شرط توقف درست در آید. در این شرط مقدار یک مقدار توافقی بسیار کوچک‌تر از یک می‌باشد که مطابق با نوع داده و دقت خوشه‌بندی قابل جایگذاری خواهد بود. بدیهی است که هر چقدر این مقدار به سمت صفر میل کند درجه عضویت دقیق‌تر و مقدار زمان اجرا بیشتر خواهد بود [66].
(2-7)
(2-8)
مراحل اجرای الگوریتم در شبه کد شکل 2-11 شرح داده شده است:
1.Initialize matrix,
2.At k-step: calculate the centers vectors with

3.Update ,

4. If then STOP; otherwice returen to step 2.
شکل 2-10. الگوریتم فازی خوشه‌بندی
2-2-1-2-3. الگوریتم طیفیروش خوشه‌بندی طیفی که بر اساس مفهوم گراف طیفی [11] مطرح شده است، از ماتریس شباهت برای کاهش بعد داده‌ها در خوشه‌بندی استفاده می‌کند. در این روش یک گراف وزن‌دار بدون جهت به نحوی تولید می‌شود که رئوس گراف نشان‌دهنده‌ی مجموعه نقاط و هر یال وزن‌دار نشان‌دهنده‌ی میزان شباهت جفت داده‌های متناظر باشد. بر خلاف روش‌های کلاسیک، این روش، روی‌ داده‌ای پراکنده‌ در فضایی با شکل‌ هندسی غیر محدب، نتایج مطلوبی تولید می‌کند [63]. کاربرد این روش در محاسبات موازی [69, 70]، تنظیم بار [15]، طراحی VLSI [28]، طبقه‌بندی تصاویر [35] و بیوانفورماتیک [31, 59] می‌باشد.
در خوشه‌بندی طیفی از بردارهای ویژگی در ماتریس شباهت برای افراز مجموعه‌ داده استفاده می‌شود. در اغلب این روش‌ها، مقدار ویژه اولویت بردارها را تعیین می‌کند. ولی این نحوه‌ی انتخاب، انتخاب بهترین بردارها را تضمین نمی‌دهد. در اولین تحقیقی که در این زمینه توسط ژیانگ و گنگ [61] انجام شد، مسئله‌ی انتخاب بردارهای ویژگی مناسب جهت بهبود نتایج خوشه‌بندی پیشنهاد گردید. در روش پیشنهادی آن‌ها شایستگی هر یک از بردارهای با استفاده از تابع چگالی احتمال هر بردار تخمین زده می‌شود. وزنی به بردارهایی که امتیاز لازم را به دست آورندگ، اختصاص یافته و برای خوشه‌بندی از آن‌ها استفاده می‌شود. در کاری دیگر که توسط ژائو [64] انجام شده است، هر یک از بردارهای ویژه به ترتیب حذف می‌شوند و مقدار آنتروپی مجموعه بردارهای باقی‌مانده محاسبه می‌شود. برداری که حذف آن منجر به افزایش آنتروپی و ایجاد بی‌نظمی بیشتر در مجموعه داده شود، اهمیت بیشتری داشته و در رتبه بالاتری قرار می‌گیرد. سپس زیرمجموعه‌ای از مناسب‌ترین بردارها برای خوشه‌بندی مورد استفاده قرار می‌گیرند. الگوریتم خوشه‌بندی طیفی دارای متدهای متفاوتی جهت پیاده‌سازی است، که الگوریتم‌های برش نرمال، NJW، SLH وPF از آن جمله می‌باشد. در تمامی این روش‌ها، بخش اول، یعنی تولید گراف، مشترک می‌باشد. ما در ادامه ابتدا به بررسی بخش مشترک این روش‌ها می‌پردازیم. سپس به تشریح دو روش پر کاربرد برش نرمال و NJW می‌پردازیم.
در الگوریتم خوشه‌بندی طیفی، افراز داده‌ها بر اساس تجزیه‌ی ماتریس شباهت و به دست آوردن بردارها و مقادیر ویژه‌ی آن صورت می‌گیرد. مجموعه‌ی با داده‌یبعدی را در نظر بگیرید، می‌توان برای این مجموعه گراف وزن‌دار و بدون جهت را ساخت به صورتی که رئوس گراف نشان‌دهنده داده و یال‌ها که ماتریس شباهت را تشکیل می‌دهند بیانگر میزان شباهت بین هر جفت داده متناظر باشند. ماتریس شباهت به صورت رابطه 2-9 تعریف می‌شود:
(2-9)
تابع میزان شباهت بین دو داده را اندازه می‌گیرد. می‌تواند یک تابع گوسی به صورت باشد. که در آن فاصله‌ی بین دو نمونه را نشان می‌دهد و پارامتر مقیاس سرعت کاهش تابع با افزایش فاصله بین دو نمونه را مشخص می‌کند. در ادامه به بررسی دو الگوریتم خوشه‌بندی طیفی برش نرمال و NJW می‌پردازیم.
2-2-1-2-3-1. الگوریتم برش نرمالالگوریتم برش نرمال توسط شی و ملیک [35] برای قطعه‌بندی تصاویر ارائه شده است. در این روش، میزان تفاوت بین خوشه‌های مختلف و شباهت بین اعضا یک خوشه، بر اساس فاصله‌ی داده‌ها محاسبه می‌کند. رابطه 2-10 اشاره به مفهوم شباهت داده دارد که با استفاده از آن اقدام به ساخت گراف وزن‌دار می‌نماییم:
(2-10)
موقعیت i-امین داده (پیکسل در تصاویر) و بردار ویژگی از صفات داده (مانند روشنایی در تصاویر) می‌باشد. با کمک حد آستانه می‌توان میزان تنکی ماتریس شباهت را با توجه به تعداد اثرگذار داده‌های همسایه تعیین کرد. گام‌های این الگوریتم به صورت زیر می‌باشد:
محاسبه ماتریس درجه.
محاسبه ماتریس لاپلاسین.
محاسبه دومین بردار ویژگی متناظر با دومین کوچک‌ترین مقدار ویژه.
استفاده از برای خوشه‌بندی (قطعه‌بندی در تصاویر) گراف.
روش برش نرمال بیشتر در قطعه‌بندی تصاویر کاربرد دارد و معمولاً در خوشه‌بندی داده از سایر الگوریتم‌های خوشه‌بندی طیفی استفاده می‌کنند.
2-2-1-2-3-2. الگوریتم NJWایده الگوریتم استفاده از اولین بردار ویژه متناظر با بزرگ‌ترین مقدار ویژه ماتریس لاپلاسین است. مراحل این الگوریتم به صورت زیر می‌باشد: [51]
ساخت ماتریس شباهت با استفاده از رابطه 2-9.
محاسبه ماتریس درجه، و ماتریس لاپلاسین.
به دست آوردن اولین بردار ویژه متناظر با اولین بزرگ‌ترین مقدار ماتریسو تشکیل ماتریس ستونی.
نرمال سازی مجدد و تشکیل به طوری که همه سطرهای آن طول واحد داشته باشد.
خوشه‌بندی مجموعه داده بازنمایی شده با استفاده از.

2-2-1-2-4. الگوریتم خوشه‌بندی کاهشیالگوریتم خوشه‌بندی کاهشی یکی از سریع‌ترین الگوریتم‌های تک گذر، برای تخمین تعداد خوشه و مراکز آن‌ها در مجموعه‌ی داده می‌باشد. این مفهوم یعنی به جای تحت تأثیر قرار گرفتن محاسبات از ابعاد مسئله، متناسب با اندازه مسئله آن را انجام دهیم. با این وجود، مراکز واقعی خوشه الزاماً یکی از نقاط داده موجود در مجموعه داده نیست ولی در بیشتر موارد این انتخاب تخمین خوبی است که به صورت ویژه از این رویکرد در محاسبات کاهشی استفاده می‌شود. اگر هر نقطه از مجموعه داده به عنوان گزینه‌ای برای مرکز خوشه در نظر گرفته شود، معیار تراکم هر نقطه به صورت زیر تعریف می‌شود [79].
(2-11)
در رابطه بالا یک ثابت مثبت است، که نشان‌دهنده‌ی شعاع همسایگی (سایر نقاط داده که نزدیک‌ترین نقاط به این داده خاص هستند) می‌باشد، و نشان‌دهنده‌ی سایر داده‌های مجموعه، و نشان‌دهنده‌ی تعداد این داده‌ها است. از این روی، داده‌ای دارای بیش‌ترین مقدار تراکم می‌باشد که بیش‌ترین نقاط داده در همسایگی آن است. اولین مرکز خوشه بر اساس بزرگ‌ترین مقدار تراکم انتخاب می‌شود. بعد از این انتخاب میزان تراکم هر یک از نقاط داده به صورت زیر به‌روز می‌شود [79].
(2-12)
در رابطه بالا ثابت مثبت همسایگی را تعریف می‌کند که میزان کاهش تراکم قابل اندازه‌گیری را نشان می‌دهد. از آنجایی که نقاط داده در نزدیکی مرکز خوشه اول به طور قابل‌توجهی مقادیر چگالی را کاهش می‌دهند بعد از به‌روز کردن مقادیر تابع چگالی توسط رابطه بالا مرکز خوشه بعدی بر اساس داده‌ای که بزرگ‌ترین مقدار چگالی را دارد انتخاب می‌شود. این فرآیند آن قدر تکرار می‌شود تا به تعداد کافی مرکز خوشه ایجاد شود. پس از اتمام این فرآیند می‌توان توسط الگوریتم که مراکز داده در آن توسط فرآیند بالا به صورت دستی داده شده است (نه به صورت تصادفی)، داده‌ها را خوشه‌بندی کرد. شبه کد شکل زیر روند فرآیند بالا را نشان می‌دهد که در آن ابتدا مقادیر ثابت‌ها () و مجموعه داده به عنوان ورودی گرفته می‌شود و پس از ساخت مراکز داده مطابق با تعاریف بالا، این مراکز برای خوشه‌بندی در الگوریتم استفاده می‌شود [79].
Inputs Dataset, Constants
Output Clusters
Steps
1. Initialize constants and density values
2. Make a new cluster center.
3. Update density values
4. If the sufficient number of clusters are not obtained, go to 2.
3. Clustering the dataset by k-means, using fix centers.
شکل 2-11. خوشه‌بندی کاهشی
2-2-1-2-5. الگوریتم خوشه‌بندی Median K-Flatالگوریتم Median K-Flat یا به اختصار MKF مجموعه داده‌یرا به K خوشه‌ی افراز می‌کند که هر خوشه یک شبه فضای d-بُعدی تقریباً خطی می‌باشد. پارامتر‌ با فرض ماتریسی با ابعاد می‌باشد، که هر یک از خانه‌های آن تخمین شبه فضای خطی متعامد می‌باشد. قابل به ذکر است که می‌باشد. در این جا تخمین شبه فضای خوشه‌های را نام‌گذاری می‌کنیم. مطابق تعاریف بالا تابع انرژی برای افرازهای ‌ بر اساس شبه فضای به شکل زیر تعریف می‌شود [77].
(2-13)
این الگوریتم سعی می‌کند تا مجموعه داده را به خوشه‌های ‌تبدیل کند به نحوی که تابع انرژی کمینه باشد. تا وقتی که سطوح تخت اساسی به شکل شبه فضای خطی هستند ما می‌توانیم به صورت فرضی المان‌های X را در یک حوضه واحد نرمال کنیم به طوری که برای و تابع انرژی را به شکل زیر بیان کنیم: [77]
(2-14)
این الگوریتم برای کمینه‌سازی تابع انرژی الگوریتمMKF از روش کاهش گرادیان تصادفی استفاده می‌کند. مشتق تابع انرژی بر اساس ماتریس به شرح زیر است:
(2-15)
این الگوریتم نیاز به تطبیق بر اساس مؤلفه‌ی متعامد مشتق دارد. بخشی از مشتق که با شبه فضای موازی است به شرح زیر می‌باشد.
(2-16)
از این روی مؤلفه متعامد برابر است با رابطه 2-17 می‌باشد.
(2-17)
در رابطه بالا برابر با رابطه 2-18 است.
(2-18)
با در نظر گرفتن محاسبات بالا، الگوریتم MKF تصمیم می‌گیرد که داده تصادفی از مجموعه داده، عضو کدام باشد، و از این طریق شروع به چیدن داده‌ها می‌کند. آن گاه، الگوریتم تابع را به‌روز کند که در آن (مرحله زمانی) پارامتری است که توسط کاربر تعیین می‌شود. این فرآیند آن قدر تکرار می‌شود تا ضابطه همگرایی دیده شود. آنگاه هر نقطه از مجموعه داده به نزدیک‌ترین شبه فضای که تعیین‌کننده خوشه‌هاست اختصاص داده می‌شود. شبه کد زیر فرآیند الگوریتم MKF را نشان می‌دهد [77].
Input:
: Data, normalized onto the unit sphere, d: dimension of subspaces K: number of subspaces, the initialized subspaces. : step parameter.
Output: A partition of X into K disjoint clusters
Steps:
1. Pick a random point in X
2. Find its closest subspace , where
3. Compute by
4. Update
5. Orthogonalize
6. Repeat steps 1-5 until convergence
7. Assign each xi to the nearest subspace
شکل 2-12. شبه‌کد الگوریتم MKF [77]
2-2-1-2-6. الگوریتم خوشه‌بندی مخلوط گوسییک مخلوط گوسی یا همان را می‌توان ترکیب محدبی از چگالی‌های گوسی دانست. یک چگالی گوسی در فضای d-بُعدی به ازای میانگین، توسط ماتریس هم‌وردایی با ابعاد به صورت زیر تعریف می‌شود: [83]
(2-19)
در رابطه بالا پارامتر‌های و را تعریف می‌کند. از این روی مؤلفه به صورت زیر تعریف می‌شود:
(2-20)
در رابطه (2-20) پارامتر وزن مخلوط کردن و مؤلفه مخلوط می‌باشد. از آنجا که در مقایسه با تخمین چگالی غیر پارامتری، تعداد کمتری از توابع چگالی در تخمین چگالی مخلوط باید ارزیابی شود، از این روی ارزیابی چگالی کارآمدتر خواهد بود. علاوه بر آن، استفاده از اجرای محدودیت هموار کردن بر روی برخی از مؤلفه‌های مخلوط در نتیجه‌ی چگالی به ما اجازه می‌دهد تا چگالی مستحکم‌تری را تخمین بزنیم. الگوریتم حداکثر-انتظار یا همان به ما اجازه به‌روز کردن پارامتر‌های مؤلفه‌ی مخلوط را مطابق با مجموعه داده به ازای هر می‌دهد، به طوری که احتمال هرگز کوچک‌تر از مخلوط جدید نشود. به‌روز کردن الگوریتم می‌تواند در یک فرآیند تکراری برای تمامی مؤلفه‌های مطابق با رابطه‌های زیر انجام شود: [83]
(2-21)
(2-22)
(2-23)
(2-24)
در این تحقیق از روش پیشنهادی بومن و همکاران برای پیاده‌سازی الگوریتم مخلوط گوسی استفاده شده است. از آنجایی که روش پیاده‌سازی و توضیحات مربوط به الگوریتم مخلوط گوسی در روش ترکیب مبتنی بر مخلوط استفاده می‌شود از این روی در بخش روش‌های ترکیب نتایج با تابع توافقی آن را بررسی خواهیم کرد.
2-2-2. معیارهای ارزیابیدر یادگیری با ناظر ارزیابی راحت تر از یادگیری بدون ناظر است. برای مثال آن چیز که ما در رده‌بندی باید ارزیابی کنیم مدلی است که ما توسط داده‌های یادگیری به الگوریتم هوش مصنوعی آموزش داده‌ایم. در روش‌های با ناظر ورودی و خروجی داده معلوم است و ما بخشی از کل داده را برای آزمون جدا کرده و بخش دیگر را به عنوان داده یادگیری استفاده می‌کنیم و پس از تولید مدل مطلوب ورودی داده آزمون را در مدل وارد کرده و خروجی مدل را با خروجی واقعی می‌سنجیم. از این روی معیارهای بسیاری برای ارزیابی روش‌های با ناظر ارائه‌شده‌اند.
در یادگیری بدون ناظر روش متفاوت است. در این روش هیچ شاخص معینی در داده جهت ارزیابی وجود ندارد و ما به دنبال دسته‌بندی کردن داده‌ها بر اساس شباهت‌ها و تفاوت‌ها هستیم. از این روی برخلاف تلاش‌های خیلی از محققان، ارزیابی خوشه‌بندی خیلی توسعه داده نشده است و به عنوان بخشی از تحلیل خوشه‌بندی رایج نشده است. در واقع، ارزیابی خوشه‌بندی یکی از سخت‌ترین بخش‌های تحلیل خوشه‌بندی است [33]. معیارهای عددی، یا شاخص‌هایی که برای قضاوت جنبه‌های مختلف اعتبار یک خوشه به کار می روند، به سه دسته کلی تقسیم می‌شوند:
1- شاخص خارجی که مشخص می‌کند که کدام خوشه‌های پیداشده به وسیله الگوریتم خوشه‌بندی با ساختارهای خارجی تطبیق دارند. در این روش نیاز به اطلاعات اضافی مثل برچسب نقاط داده، داریم. آنتروپی یک مثالی از شاخص خارجی است.
2- شاخص داخلی که برای اندازه‌گیری میزان خوبی یک ساختار خوشه‌بندی بدون توجه به اطلاعات خارجی به کار می‌‌رود. یک نمونه از شاخص داخلی است.
3- شاخص نسبی که برای مقایسه دو خوشه‌بندی مختلف یا دو خوشه مختلف به کار می‌رود. اغلب یک شاخص خارجی یا داخلی برای این تابع استفاده می‌شود. برای مثال، دو خوشه‌بندی می‌توانند با مقایسه یا آنتروپی‌شان مقایسه شوند.
این فصل تعدادی از مهم‌ترین و رایج‌ترین روش‌های به‌کاررفته برای ارزیابی خوشه‌بندی را مرور خواهد کرد.
2-2-2-1. معیار SSEیک معیار داخلی ارزیابی خوشه‌بندی، مثل، می‌تواند برای ارزیابی یک خوشه‌بندی نسبت به خوشه‌بندی دیگر به کار رود. به علاوه، یک معیار داخلی اغلب می‌تواند برای ارزیابی یک خوشه‌بندی کامل یا یک خوشه تنها به استفاده شود. این اغلب به خاطر این است که این روش، سعی می‌کند تا میزان خوبی کلی خوشه‌بندی را به عنوان یک جمع وزن‌دار از خوبی‌های هر خوشه در نظر می‌گیرد. با استفاده از رابطه 2-25 محاسبه می‌شود [68].
(2-25)
کهیک نقطه داده در خوشه است و، j-امین ویژگی از داده X است. ، j-امین ویژگی از مرکز خوشه می‌باشد. برای مقایسه دو خوشه‌بندی مختلف روی یک داده با یک تعداد مشابه، تنها مقایسه مقدارهای متناظر آن‌ها کافی است. هر چه مقدار کمتر باشد، آن خوشه‌بندی بهتر خواهد بود. البته، وقتی تعداد نقاط داده در دو خوشه متفاوت باشند، مقایسه مستقیم از روی مقدار خوب نخواهد بود. بنابراین، یک خوشه معیار مناسب تری برای مقایسه است. رابطه 2-26 این معیار را نشان می‌دهد که در آن مقدار تعداد کل نمونه‌هاست [68].
(2-26)
تعداد درست خوشه‌ها در الگوریتم ، اغلب می‌تواند با استفاده از نگاه کردن به منحنی مشخص شود. این منحنی با رسم مقادیر به ازایهای مختلف به دست می‌آید. تعداد خوشه‌های بهینه با توجه به منحنی، ای است که به ازای آن نرخ کاهش مقدار، قابل چشم‌پوشی شود. شکل 2-13-ب منحنی را برای داده‌های شکل 2-13-الف، نشان می‌دهد.

(الف)
(ب)
شکل2-13. (الف) مجموعه داده با تعداد 10 خوشه واقعی. (ب) منحنی مربوطه [68]
همان طور که از شکل 2-13-ب برمی‌آید، برای مقادیرهای از صفر تا 10 شیب منحنی نسبت به بقیه مقادیر، تندتر می‌باشد. این امر نشان‌دهنده آن است که مقدار یک مقدار بهینه برای تعداد خوشه‌ها می‌باشد.

(الف)
(ب)
شکل2-14. (الف) مجموعه داده (ب) منحنی مربوطه [2]
شکل 2-14-ب نیز منحنی را برای داده‌های شکل 2-14-الف، نشان می‌دهد. مشاهده می‌شود که در این داده‌ها، چون تعداد خوشه‌ها نسبت به شکل 2-14-الف کاملاً گویا نیست، بنابراین، منحنی آن نیز نرم تر خواهد بود . اما با توجه به شکل 2-14-ب، می‌توان گفت که تعداد نسبتاً خوب باشد. چون منحنی برای های بعد از 8، دارای شیب کندتری خواهد شد. با توجه به نتایج فوق می‌توان گفت که اگرچه منحنی برای همه مسایل نمی‌تواند جواب بهینه برای تعداد بدهد، اما می‌تواند به عنوان یک معیار خوب برای این امر مطرح باشد.
2-2-2-2. معیار اطلاعات متقابل نرمال شدهمعیار اطلاعات متقابل () توسط کاور و توماس [71] معرفی شد که یک روش جهت اندازه‌گیری کیفیت اطلاعات آماری مشترک بین دو توزیع است. از آنجایی که این معیار وابسته به اندازه خوشه‌ها است در [54] روشی جهت نرمال سازی آن ارائه شده است. فرد و جین [19] روش نرمال سازی اطلاعات متقابل را اصلاح کردند و آن را تحت عنوان اطلاعات متقابل نرمال () ارائه داده‌اند. رابطه 2-27 اطلاعات متقابل نرمال شده را نشان می‌دهد[1, 2, 19] .
(2-27)
در رابطه 2-27 پارامتر کل نمونه‌ها است و یعنی افرازهایی که اندیس آن‌ها شامل i با تمام مقادیر j می‌باشد و یعنی افرازهایی که تمام مقادیر i با و اندیس j را شامل شود. از رابطه 2-28 محاسبه می‌شود [1, 2, 19].
(2-28)
, ,
در صورتی که دو افراز به صورت و که در آن کل داده و خوشه اول و خوشه دوم هر یک از افرازها باشد آنگاه نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد، نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد، نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد و نشان‌دهنده تعداد نمونه‌های مشترک موجود در و می‌باشد. در واقع و به ترتیب بیانگر کل نمونه‌های موجود در و می‌باشد [1].
شکل 2-15 دو افراز اولیه را نشان می‌دهد که میزان پایداری برای هر کدام از خوشه‌های به دست آمده هم محاسبه شده است. در این مثال الگوریتم به عنوان الگوریتم خوشه‌بندی اولیه انتخاب شده است و تعداد خوشه‌های اولیه برابر با سه نیز به عنوان پارامتر آن از قبل مشخص شده است. همچنین، در این مثال تعداد افرازهای موجود در مجموعه مرجع برابر با ۴۰ می‌باشد. در ۳۶ افراز نتایجی مشابه با شکل 2-15 (a) و در 4 حالت باقیمانده نیز نتایجی مشابه با شکل 2-15 (a) حاصل شده است [1].

شکل2-15. دو افراز اولیه با تعداد سه خوشه. (a) خوشه‌بندی درست (b) خوشه‌بندی نادرست [1]
از آن جایی که در مجموعه مرجع در ۹۰ % مواقع، داده‌های متراکم گوشه بالا‐چپ از شکل 2-15 در یک خوشه مجزا گروه‌بندی شده‌اند، بنابراین این خوشه باید مقدار پایداری بالایی را به خود اختصاص دهد. اگرچه این مقدار نباید دقیقاً برابر با یک باشد (چون در همه موارد این خوشه درست تشخیص داده نشده است)، مقدار پایداری با روش متداول اطلاعات متقابل نرمال شده مقدار یک را بر می‌گرداند. از آن جایی که ادغام دو خوشه سمت راست تنها در ۱۰ % موارد مانند شکل 2-15 (b) اتفاق افتاده است، خوشه حاصل باید مقدار پایداری کمی به دست آورد. اگر چه خوشه حاصل از ادغام دو خوشه سمت راستی، به ندرت ( ۱۰ % موارد) در مجموعه مرجع دیده شده است، مقدار پایداری برای این خوشه نیز برابر با یک به دست می‌آید. در اینجا مشکل روش متداول محاسبه پایداری با استفاده از اطلاعات متقابل نرمال شده ظاهر می‌شود. از آنجایی که معیار اطلاعات متقابل نرمال شده یک معیار متقارن است، مقدار پایداری خوشه بزرگ ادغامی سمت راست (با ۱۰ % تکرار) دقیقاً برابر با میزان پایداری خوشه متراکم گوشه بالا‐چپ (با ۹۰ % تکرار) به دست می‌آید. به عبارت دیگر در مواردی که داده‌های دو خوشه مکمل یکدیگر باشند، یعنی اجتماع داده‌های آن‌ها شامل کل مجموعه داده شود و اشتراک داده‌های آن‌ها نیز تهی باشد، مقدار پایداری برای هر دو به یک اندازه برابر به دست می‌آید. از دیدگاه دیگر، این اتفاق زمانی رخ می‌دهد که تعداد خوشه‌های تشکیل‌دهنده مجموعه در خوشه‌بندی مرجع عددی بیشتر از یک باشد. هر زمان که با ادغام دو یا بیشتر از خوشه‌ها به دست آید، منجر به نتایج نادرست در مقدار پایداری می‌شود. ما این مشکل را تحت عنوان مشکل تقارن در اطلاعات متقابل نرمال شده می‌شناسیم. در سال‌های اخیر روش‌هایی جهت حل این مشکل ارائه‌شده‌اند که یکی از آن‌ها را علیزاده و همکاران در [1, 9]ارائه داده‌اند که در‌ آن بزرگ‌ترین خوشه از بین مجموعه مرجع (که بیش از نصف نمونه‌هایش در خوشه مورد مقایسه وجود دارد) جایگزین اجتماع همه خوشه‌ها می‌شود که ما آن را با عنوان روش Max می‌شناسیم. روش دیگر جهت رفع این مشکل معیار APMM می‌باشد. در ادامه به بررسی این معیار می‌پردازیم [1, 8, 67].
2-2-2-3. معیار APMMبر خلاف معیارکه برای اندازه‌گیری شباهت دو افراز طراحی شده است معیار روشی برای اندازه‌گیری میزان شباهت یک خوشه در یک افراز است که توسط عـلیزاده و همکاران [8, 67] معرفی شده است رابطه 2-29 این معیار را معرفی می‌کند.
(2-29)
در رابطه 2-29 پارامتر خوشه i-ام در افراز می‌باشد و افراز متناظر با خوشه در خوشه‌بندی است. پارامتر تعداد کل نمونه‌های مجموعه داده و تعداد نمونه‌های مشترک بین خوشه‌های و می‌باشد. همچنین، تعداد خوشه‌های موجود در افراز می‌باشد. در این روش برای محاسبه پایداری خوشه از رابطه 2-30 استفاده می‌کنیم [8, 67].
(2-30)
در رابطه 2-30 پارامتر نشان‌دهنده j-امین افراز از مجموعه مرجع است و تعداد کل افرازها است [8, 67]. از آنجایی که این معیار برای ارزیابی شباهت یک خوشه است می‌توان هم برای ارزیابی خوشه و هم برای ارزیابی افراز استفاده کرد. جهت استفاده از این معیار برای ارزیابی یک افراز کافی است آن را برای تک‌تک خوشه‌های آن افراز استفاده کنیم و در نهایت از کل مقادیر میانگین بگیریم.
2-۳. خوشه‌بندی ترکیبیکلمه’Ensemble‘ ریشه فرانسوی دارد و به معنی باهم بودن یا در یک زمان می‌باشد و معمولاً اشاره به واحدها و یا گروه‌های مکملی دارد که باهم در اجرای یک کار واحد همکاری می‌کنند. ترکیب تاریخ طولانی در دنیای واقعی دارد، نظریه هیئت‌منصفه ی کندورست که در سال 1785 میلادی مطرح شده است و این ایده را مطرح می‌کند که، احتمال نسبی درستی نظر گروهی از افراد (رأی اکثریت) بیشتر از نظر هر یک از افراد به تنهایی می‌باشد را می‌توان دلیلی برای ترکیب نتایج در دنیای واقعی دانست [10, 27]. خوشه‌بندی ترکیبی روشی جدید در خوشه‌بندی می‌باشد که از ترکیب نتایج روش‌های خوشه‌بندی متفاوت به دست می‌آید از آنجایی که اکثر روش‌های خوشه‌بندی پایه روی جنبه‌های خاصی از داده‌ها تاکید می‌کنند، در نتیجه روی مجموعه داده‌های خاصی کارآمد می‌باشند. به همین دلیل، نیازمند روش‌هایی هستیم که بتواند با استفاده از ترکیب این الگوریتم‌ها و گرفتن نقاط قوت هر یک، نتایج بهینه‌تری را تولید کند. هدف اصلی خوشه‌بندی ترکیبی جستجوی نتایج بهتر و مستحکم‌تر، با استفاده از ترکیب اطلاعات و نتایج حاصل از چندین خوشه‌بندی اولیه است [18, 54]. خوشه‌بندی ترکیبی می‌تواند جواب‌های بهتری از نظر استحکام، نو بودن، پایداری و انعطاف‌پذیری نسبت به روش‌های پایه ارائه دهد [3, 21, 54, 57]. به طور خلاصه خوشه‌بندی ترکیبی شامل دو مرحله اصلی زیر می‌باشد : [34, 54]
1- تولید نتایج متفاوت از خوشه‌بندی‌ها، به عنوان نتایج خوشه‌بندی اولیه بر اساس اعمال روش‌های مختلف که این مرحله را، مرحله ایجاد تنوع یا پراکندگی می‌نامند.

user8254

جدول 3-5: فیلدهای استخراج شده از داده های خسارت28
جدول 3-6: نتایج نمودار boxplot31
جدول 3-7: انواع داده استفاده شده33
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف37
جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted Records)38
جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth55
جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori55
جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means57
اجرا برای 9 خوشه در الگوریتم K-Means60
جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی69
جدول 4-1: مقایسه الگوریتم های دسته بند70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم70
جدول 4-3: ماتریس آشفتگی قانون شماره 171
جدول 4-4: ماتریس آشفتگی قانون شماره 272
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج73
عنوان صفحه
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز76
جدول 4-12: ماتریس آشفتگی قانون شماره 476
جدول 4-13: ماتریس آشفتگی قانون شماره 577
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب78
جدول 4-16: ماتریس آشفتگی قانون شماره778
جدول 4-17: ماتریس آشفتگی قانون شماره879
جدول 4-18: مقایسه الگوریتم های خوشه بندی79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori81

فهرست شکل‌ها
عنوان صفحه
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی42
شکل 3-8: نمودار AUC الگوریتم KNN42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree49
شکل 3-17 : نمودار --ial الگوریتم Meta Decision Tree49
شکل 3-18: نمودار AUC الگوریتم Wj4850
شکل 3-19 : نمودار tree الگوریتم Wj4851
شکل 3-20 : نمودار AUC الگوریتم Random forest52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest53
عنوان صفحه
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه57
شکل 3-24 : Predictor Importance for K-Means58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
K-Means59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-60
شکل 3-27 : Predictor Importance for Kohonen61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
Kohonen62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen63
شکل 3-31 : Predictor Importance for دوگامی64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در
الگوریتم دوگامی65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت75
فصل اول
194500518986500
مقدمه
شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد.
از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد. پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006].
عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند.
بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است.
با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد.
امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند.
داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است.
تعریف داده کاوی XE "تعریف داده کاوی" XE "تعریف داده کاوی"
داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012].
انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند:
1-جدا سازی داده مفید از داده بیگانه
2-یکپارچه سازی داده های مختلف تحت یک قالب واحد
3-انتخاب داده لازم از میان دیگر داده ها
4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین
5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی
6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها
7-انتشار دانش استخراج شده به کاربران نهایی
تعریف بیمهبیمه: بیمه عقدی است که به موجب آن یک طرف تعهد می کند در ازاء پرداخت وجه یا وجوهی از طرف دیگر در صورت وقوع یا بروز حادثه خسارت وارده بر او را جبران نموده یا وجه معینی بپردازد. متعهد را بیمه گر طرف تعهد را بیمه گذار وجهی را که بیمه گذار به بیمه گر می پردازد حق بیمه و آنچه را که بیمه می شود موضوع بیمه نامند]ماده یک قانون بیمه مصوب 7/2/1316[.
هدف پایان نامهدر این پژوهش سعی شده است با استفاده از تکنیکهای داده کاوی اقدام به شناسایی فاکتورهای تاثیر گذار در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه نموده و ضریب تاثیر آنها را بررسی نماییم. الگوریتم های استفاده شده در این پژوهش شامل دسته بند ها، خوشه بند ها، درخت های تصمیم و قوانین انجمنی بوده است.
مراحل انجام تحقیقدر این پایان نامه با استفاده از روشهای داده کاوی با استفاده از بخشی از داده های صدور و خسارت یک سال شرکت بیمه مدل شده و از روی آنها یک الگو ساخته می شود. در واقع به این طریق به الگوریتم یاد داده می شود که ارتباطات بین داده ها، منجر به چه نتایجی می شود. سپس بخشی از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ایجاد شده داده می شود ونتایج توسط معیارهای علمی مورد ارزیابی قرار میگیرند. بمنظور آزمایش عملکرد می توان داده های دیگری به مدل داده شود و نتایج حاصله با نتایج واقعی موجود مقایسه شوند.
ساختار پایان نامهاین پایان نامه شامل چهارفصل خواهد بود که فصل اول شامل یک مقدمه و ضرورت پژوهش انجام شده و هدف این پژوهش است. در فصل دوم برخی تکنیک های داده کاوی و روشهای آن مطرح و تحقیقاتی که قبلا در این زمینه انجام شده مورد بررسی قرار می گیرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوی مورد استفاده در این پایان نامه می پردازیم و با کمک تکنیک های داده کاوی مدل هایی ارائه می شود و مدلهای ارائه شده درهرگروه با یکدیگر مقایسه شده و بهترین مدل از میان آنها انتخاب می گردد. در فصل چهارم مسائل مطرح شده جمع بندی شده و نتایج حاصله مطرح خواهند شد و سپس تغییراتی که در آینده در این زمینه می توان انجام داد پیشنهاد می شوند.

فصل دوم
193548028194000
ادبیات موضوع و تحقیقات پیشیندر این فصل ابتدا مروری بر روشهای داده کاوی خواهیم داشت سپس به بررسی تحقیقات پیشین می پردازیم.
داده کاوی و یادگیری ماشینداده کاوی ترکیبی از تکنیک های یادگیری ماشین، تشخیص الگو، آمار، تئوری پایگاه داده و خلاصه کردن و ارتباط بین مفاهیم و الگوهای جالب به صورت خودکار از پایگاه داده شرکتهای بزرگ است. هدف اصلی داده کاوی کمک به فرآیند تصمیم گیری از طریق استخراج دانش از داده هاست [Alpaydin 2010].
هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روشهای آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با استفاده از روشهای تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد[Koh & Gervis 2010] . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] .
داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. [Patil et. al 2012 ]. داده کاوی یافتن اطلاعات بامعنای خاص ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند [Han and Kamber 2001] .
1-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار
2-یکپارچه سازی داده: ترکیب منابع داده گوناگون
3-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده
4-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش
5-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی
6- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند
7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری [Lin & Yeh 2012] .
ابزارها و تکنیک های داده کاویبا توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. [Bolton & Hand 2002] در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران 1392[ .
روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روشهای آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرآیند داده کاوی حجم داده زیادی وجود داشته باشد.
در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روشهای میانگین گیری )ماهیانه، سالیانه و . . . (، روشهای محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد.
هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرآیند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند.
قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روشهای تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد [Gupta 2006].
روشهای داده کاوی عمده روشهای داده کاوی عبارتند از روشهای توصیف داده ها، روشهای تجزیه و تحلیل وابستگی، روشهای دسته بندی و پیشگویی، روشهای خوشه بندی، روشهای تجزیه و تحلیل نویز.
می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر نیزشناخته می شوند. روش های دسته بندی، رگرسیون و تشخیص انحراف از روشهای یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی و مجموعه داده های آزمایشی تقسیم می شود که با استفاده از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است.
یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته می شوند ]صنیعی آباده 1391[.

روشهای توصیف داده هاهدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روشهای داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود [Sirikulvadhana 2002] .
روشهای تجزیه و تحلیل وابستگی هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد[Gupta 2006] . یکی از روشهای متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند.
روشهای دسته بندی و پیشگویی
دسته بندی یک فرآیند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرآیند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه، بیز ساده و SVM است [Kumar and Verna 2012].
یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم.
PCA=PAC PCPAرگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود.
درخت تصمیمدرخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست [Patil et. al 2012] . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.

2-3-5-شبکه عصبیروش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد [Gupta 2006] . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد [P--han et. al 2011 ] .
2-3-6- استدلال مبتنی بر حافظهتوانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرآیند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود.
از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرآیند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند.
باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. [Tan et al 2006] . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود [Wilson and Martinez 1997] .
2-3-7-ماشین های بردار پشتیبانیSVM اولین بار توسط Vapnik در سال 1990 معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است [Ristianini and Shawe 2000] .
SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است [Kumar and Verna 2012] .
رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند.
2-3-8-روشهای خوشه بندی هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است که در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود [Osmar 1999] .
2-3-9- روش K-Meansیکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید[Xindong et al 2007].
2-3-10-شبکه کوهننشبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد.
2-3-11-روش دو گاماین روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با استفاده از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند.
2-3-12-روشهای تجزیه و تحلیل نویزبعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود [Osmar 1999].
دسته های نامتعادل]صنیعی آباده 1391[.
مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند.
در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود:
راهکار مبتنی بر معیار
راهکار مبتنی بر نمونه برداری
راهکار مبتنی بر معیاردر دسته بندی شایع ترین معیار ارزیابی کارایی دسته بند، معیار دقت دسته بندی است. در معیار دقت دسته بندی فرض بر یکسان بودن ارزش رکوردهای دسته های مختلف دسته بندی است. در راهکار مبتنی بر معیار بجای استفاده از معیار دقت دسته بندی از معیارهایی بهره برداری می شود که بتوان بالاتر بودن ارزش دسته های نادر و کمیاب را در آنها به نحوی نشان داد. بنابراین با لحاظ نمودن معیارهای گفته شده در فرآیند یادگیری خواهیم توانست جهت یادگیری را به سمت نمونه های نادر هدایت نماییم. از جمله معیارهایی که برای حل مشکل عدم تعادل دسته ها بکار می روند عبارتند از Recall, Precession, F-Measure, AUC و چند معیار مشابه دیگر.
2-4-2-راهکار مبتنی بر نمونه بردارینمونه برداری یکی از راهکارهای بسیار موثربرای مواجهه با مشکل دسته های نامتعادل است. ایده اصلی نمونه برداری آن است که توزیع نمونه ها را به گونه ای تغییر دهیم که دسته کمیاب به نحو پررنگ تری در مجموعه داده های آموزشی پدیدار شوند. سه روش برای این راهکار وجود دارد که عبارتند از:
الف- نمونه برداری تضعیفی:
در این روش نمونه برداری، توزیع نمونه های دسته های مساله به گونه ای تغییر می یابند که دسته شایع به شکلی تضعیف شود تا از نظرفراوانی با تعداد رکوردهای دسته نادر برابری کند. به این ترتیب هنگام اجرای الگوریتم یادگیری، الگوریتم ارزشی مساوی را برای دو نوع دسته نادر و شایع درنظر می گیرد.
ب- نمونه برداری تقویتی:
این روش درست برعکس نمونه برداری تضعیفی است. بدین معنی که نمونه های نادر کپی برداری شده و توزیع آنها با توزیع نمونه های شایع برابر می شود.
ج- نمونه برداری مرکب:
در این روش از هردو عملیات تضعیفی و تقویتی بصورت همزمان استفاده میشود تا توزیع مناسب بدست آید.
در این پژوهش با توجه به کمتر بودن نسبت نمونه نادر یعنی منجر به خسارت شده به نمونه شایع از روش نمونه برداری تضعیفی استفاده گردید که کل تعداد نمونه ها به حدود 3 هزار رکورد تقلیل پیدا کرد و توزیع نمونه ها به نسبت مساوی بوده است. شایان ذکر است این نمونه برداری پس از انجام مرحله پاک سازی داده ها انجام شد که خود مرحله پاکسازی با عث تقلیل تعداد نمونه های اصلی نیز گردیده بود.
پیشینه تحقیقسالهاست که محققان در زمینه بیمه و مسائل مرتبط با آن به تحقیق پرداخته اند و از جمله مسائلی که برای محققان بیشتر جذاب بوده است می توان به کشف تقلب اشاره کرد.
Brockett و همکاران [Brockett et. al 1998] ابتدا به کمک الگوریتم تحلیل مولفه های اصلی (PCA) به انتخاب ویژگی ها پرداختند و سپس با ترکیب الگوریتم های خوشه بندی و شبکه های عصبی به کشف تقلبات بیمه اتومبیل اقدام کردند. مزیت این کار ترکیب الگوریتمها و انتخاب ویژگی بوده که منجر به افزایش دقت خروجی بدست آمده گردید.
Phua و همکاران [ Phua et. al 2004] با ترکیب الگوریتم های شبکه های عصبی پس انتشاری ، بیزساده و درخت تصمیم c4.5 به کشف تقلب در بیمه های اتومبیل پرداختند.نقطه قوت این کار ترکیب الگوریتم ها بوده اما بدلیل عدم کاهش ویژگی ها و کاهش ابعاد مساله میزان دقت بدست آمده در حد اعلی نبوده است.
Allahyari Soeini و همکاران [Allahyari Soeini et. al 2012] نیز یک متدلوژی با استفاده از روشهای داده کاوی خوشه بندی ودرخت تصمیم برای مدیریت مشتریان ارائه دادند. از ایرادات این روش میتوان عدم استفاده از الگوریتم های دسته بندی و قوانین انجمنی را نام برد.
مورکی علی آباد ] مورکی علی‌آباد1390[ تحقیقی داشته است که اخیراً در زمینه بیمه صورت گرفته و درمورد طبقه‌بندی مشتریان صنعت بیمه با هدف شناسایی مشتریان بالقوه با استفاده از تکنیک‌های داده‌کاوی (مورد مطالعه: بیمه‌گذاران بیمه آتش‌سوزی شرکت بیمه کارآفرین (که هدف آن دسته بندی مشتریان صنعت بیمه بر اساس میزان وفاداری به شرکت، نوع بیمه نامه های خریداری شده، موقعیت جغرافیایی مکان های بیمه شده و میزان جذب به شرکت بیمه در بازه زمانی 4 سال گذشته بوده است. روش آماری مورد استفاده از تکنیک های داده کاوی نظیر درخت تصمیم و دسته بندی بود. این تحقیق نیز چون نمونه آن قبلا انجام شده بوده از الگوریتم های متفاوت استفاده نکرده است. همچنین سعی بر بهبود تحقیق قبلی نیز نداشته است. وجه تمایز این تحقیق با نمونه قبلی استفاده از ویژگی های متفاوت بوده است.
عنبری ]عنبری 1389[ نیز پژوهشی در خصوص طبقه بندی ریسک بیمه گذاران در رشته بیمه بدنه اتومبیل با استفاده از داده کاوی داشته است که هدف استفاده از داده های مربوط به بیمه نامه بدنه از کل شرکتهای بیمه (بانک اطلاعاتی بیمه خودرو) بوده و سعی بر آن شده است تا بررسی شود که آیا میتوان بیمه گذاران بیمه بدنه اتومبیل را از نظر ریسک طبقه بندی کرد؟ و آیا درخت تصمیم برای طبقه بندی بیمه گذاران بهترین ابزار طبقه بندی می باشد؟ و آیا سن و جنسیت از موثرترین عوامل در ریسک بیمه گذار محسوب می شود؟ نتایج این طبقه بندی به صورت درخت تصمیم و قوانین نشان داده شده است. ونتایج حاصل از صحت مدل درخت تصمیم با نتایج الگوریتم های شبکه عصبی و رگرسیون لجستیک مورد مقایسه قرار گرفته است. از مزیت های این تحقیق استفاده از الگوریتم های متفاوت و مقایسه نتایج حاصله برای بدست آوردین بهترین الگوریتم ها بوده است.
رستخیز پایدار]رستخیز پایدار 1389[ تحقیقی دیگر در زمینه بخش بندی مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) داشته است. با استفاده از مفاهیم شبکه خود سازمانده بخش بندی بر روی مشتریان بیمه بدنه اتومبیل بر اساس ریسک صورت گرفت. در این تحقیق عوامل تأثیرگذار بر ریسک بیمه گذاران طی دو مرحله شناسایی گردید. در مرحله اول هیجده فاکتور ریسک در چهار گروه شامل مشخصات جمعیت شناختی، مشخصات اتومبیل، مشخصات بیمه نامه و سابقه راننده از بین مقالات علمی منتشر گردیده در ژورنال های معتبر در بازه سال های 2000 الی 2009 استخراج گردید و در مرحله دوم با استفاده از نظرسنجی از خبرگان فاکتورهای نهایی تعیین گردید. مشتریان بیمه بدنه اتومبیل در این تحقیق با استفاده از شبکه های عصبی خودسازمانده به چهار گروه مشتریان با ریسک های متفاوت بخش بندی گردیدند. مزیت این تحقیق استفاده از نظر خبرگان بیمه بوده و ایراد آن عدم استفاده از ویژگی های بیشتر و الگوریتم های انتخاب ویژگی بوده است.
ایزدپرست  ]ایزدپرست1389[ همچنین تحقیقی در مورد ارائه چارچوبی برای پیش بینی خسارت مشتریان بیمه بدنه اتومبیل با استفاده از راهکار داده کاوی انجام داده است که چارچوبی برای شناسایی مشتریان بیمه بدنه اتومبیل ارائه می‌گردد که طی آن میزان خطرپذیری مشتریان پیش‌بینی شده و مشتریان بر اساس آن رده‌بندی می‌گردند. در نتیجه با استفاده از این معیار (سطح خطرپذیری) و نوع بیمه‌نامه مشتریان، میتوان میزان خسارت آنان را پیش‌بینی کرده و تعرفه بیمه‌نامه متناسب با ریسک آنان تعریف نمود. که این مطلب می‌تواند کمک شایانی برای شناسایی مشتریان و سیاستگذاری‌های تعرفه بیمه نامه باشد. در این تحقیق از دو روش خوشه‌بندی و درخت‌تصمیم استفاده می‌گردد. در روش خوشه‌بندی مشتریان بر اساس ویژگی هایشان در خوشه هایی تفکیک شده، سپس میانگین سطح خسارت در هر یک از این خوشه‌ها را محاسبه میکند. حال مشتریان آتی با توجه به اینکه به کدامیک از این خوشه‌ها شبیه تر هستند در یکی از آنها قرار می‌گیرند تا سطح خسارتشان مشخص گردد. در روش درخت‌تصمیم با استفاده از داده‌های مشتریان، درختی را بر اساس مجموعه‌ای از قوانین که بصورت "اگر-آنگاه" می‌باشد ایجاد کرده و سپس مشتریان جدید با استفاده از این درخت رده‌بندی می‌گردند. در نهایت هر دو این مدلها مورد ارزیابی قرار می‌گیرد. ایراد این روش در عدم استفاده از دسته بند ها بوده است. چون ماهیت تحقیق پیش بینی بوده است استفاده از دسته بند ها کمک شایانی به محقق در تولبد خروجی های حذاب تر می کرد.
خلاصه فصلعمده پژوهشهایی که درخصوص داده های بیمه ای صورت گرفته کمتر به سمت پیش بینی سود و زیان شرکتهای بیمه بوده است. در موارد مشابه نیزپیش بینی خسارت مشتریان انجام شده که هدف دسته بندی مشتریان بوده است. موضوع این پژوهش اگرچه از نوع همسان با تحقیقات گفته شده است اما در جزئیات بیمه شخص ثالث را پوشش می دهد که درکشور ما یک بیمه اجباری تلقی می شود. همچنین تعداد خصیصه هایی که در صدور یا خسارت این بیمه نامه دخالت دارند نسبت به سایر بیمه های دیگر بیشتر بوده ضمن اینکه بررسی سود یا زیان بیمه شخص ثالث با استفاده از دانش نوین داده کاوی کارتقریبا جدیدی محسوب می شود.

فصل سوم
2087880229743000
شرح پژوهشدر این فصل هدف بیان مراحل انجام این پژوهش و تحلیل خروجی های بدست آمده می باشد.

انتخاب نرم افزاردر اولین دهه آغاز به کار داده کاوی و در ابتدای امر، هنوز ابزار خاصی برای عملیات کاوش وجود نداشت و تقریبا نیاز بود تا تمامی تحلیل گران، الگوریتمهای موردنظر داده کاوی و یادگیری ماشین را با زبان های برنامه نویسی مانند c یا java یا ترکیبی از چند زبان پیاده سازی کنند. اما امروزه محیط های امکان پذیر برای این امر، با امکانات مناسب و قابلیت محاوره گرافیکی زیادی را می توان یافت]صنیعی آباده 1391[.
Rapidminerاین نرم افزار یک ابزار داده کاوی متن باز است که به زبان جاوا نوشته شده و از سال 2001 میلادی تا به حال توسعه داده شده است. در این نرم افزار سعی تیم توسعه دهنده بر این بوده است که تا حد امکان تمامی الگوریتم های رایج داده کاوی و همچنین یادگیری ماشین پوشش داده شوند. بطوری که حتی این امکان برای نرم افزار فراهم شده است تا بتوان سایر ابزارهای متن باز داده کاوی را نیز به آن الحاق نمود. رابط گرافیکی شکیل و کاربر پسند نرم افزار نیز آن را یک سرو گردن بالاتر از سایر ابزارهای رقیب قرار میدهد]صنیعی آباده 1391[.
مقایسه RapidMiner با سایر نرم افزار های مشابهدر اینجا دو نرم افزار مشهور متن باز را با RapidMiner مقایسه خواهیم کرد و معایب و مزایای آنها را بررسی می کنیم.
الف-R
یک زبان برنامه نویسی و یک پکیج داده کاوی به همراه توابع آماری است و بر پایه زبان های s و scheme پیاده سازی شده است. این نرم افزار متن باز، حاوی تکنیک های آماری مانند: مدل سازی خطی و غیرخطی، آزمون های کلاسیک آماری، تحلیل سری های زمانی، دسته بندی، خوشه بندی، و همچنین برخی قابلیت های گرافیکی است. R را می توان در محاسبات ماتریسی نیز بکار برد که این امر منجر به استفاده از آن در علم داده کاوی نیز می شود.
-مزایا:
شامل توابع آماری بسیار گسترده است.
بصورت بسیارمختصر قادر به حل مسائل آماری است.
دربرابر سایر نرم افزار های مرسوم کار با آرایه مانند Mathematica, PL, MATLAB, LISP/Scheme قدرت مند تر است.
با استفاده از ویژگی Pipeline قابلیت ترکیب بالایی را با سایر ابزارها و نرم افزارها دارد.
توابع نمودار مناسبی دارد.
-معایب:
فقدان واسط کاربری گرافیک
فقدان سفارشی سازی لزم جهت داده کاوی
ساختار زبانی کاملا متفاوت نسبت به زبان های برنامه نویسی مرسوم مانندc, PHP, java, vb, c#.
نیاز به آشنایی با زبانهای آرایه ای
قدیمی بودن این زبان نسبت به رقبا. این زبان در 1990 ساخته شده است.
ب- Scipy
یک مجموعه از کتابخانه های عددی متن باز برای برنامه نویسی به زبان پایتون است که برخی از الگوریتم های داده کاوی را نیز پوشش می دهد.
-مزایا
برای کاربردهای ریاضی مناسب است.
عملیات داده کاوی در این نرم افزار چون به زبان پایتون است راحت انجام می شود.
-معایب
الگوریتم های یادگیری مدل در این کتابخانه هنوز به بلوغ کامل نرسیده اند و درحال تکامل هستند.
برای پیاده سازی الگوریتم های داده کاوی توسط این ابزار باید از ترکیب های متفاوت آنچه در اختیار هست استفاده کرد.
ج-WEKA
ابزار رایج و متن باز داده کاوی است که کتابخانه های آماری و داده کاوی بسیاری را شامل میشود. این نرم افزار بوسیله جاوا نوشته شده است و در دانشگاه وایکاتو در کشور نیوزلند توسعه داده شده است.
-مزایا
دارای بسته های فراوان یادگیری ماشین.
دارای نمای گرافیکی مناسب.
مشخصا به عنوان یک ابزار داده کاوی معرفی شده است.
کار کردن با آن ساده است.
اجرای همزمان چندین الگوریتم و مقایسه نتایج.
همانطور که مشخص شد weka در مقابل دیگر نرم افزار های بیان شده به لحاظ قدرت و کاربر پسندی به Rapidminer نزدیک تر است و شباهت های زیادی به هم دارند زیرا که:
هردو به زبان جاوا نوشته شده اند.
هردو تحت مجوزGPL منتشر شده اند.
Rapidminer بسیاری از الگوریتمهای weka را در خود بارگذاری میکند.
اما weka معایبی نسبت به Rapidminer دارد از جمله اینکه:
در اتصال به فایلهای حاوی داده Excel و پایگاه های داده که مبتنی بر جاوا نیستند ضعیف عمل میکند.
خواندن فایلهای csv به شکل مناسبی سازماندهی نشده است.
به لحاظ ظاهری در رده پایینتری قرار دارد.
در نهایت بعد از بررسی های انجام شده حتی در میان نرم افزار های غیرمتن باز تنها ابزاری که کارایی بالاتری از Rapidminer داشت statistica بود که متن باز نبوده و استفاده از آن نیازمند تقبل هزینه آن است]صنیعی آباده 1391[.
در یازدهمین و دوازدهمین بررسی سالانه KDDnuggets Data Mining / Analytics رای گیری با طرح این سوال که کدام ابزار داده کاوی را ظرف یک سال گذشته برای یک پروژه واقعی استفاده کرده ایددر سال 2010 از بین 912 نفر و در سال 2011 ازبین 1100 نفر انجام شد. توزیع رای دهندگان بدین صورت بوده است:
اروپای غربی 37%
آمریکای شمالی 35%
اروپای شرقی 10%
آسیا 6%
اقیانوسیه 4%
آمریکای لاتین 4%
آفریقا و خاورمیانه %4
نتایج به شرح جدول 3-1 بوده است :
جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی
2011 Vote 2010 Vote Software name
37. 8% 27. 7% Rapidminer
29. 8% 23. 3% R
24. 3% 21. 8% Excel
12. 1% 13. 6% SAS
18. 4% 12. 1% Your own code
19. 2% 12. 1% KNIMe
14. 4% 11. 8% WEKA
1. 6% 10. 6% Salford
6. 3% 8. 5% Statistica
همانطور که نتایج رای گیری مشخص میکند نرم افزار Rapidminer بیشترین استفاده کننده را دارد.
در این پایان نامه نیز عملیات داده کاوی توسط این نرم افزار انجام می شود. ناگفته نماند در قسمتهایی از نرم افزار minitab و Clementine12 نیز برای بهینه کردن پاسخ بدست آمده و بالابردن کیفیت نتایج استفاده شده است.

داده ها داده های مورد استفاده در این پژوهش شامل مجموعه بیمه نامه های شخص ثالث صادر شده استان کهگیلویه و بویراحمد در سال 1390 شمسی بوده که بیمه نامه های منجر شده به خسارت نیز در این لیست مشخص گردیده اند. تعداد کل رکوردها حدود 20 هزار رکورد بوده که از این تعداد تقریباً 7. 5 درصد یعنی حدود 1500 رکوردمنجر به خسارت گردیده اند.
3-2-1- انتخاب دادهداده مورد استفاده در این پژوهش شامل دو مجموعه داده به شرح زیر بوده است:
صدور: اطلاعات بیمه نامه های صادره
خسارت: جزئیات خسارت پرداختی ازمحل هر بیمه نامه که خسارت ایجاد کرده
3-2-2-فیلدهای مجموعه داده صدور
این فیلدها در حالت اولیه 137 مورد به شرح جدول 3-2 بوده است.
3-2-3-کاهش ابعاد
در این پژوهش بخاطر موثرنبودن فیلدهایی اقدام به حذف این مشخصه ها کرده و فیلدهای موثر نهایی به 42 فیلد کاهش یافته که به شرح جدول 3-3 بدست آمده اند. کاهش ابعاد میتواند شامل حذف فیلدهای موثر که دارای اثر بسیار ناچیز درمقابل دیگر فیلدها است نیز باشد.
جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
1 بیمه‌نامه 33 مدت بیمه 65 تعهدمازاد
2 سال‌صدوربیمه‌نامه 34 زمان‌شروع 66 کدنوع‌تعهدسرنشین
3 رشته‌بیمه 35 شغل‌بیمه‌گذار 67 میزان‌تعهدسرنشین
4 نمایش سند 36 سن‌بیمه‌گذار 68 حق‌بیمه‌ثالث‌قانونی
5 مکانیزه 37 سال‌کارت 69 ثالث قانونی+تعدددیات
6 دستی 38 سریال‌کارت 70 حق‌بیمه‌بند4
7 وب‌بنیان 39 کدوسیله‌نقلیه 71 حق‌بیمه‌ماده1


8 نام‌استان 40 کدزیررشته‌آمار 72 حق‌بیمه‌مازاد
9 نام‌شعبه 41 نوع‌وسیله‌نقلیه 73 حق‌بیمه‌سرنشین
10 کدشعبه 42 سیستم 74 مالیات
11 شعبه‌محل‌صدور 43 سال ساخت 75 مازادجانی
12 شعبه 44 رنگ 76 حق‌بیمه‌مازادمالی
13 نمایندگی‌محل‌صدور 45 شماره‌شهربانی 77 عوارض‌ماده92
14 کددولتی 46 شماره‌موتور 78 حق‌بیمه‌دریافتی
15 نمایندگی 47 شماره‌شاسی 79 tadodflg
16 دولتی 48 تعدادسیلندر 80 حق‌بیمه‌تعددخسارت
17 صادره‌توسط شعبه 49 کدواحدظ‌رفیت 81 جریمه‌بیمه‌مرکزی
18 کارمندی 50 ظرفیت 82 حق‌بیمه‌صادره‌شعبه
19 کدصادره‌توسط شعبه 51 شرح‌مورداستفاده 83 حق‌بیمه‌صادره‌نمایندگی
20 سریال‌بیمه‌نامه 52 یدک‌دارد؟ 84 کداضافه‌نرخ‌حق‌بیمه
21 شماره‌بیمه‌نامه 53 اتاق‌وسیله‌نقلیه 85 اضافه‌نرخ‌ثالث
22 نام‌بیمه‌گذار 54 نوع‌پلاک 86 اضافه‌نرخ‌بند4
23 آدرس‌بیمه‌گذار 55 جنسیت 87 اضافه‌نرخ‌مازاد
24 تلفن‌بیمه‌گذار 56 کدنوع‌بیمه‌نامه 88 تعدددیات
25 کدسازمان 57 نوع‌بیمه 89 اضافه‌نرخ‌تعدددیات
26 نام‌سازمان 58 بیمه‌نامه‌سال‌قبل 90 اضافه‌نرخ‌ماده‌یک
27 کدنوع‌بیمه 59 انقضاسال‌قبل 91 دیرکردجریمه
28 cbrn. cod 60 بیمه‌گرقبل 92 کدملی‌بیمه‌گذار
29 نوع‌بیمه 61 شعبه‌قبل 93 صادره‌توسط شعبه
30 تاریخ‌صدور 62 خسارت‌داشته‌؟ 94 نوع‌مستند1
31 تاریخ‌شروع 63 تعهدمالی 95 شماره‌مستند1
32 تاریخ‌انقضا 64 تعهدبدنی 96 تاریخ‌مستند1
ادامه جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
97 مبلغ‌مستند1 111 تخفیف ایمنی 125 کداقتصادی
98 شماره‌حساب1 112 سایرتخفیف ها 126 کدملی
99 بانک1 113 ملاحظات 127 تاریخ‌ثبت
100 نوع‌مستند2 114 نام‌کاربر 128 کدشعبه‌صادرکننده‌اصلی
101 شماره‌مستند2 115 تاریخ‌سند 129 کدنمایندگی‌صادرکننده‌اصلی
102 تاریخ‌مستند2 116 کدشهربانی 130 کدسازمان‌صادرکننده‌اصلی
103 مبلغ‌مستند2 117 شعبه‌محل‌نصب 131 سال
104 شماره‌حساب2 118 کدمحل‌نصب 132 ماه
105 بانک2 119 دستی/مکانیزه 133 نوع
106 تخفیف‌نرخ‌اجباری 120 تیک‌باحسابداری 134 crecno
107 تخفیف‌نرخ‌اختیاری 121 سال‌انتقال 135 type_ex
108 تخفیف عدم خسارت 122 ماه‌انتقال 136 updflg
109 تخفیف صفرکیلومتر 123 sysid 137 hsab_sync
110 تخفیف گروهی 124 trsid کداقتصادی
جدول شماره 3-3: فیلدهای نهایی داده های صدور
ردیف نام فیلد ردیف نام فیلد ردیف نام فیلد
1 ماه 15 تعهدمازاد 29 تاریخ‌شروع
2 سال 16 تعهدبدنی 30 تاریخ‌صدور
3 کدنمایندگی‌صادرکننده‌اصلی 17 تعهدمالی 31 نام‌سازمان
4 تخفیف گروهی 18 بیمه‌نامه‌سال‌قبل 32 شماره‌بیمه‌نامه
5 تخفیف عدم خسارت 19 نوع‌بیمه 33 کارمندی
6 نوع‌مستند1 20 نوع‌پلاک 34 صادره‌توسط شعبه
7 دیرکردجریمه 21 شرح‌مورداستفاده 35 دولتی
8 کداضافه‌نرخ‌حق‌بیمه 22 ظرفیت 36 نمایندگی‌محل‌صدور
9 حق‌بیمه‌دریافتی 23 تعدادسیلندر 37 خسارتی؟
10 عوارض‌ماده92 24 سال ساخت 38 مبلغ خسارت
11 مالیات 25 سیستم 39 تاریخ ایجادحادثه
12 حق‌بیمه‌سرنشین 26 نوع‌وسیله‌نقلیه 40 بیمه گر زیاندیده اول
13 حق‌بیمه‌مازاد 27 مدت بیمه 41 تعداد زیاندیدگان مصدوم
14 حق‌بیمه‌ثالث‌قانونی 28 تاریخ‌انقضا 42 تعداد زیاندیدگان متوفی
در کاهش ابعاد این مساله برای حذف فیلدهای مختلف نظرات کارشناسان بیمه نیز لحاظ شده است. جدول 3-4 فیلدهای حذف شده و علت حذف آنها را بیان کرده است.
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها
نام فیلد حذف شده علت حذف
Crecno-type_ex-updflg-hsab_sync-کدمحل‌نصب-دستی/مکانیزه-تیک‌باحسابداری-سال‌انتقال-ماه‌انتقال-sysid-trsid-کدزیررشته آمار-نمایش سند-مکانیزه-دستی-وب‌بنیان-Cbrn. cod کاربرد آماری
نوع-کد شعبه صادرکننده-شعبه محل نصب-کدشهربانی-سایرتخفیف ها-تخفیف ایمنی-تخفیف صفر کیلومتر-تخفیف نرخ اختیاری-تخفیف نرخ اجباری-خسارت داشته؟-شعبه قبل-جنسیت-کد نوع بیمه نامه-یدک دارد-
اتاق وسیله نقلیه-سن بیمه گذار-شغل بیمه گذار-زمان شروع-کد نوع بیمه دارای مقدار یکسان یا null
کد سازمان صادر کننده-کد نوع تعهد سرنشین-کدواحدظرفیت-کد وسیله نقلیه-کد سازمان-کد صادره توسط-نمایندگی-کد دولتی بجای این کد از فیلد اسمی معادل آن استفاده شده است و یا برعکس زیرا در نتایج خروجی قابل فهم تر خواهد بود.
تاریخ ثبت-تاریخ سند-بیمه گر قبل-مبلغ -مستند 1و2-اضافه‌نرخ‌ثالث-4اضافه‌نرخ‌بند-
اضافه‌نرخ‌مازاد-میزان تعهد سرنشین-تعدددیات-اضافه‌نرخ‌تعدددیات-اضافه‌نرخ‌ماده‌یک-تاریخ مستند1و2-شماره -حساب 1و2-بانک1و2 دارای مقدار تکراری
کدملی-بیمه نامه-کداقتصادی-نوع مستند2-
شماره مستند1و2-نام کاربر-ملاحظات-
کدملی بیمه گذار-شماره شاسی-شماره موتور-
شماره شهربانی-سریال کارت-سال کارت-
نام‌استان-نام‌شعبه-کدشعبه-شعبه‌محل‌صدور
شعبه-سال‌صدوربیمه‌نامه-رشته‌بیمه-رنگ-تلفن بیمه گذار-نام بیمه گذار-آدرس بیمه گذار-سریال بیمه نامه بدون تاثیر
حق‌بیمه‌تعددخسارت-جریمه‌بیمه‌مرکزی-
حق‌بیمه‌صادره‌شعبه-حق‌بیمه‌صادره‌نمایندگی-
مازادجانی-حق‌بیمه‌مازادمالی-حق بیمه ماده1-
حق بیمه ماده4-ثالث قانونی + تعدد دیات- انقضا سال قبل بخشی از فیلد انتخاب شده
جدول 3-5: فیلدهای استخراج شده از داده های خسارت
مبلغ خسارت
تاریخ ایجادحادثه
بیمه گر زیاندیده اول
تعداد زیاندیدگان مصدوم
تعداد زیاندیدگان متوفی
3-2-4- فیلدهای مجموعه داده خسارتاز مجموعه داده خسارت فقط فیلدهای مشخص کننده میزان خسارت و جزئیات لازم استخراج شده است. متاسفانه اطلاعات مفید تری مثل سن راننده مقصر، میزان تحصیلات و. . . در این مجموعه داده وجود نداشته است و چون هنگام ثبت خسارت برای یک بیمه نامه از اطلاعات کلیدی داده های صدور استفاده می شود، با توجه به اینکه از مرحله قبل مهمترین فیلدهای داده های صدور را در دسترس داریم بنابراین با ادغام فیلدهای خسارت و صدور به اطلاعات جامعی در خصوص یک بیمه نامه خاص دسترسی خواهیم داشت. مشخصه ها استخراج شده از داده های خسارت طبق جدول 3-5 است.

3-2-5-پاکسازی داده هاداده ها در دنیای واقعی ممکن است دارای خطا، مقادیر از دست رفته، مقادیر پرت و دورافتاده باشند [Jiawei Han, 2010]. در مرحله پاکسازی با توجه به نوع داده ممکن است یک یا چند روش پاکسازی بر روی داده اعمال شود.
3-2-6- رسیدگی به داده های از دست رفتهدر این قسمت از کار اقدام به رفع Missing data نموده که خود مرحله مهمی از پاکسازی داده بحساب می آید. در مرحله ابتدایی با مرتب سازی تمام ویژگی های قابل مرتب سازی در نرم افزار Microsoft Excel اقدام به کشف مقادیر از دست رفته کرده و از طریق دیگر ویژگی های هر رکورد مقدار از دست رفته را حدس زده ایم. همچنین درحین انتقال داده به محیط داده کاوی مقادیر از دست رفته نیز مشخص می گردند. در بعضی موارد بدلیل تعداد زیاد ویژگی های از دست رفته اقدام به حذف کامل رکورد نمودیم. این کار برای زمانی که داده ها در حجم انبوهی وجود دارند مفید واقع میشوند اما زمانی که تعداد رکوردها کم می باشد اجتناب از این عمل توصیه می شود. برای ویژگی نوع بیمه که از نوع چند اسمی بوده است فقط دو مقدار"کارمندی" و "عادی" وجود داشته که تعداد 49 مورد فاقد مقدار بوده است. کل تعداد بیمه کارمندی 27 مورد بوده است. با توجه به کم بودن تعداد داده های ازدست رفته این فیلد و پس از مقایسه نام بیمه گذاران با اسم کارمندان مشخص شد هیچ کدام از موارد فوق کارمندی نبوده و همه از نوع عادی بوده اند.
از جمله فیلدهای دارای مقادیر از دست رفته و روش رفع ایراد آنها عبارتند از:
سیستم*** 70 مورد***تشخیص با توجه به دیگر ویژگی ها
نوع وسیله نقلیه***33مورد***تشخیص با توجه به دیگر ویژگی ها
شرح مورد استفاده***11مورد***تشخیص با توجه به دیگر ویژگی هاتعدادسیلندر***2مورد***تشخیص با توجه به دیگر ویژگی ها
دولتی***28 مورد***تشخیص از روی پلاک
ماه***130 مورد***تشخیص از روی تاریخ صدور
نوع بیمه***49مورد***تشخیص از روی نام بیمه گذار
تعداد رکوردهایی که مقادیرازدست رفته در چند ویژگی مهم را داشته اند و حذف شده اند حدود 350 مورد بوده است.
3-2-7-کشف داده دور افتادهبعضی از مقادیر بسته به نوع داده علی رغم پرت تشخیص داده شدن مقادیر صحیحی می باشند. بنابراین حذف اینگونه داده ها برای کاستن پیچیدگی مساله میتواند موجب حذف قوانین مهمی در الگوریتم های مبتنی برقانون یا درختهای تصمیم شود. پس بررسی خروجی الگوریتم توسط یک فردخبره در موضوع مساله می تواند مانع از این اتفاق شود. نوع برخورد با داده پرت میتواند شامل حذف داده پرت، تغییر مقدار، حذف رکورد و در مواردی حذف مشخصه باشد.
برای تشخیص داده پرت از نمودار boxplot نرم افزار minitab 15 استفاده گردید. در این نمودار از مفهوم درصدک استفاده میشود که داده های بین 25% تا 75% که به ترتیب با Q1 و Q3 نشان داده می شوند مهم ترین بخش داده ها هستند. X50% نیز میانه را نشان می دهد و با یک خط در وسط نمودار مشخص می شود. Interquartile range (IQR) نیز مفهوم دیگری است که برابر است با IQR = Q3-Q1 .
مقادیر بیشتر از Q3 + [(Q3 - Q1) X 1. 5] و کمتر از Q1 - [(Q3 - Q1) X 1. 5]داده پرت محسوب می شوند. برای انجام اینکار نمودار boxplot را روی تک تک مشخصه های داده ها به اجرا در آورده و نتایج مطابق جدول 3-6 حاصل گردید.
جدول 3-6: نتایج نمودار boxplot
نام فیلد محاسبه مقادیر پرت توضیحات
تعداد زیاندیدگان متوفی Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقدار 1و2 نشان داده شده صحیح می باشد
تعداد زیاندیدگان مصدوم Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 1و2و3 نشان داده شده صحیح می باشد
بیمه گر زیاندیده اول Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقدار 1و2و3و. . . نشان داده شده صحیح می باشد و عدد 99 مقداری صحیح است که به معنی ندارد استفاده میگردد
مبلغ خسارت Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مبلغ خسارت 1.658.398.000 ریال و 900.000.000 ریال واقعا پرداخت گردیده است
تعداد سیلندر Q1=4, Q3=4, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=4
Q1 - [(Q3 - Q1) X 1. 5]=4مقدار 5 به عنوان تعداد سیلندر ناصحیح می باشد
ظرفیت Q1=5, Q3=5, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=5
Q1 - [(Q3 - Q1) X 1. 5]=5 مقادیر بین 1 تا 96 ظرفیتهای منطقی بر اساس تناژ یا سرنشین بوده و صحیح است اما مقدار 750 نا صحیح است
نوع پلاک Q1=3, Q3=3, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=3
Q1 - [(Q3 - Q1) X 1. 5]=3 مقادیر با مفهوم بوده و دور افتاده نیست
بیمه نامه سال قبل Q1=1, Q3=1, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=1
Q1 - [(Q3 - Q1) X 1. 5]=1 مقادیر عددی 0 یا 1 به معنی داشتن یا نداشتن بوده و صحیح است
تعهدات مالی Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه ثالث قانونی Q1=1992600, 3=3332500, IQR=1339900
Q3 + [(Q3 - Q1) X 1. 5]=5342350
Q1 - [(Q3 - Q1) X 1. 5]=17250 مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه مازاد Q1=0, Q3=9100, IQR=9100
Q3 + [(Q3 - Q1) X 1. 5]=22750
Q1 - [(Q3 - Q1) X 1. 5]=13650 مقادیر با مفهوم بوده و دور افتاده نیست
دیرکرد جریمه Q1=0, Q3=0, IQR=0
Q3 + [(Q3 - Q1) X 1. 5]=0
Q1 - [(Q3 - Q1) X 1. 5]=0 مقادیر با مفهوم بوده و دور افتاده نیست
تخفیف عدم خسارت Q1=610080, Q3=1495200, IQR=885120
Q3 + [(Q3 - Q1) X 1. 5]=2822880
Q1 - [(Q3 - Q1) X 1. 5]=717600 مقادیر با مفهوم بوده و دور افتاده نیست
3-2-8-انبوهش دادهبا ادغام کردن داده های صدور و خسارت به خلق ویژگیهای جدیدی دست زده ایم. چون داده ها در دو فایل جدا گانه بوده و حجم داده زیاد بوده است برای ادغام از پرس و جوی نرم افزار Microsoft Access استفاده شد. برای تشخیص بیمه نامه های خسارت دیده از فیلد شماره بیمه نامه که در هردوفایل مشترک بود استفاده کردیم.
3-2-9- ایجاد ویژگی دستهدر این مرحله پس از ادغام ویژگی های مختلف اقدام به ایجاد یک فیلد برای تمام رکوردهایی که منجر به خسارت شده اند می نماییم. این فیلد در الگوریتمهای دسته بندی مورد استفاده قرار خواهد گرفت. برای انجام این کار از یک پر و جوی Microsoft Access استفاده میکنیم.
3-2-10-تبدیل دادهجهت استفاده کاربردی تر از برخی ویژگی ها باید مقادیر آن ویژگی تغییر کند. یک نمونه از این کار تغییر مقدار ویژگی " دیرکرد جریمه " است. مقدار این فیلد مبلغ جریمه دیرکرد بیمه گذار بوده است که با تقسیم این مبلغ به عدد 13000 تعداد روزهای تاخیر در تمدید بیمه نامه افراد مشخص می شود، زیرا به ازای هر روز تاخیر مبلغی حدود 13000ریال در سال 1390 به عنوان جریمه دیرکرد از فرد متقاضی بیمه نامه دریافت می گردید.
3-2-11-انتقال داده به محیط داده کاویپس از انجام پاکسازی، داده باید به محیط داده کاوی منتقل شود. در خلال این انتقال نیاز به تعریف و یا تغییر نوع داده وجود دارد. در طول این تغییر داده ممکن است مقادیری از داده ها بدلیل ناسازگاری و یا دلایل مشابه به عنوان داده از دست رفته مشخص گردد و یا داده از دست رفته ای که قبلاً قابل تشخیص نبوده مشخص گردد. (شکل 3-1)

شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی
3-2-12-انواع داده تعیین شده
پس از انتقال داده به محیط داده کاوی، هر ویژگی به نوع خاصی از داده توسط نرم افزار تشخیص داده شد. پس از آن نوع داده تشخیصی مورد بررسی قرار گرفت و اشتباهات پیش آمده تصحیح گردیدند. همچنین گروهی از ویژگی ها که به هیچ نوع داده ای اختصاص داده نشده بود بصورت دستی به بهترین نوع ممکن اختصاص داده شد. چون برخورد الگوریتم ها با انواع داده ها متفاوت است با توجه به موضوع پژوهش بهترین نوع داده که بتواند نسبت به الگوریتم موثرترواقع شود برای هر ویژگی درنظر گرفته شد.
جدول نوع داده های مورد استفاده در این پژوهش به شرح جدول 3-7 است:
جدول 3-7: انواع داده استفاده شده
نام فیلد نوع فیلد
ماه-سال-کدنمایندگی‌صادرکننده‌اصلی- تعداد زیاندیدگان مصدوم- نوع‌پلاک- ظ‌رفیت- تعدادسیلندر- سال ساخت- مدت بیمه- نمایندگی‌محل‌صدور- تعداد زیاندیدگان متوفی-حق‌بیمه‌ثالث‌قانونی-تعهدمازاد-تعهدبدنی-تعهدمالی Integer
- نوع‌بیمه- شرح‌مورداستفاده- بیمه گر زیاندیده اول نوع‌مستند1- سیستم نوع‌وسیله‌نقلیه- نام‌سازمان-دولتی polynominal
دیرکردجریمه-کداضافه‌نرخ‌حق‌بیمه-حق‌بیمه‌دریافتی-عوارض‌ماده92-مالیات-حق‌بیمه‌سرنشین-حق‌بیمه‌مازاد- تخفیف گروهی-تخفیف عدم خسارت- مبلغ خسارت real
بیمه‌نامه‌سال‌قبل- کارمندی- صادره‌توسط شعبه- خسارتی؟ binominal
تاریخ‌انقضا-تاریخ‌شروع-تاریخ‌صدور- تاریخ ایجادحادثه date
شماره‌بیمه‌نامه text
3-2-13-عملیات انتخاب ویژگیهای موثرتردر برخورد با برخی از الگوریتمها که با بیشتر شدن تعداد ویژگی پیچیدگی بیشتری نیز پیدا میکنند، مانند درختهای تصمیم، svm، Regression و شبکه های عصبی باید از ویژگی های کمتری استفاده کنیم. درکل انتخاب ویژگی برای استفاده در الگوریتم های دسته بندی تکنیک کارآمدی است. دراینجا ازتکنیکهای کاهش ویژگی و یا وزن دهی استفاده کرده و فیلدهای منتخبی که وزن بیشتری را دارند به عنوان ورودی الگوریتمها انتخاب گردیدند.
با توجه به اینکه احتمال ارزش دهی به یک ویژگی در تکنیکهای مختلف متغیر است و ممکن است ویژگی خاصی توسط یک تکنیک باارزش قلمداد شده و توسط تکنیکی دیگر بدون ارزش تلقی شود، نتیجه تمام تکنیکها Union, شده و فیلدهای حاصل به عنوان ورودی الگوریتم مشخص گردید.
3-3-نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی
نتایج حاصل از این تکنیک ها در شکل های 3-2 الی3-5 نمایش داده شده است.

شکل 3-2: نتایج الگوریتمPCA
در ارزشدهی به ویژگی ها

شکل 3-3: نتایج الگوریتم SVM Weighting
در ارزشدهی به ویژگی ها

شکل 3-4: نتایج الگوریتم
Weighting Deviation در ارزشدهی به ویژگی ها

شکل 3-5: نتایج الگوریتم Weighting Correlation
در ارزشدهی به ویژگی ها
3-4-ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگیلازم به توضیح است در تمام الگوریتمهایی که از 24 ویژگی جدول 3-8 استفاده شده است از تمام ویژگی ها نیز استفاده شده و نتایج با هم مقایسه گردیده اند و مشخص شد که وجود برخی ویژگی ها که در آن جدول قرار ندارند باعث کاهش دقت الگوریتم شده و در برخی الگوریتم ها نیز تفاوتی میان دو مقایسه مشخص نشد.
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف
نام فیلد نوع فیلد
تعهدمازاد- تعهدبدنی- تعهدمالی- نوع‌پلاک- ظ‌رفیت- تعدادسیلندر- سال ساخت- مدت بیمه- تعداد زیاندیدگان مصدوم- تعداد زیاندیدگان متوفی Integer
شرح‌مورداستفاده- سیستم- نوع‌وسیله‌نقلیه- بیمه گر زیاندیده اول polynominal
دیرکردجریمه- کداضافه‌نرخ‌حق‌بیمه- حق‌بیمه‌دریافتی- مالیات- حق‌بیمه‌سرنشین- حق‌بیمه‌ثالث‌قانونی- مبلغ خسارت real
بیمه‌نامه‌سال‌قبل- کارمندی- صادره‌توسط شعبه binominal
3-5-معیارهای ارزیابی الگوریتمهای دسته بندیدر این بخش توضیحاتی درخصوص چگونگی ارزیابی الگوریتم های دسته بندی و معیار های آن ارائه خواهد شد.
3-6-ماتریس درهم ریختگیماتریس در هم ریختگی چگونگی عملکرد دسته بندی را با توجه به مجموعه داده ورودی به تفکیک نشان میدهد که:
TN: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم نیز دسته آنها را به درستی منفی تشخیص داده است.
FP: تعدادرکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم دسته آنها را به اشتباه مثبت تشخیص داده است.
FN: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم دسته آنها را به اشتباه منفی تشخیص داده است.
TP: تعدادرکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم نیز دسته آنها را به درستی مثبت تشخیص داده است.
جدول 3-9: ماتریس در هم ریختگی
رکوردهای تخمینی(Predicted Records)
دسته+ دسته- FP TN دسته-
TP FN دسته+
1903095210185رکوردهای واقعی(Actual Records)
00رکوردهای واقعی(Actual Records)

مهمترین معیار برای تعیین کارایی یک الگوریتم دسته بندی معیاردقت دسته بندی است. این معیارنشان می دهد که چند درصد ازکل مجموعه رکوردهای آموزشی بدرستی دسته بندی شده است.
دقت دسته بندی بر اساس رابطه زیر محاسبه می شود:
CA=TN+TPTN+FN+TP+FP3-7-معیار AUCاین معیار برای تعیین میزان کارایی یک دسته بند بسیار موثر است. این معیار نشان دهنده سطح زیر نمودار ROC است. هرچقدرعدد AUC مربوط به یک دسته بند بزرگتر باشد، کارایی نهایی دسته بند مطلوب تر است. در ROC نرخ تشخیص صحیح دسته مثبت روی محور Y و نرخ تشخیص غلط دسته منفی روی محورX رسم میشود. اگر هر محور بازه ای بین 0و1 باشد بهترین نقطه در این معیار (0, 1) بوده و نقطه (0, 0) نقطه ای است که دسته بند مثبت و هشدار غلط هیچگاه تولید نمی شود.
3-8-روشهای ارزیابی الگوریتم های دسته بندیدر روشهای یادگیری با ناظر، دو مجموعه داده مهم به اسم داده های آموزشی و داده های آزمایشی وجود دارند. چون هدف نهایی داده کاوی روی این مجموعه داده ها یافتن نظام حاکم بر آنهاست بنابراین کارایی مدل دسته بندی بسیار مهم است. از طرف دیگر این که چه بخشی از مجموعه داده اولیه برای آموزش و چه بخشی به عنوان آزمایش استفاده شود بستگی به روش ارزیابی مورد استفاده دارد که در ادامه انواع روشهای مشهور را بررسی خواهیم کرد]صنیعی آباده 1391[.
روش Holdoutدر این روش چگونگی نسبت تقسیم مجموعه داده ها بستگی به تشخیص تحلیلگر داشته اما روش های متداول ازنسبت 50-50 و یا دو سوم برای آموزش و یک سوم برای آزمایش و ارزیابی استفاده میکنند.
مهم ترین حسن این روش سادگی و سرعت بالای عملیات ارزیابی می باشد اما معایب این روش بسیارند. اولین ایراد این روش آن است که بخشی از مجموعه داده اولیه که به عنوان داده آزمایشی است، شانسی برای حضور در مرحله آموزش ندارد. بدیهی است مدلی که نسبت به کل داده اولیه ساخته می شود، پوشش کلی تری را بر روی داده مورد بررسی خواهد داشت. بنابراین اگر به رکوردهای یک دسته در مرحله آموزش توجه بیشتری شود به همان نسبت در مرحله آزمایش تعدادرکوردهای آن دسته کمتر استفاده می شوند.
دومین مشکل وابسته بودن مدل ساخته شده به، نسبت تقسیم مجموعه داده ها است. هرچقدر داده آموزشی بزرگتر باشد، بدلیل کوچکتر شدن مجموعه داده آزمایشی دقت نهایی برای مدل یادگرفته شده غیرقابل اعتماد تر خواهد بود. و برعکس با جابجایی اندازه دو مجموعه داده چون داده آموزشی کوچک انتخاب شده است، واریانس مدل نهایی بالاتربوده و نمی توان دانش کشف شده را به عنوان تنها نظم ممکن درمجموعه داده اولیه تلقی کنیم.
روش Random Subsamplingاگر روش Holdout را چند مرتبه اجرا نموده و از نتایج بدست آمده میانگین گیری کنیم روش قابل اعتماد تری را بدست آورده ایم که Random Subsampling نامیده می شود.
ایراد این روش عدم کنترل بر روی تعداد استفاده از یک رکورد در آموزش یا ارزیابی می باشد.
3-8-3-روش Cross-Validationاگر در روش Random Subsampling هرکدام از رکوردها را به تعداد مساوی برای یادگیری و تنها یکبار برای ارزیابی استفاده کنیم روشی هوشمندانه تر اتخاذ کرده ایم. این روش در متون علمی Cross-Validation نامیده می شود. برای مثال مجموعه داده را به دوقسمت آموزش و آزمایش تقسیم میکنیم و مدل را بر اساس آن می سازیم. حال جای دوقسمت را عوض کرده و از مجموعه داده آموزش برای آزمایش و از مجموعه داده آزمایش برای آموزش استفاده کرده و مدل را می سازیم. حال میانگین دقت محاسبه شده به عنوان میانگین نهایی معرفی می شود. روش فوق 2-Fold Cross Validation نام دارد. اگر بجای 2 قسمت مجموعه داده به K قسمت تقسیم شود، و هر بار با K-1 قسمت مدل ساخته شود و یک قسمت به عنوان ارزیابی استفاده شود درصورتی که این کار K مرتبه تکرار شود بطوری که از هر قسمت تنها یکبار برای ارزیابی استفاده کنیم، روش K-Fold Cross Validation را اتخاذ کرده ایم. حداکثر مقدار k برابر تعداد رکوردهای مجموعه داده اولیه است.
3-8-4-روش Bootstrapدر روشهای ارزیابی که تاکنون اشاره شدند فرض برآن است که عملیات انتخاب نمونه آموزشی بدون جایگذاری صورت می گیرد. درواقع یک رکورد تنها یکبار در یک فرآیند آموزشی شرکت داده می شود. اگر یک رکورد بیش از یک مرتبه در عملیات یادگیری مدل شرکت داده شود روش Bootstrap را اتخاذ کرده ایم. در این روش رکوردهای آموزشی برای انجام فرآیند یادگیری مدل ازمجموعه داده اولیه به صورت نمونه برداری با جایگذاری انتخاب خواهند شد و رکوردهای انتخاب نشده جهت ارزیابی استفاده می شود.
3-9-الگوریتمهای دسته بندیدر این بخش به اجرای الگوریتم های دسته بندی پرداخته و نتایج حاصل را مشاهده خواهیم کرد.
درالگوریتمهای اجرا شده از هر سه روش Holdout, k fold Validation, Bootstrap استفاده شده است و نتایج با هم مقایسه شده اند. در روشHoldout که در نرم افزار با نام Split Validation آمده است از نسبت استاندارد آن یعنی 70 درصد مجموعه داده اولیه برای آموزش و 30 درصد برای آزمایش استفاده شده است. برای k fold Validation مقدار k برابر 10 درنظر گرفته شده است که مقدار استانداردی است. در Bootstrap نیز مقدار تقسیم بندی مجموعه داده برابر 10 قسمت درنظر گرفته شده است. مقدار local random seed نیز برابر عدد 1234567890 می باشد که برای همه مدلها، نرم افزار از آن استفاده می کند مگر اینگه در مدل خاصی عدم استفاده از آن ویا تغییر مقدارموجب بهبود عملکرد الگوریتم شده باشد که قید میگردد. اشکال 3-6و3-7 چگونگی استفاده از یک مدل ارزیابی را در Rapidminer نشان می دهد.

شکل 3-6: نمای کلی استفاده از روشهای ارزیابی

شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی
الگوریتم KNNدر انتخاب مقدار k اعداد بین 1 تا 20 و همچنین اعداد 25 تا 100 با فاصله 5 آزمایش شدند. بهترین مقدار عدد 11 بوده است.
پس از اجرای الگوریتم، بهترین نتیجه مربوط به ارزیابی Split Validation با دقت91.23%بوده است. نمودار AUC آن در شکل 3-8 ترسیم شده است.
25768302223135آستانه قابل قبول
020000آستانه قابل قبول
716280-63500دسته مثبت
020000دسته مثبت

شکل 3-8: نمودار AUC الگوریتم KNN
الگوریتم Naïve Bayesاین الگوریتم پارامترخاصی برای تنظیم ندارد.
بهترین نتیجه مربوط به ارزیابی Split Validation با دقت 96.09% بوده است. نمودار AUC آن در شکل 3-9 ترسیم شده است.
22872701749425آستانه قابل قبول
020000آستانه قابل قبول
7689856985دسته مثبت
020000دسته مثبت

شکل 3-9: نمودار AUC الگوریتم Naïve Bayes
الگوریتم Neural Networkتکنیک شبکه عصبی استفاده، مدل پرسپترون چندلایه با 4 نرون در یک لایه نهان بوده است.
تنظیمات الگوریتم شبکه عصبی به شرح زیر بوده است:
Training cycles=500
Learning rate=0.3
Momentum=0.2
Local random seed=1992
چون این الگوریتم فقط از ویژگیهای عددی پشتیبانی می کند، از عملگرهای مختلفی برای تبدیل مقادیر غیرعددی به عدد استفاده شده است. به همین دلیل تنها از روش Split validation با نسبت 70-30برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام گرفت.
شکل3-10 عملیات انجام شده را نشان می دهد.

شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی
نتیجه اجرای الگوریتم Neural Network دقت 91.25%بوده ماتریس آشفتگی آن و نمودار AUC در شکل 3-11 رسم شده است.

29222702265680آستانه قابل قبول
020000آستانه قابل قبول
725170-55245دسته مثبت
020000دسته مثبت

شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net
الگوریتم SVM خطیدر این الگوریتم نیز بدلیل عدم پشتیبانی از نوع داده اسمی از عملگرهای مختلفی برای تبدیل مقادیر غیرعددی به عدد استفاده شده است. به همین دلیل تنها از روش Split validation با نسبت 70-30 برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام شد.
شکل3-12 عملیات انجام شده را نشان می دهد.

شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی
پارامترهای الگوریتم عبارتند از :
Kernel cache=200
Max iteretions=100000
نتیجه حاصل از اجرای الگوریتم SVM خطی دقت 98.54% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-13 رسم شده است.

25711152215515آستانه قابل قبول
020000آستانه قابل قبول
1045845-111760دسته مثبت
020000دسته مثبت

شکل 3-13 : نمودار AUC الگوریتم SVM Linear
3-9-5-الگوریتم رگرسیون لجستیک
در این الگوریتم از روش Split validation با نسبت 70-30برای ارزیابی استفاده شده است که تقسیم ورودی ها نیز توسط کاربر انجام شد.
نتیجه حاصل از اجرای الگوریتم رگرسیون لجستیک دقت 98.54% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-14 رسم شده است.

25482552319020آستانه قابل قبول
020000آستانه قابل قبول
974725-249555دسته مثبت
020000دسته مثبت

شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک
3-9-6- الگوریتم Meta Decision Treeدر این الگوریتم که یک درخت تصمیم است، از روش Split validationبا نسبت 70-30 برای ارزیابی استفاده شده است که دقت 96.64% اقدام به پیش بینی خسارت احتمالی نموده است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-15 رسم شده است.

26714452353945آستانه قابل قبول
020000آستانه قابل قبول
835660-73660دسته مثبت
020000دسته مثبت

شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree
با توجه به اندازه بزرگ درخت خروجی فقط قسمتی از آن در شکل 3-16 بصورت درخت نمایش داده می شود. در شکل 3-17 درخت بصورت کامل آمده است اما نتایج آن در فصل چهارم مورد تفسیر قرار خواهند گرفت.

شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree

شکل 3-17 : نمودار --ial الگوریتم Meta Decision Tree
3-9-7-الگوریتم درخت Wj48چون RapidMiner توانایی استفاده ازالگوریتمهای نرم افزار WEKA را نیز دارد، در بسیاری از الگوریتم ها قدرت مند تر عمل میکند. Wj48 نسخه WEKA از الگوریتمj48 است.
پارامترهای این الگوریتم عبارتند از:
C=0.25
M=2
در این الگوریتم از روش ارزیابی 10 Fold Validation استفاده شده است و دقت پیش بینی آن برابر 99.52% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-18 رسم شده است. نمای درخت در شکل 3-19 ترسیم شده است.

35471102441575آستانه قابل قبول
020000آستانه قابل قبول
908685160020دسته مثبت
020000دسته مثبت

شکل 3-18: نمودار AUC الگوریتم Wj48

شکل 3-19 : نمودار tree الگوریتم Wj48
3-9-8-الگوریتم درخت Random forest در این الگوریتم از هر سه روش ارزیابی بیان شده در قسمت 3-9 استفاده شده است، که بهترین کارایی مربوط به ارزیاب Split Validation با دقت96.72% است. ماتریس آشفتگی آن و نمودار AUC در شکل 3-20 رسم شده است.

24853902600960آستانه قابل قبول
020000آستانه قابل قبول

user6-715

3-3-2- بهبود طراحی سایت25
3-3-3- ارزیابی اثربخشی تبلیغات26
3-3-4- یاری رساندن به انتخاب نوع محصولات26
3-4- شخصی سازی وب27
3-5- سیستم هوشمند مدیریت ارتباط با مشتری28
3-6- روش Visual Web Log Miner28
3-7- تحلیل جریان های کلیک29
3-7-1- تحلیل ترافیک30
3-7-2- تحلیل تجارت الکترونیک30
3-8- روش های مشاهده اطلاعات کاربران32
3-9- هوش تجاری34
3-10- مدیریت ارتباط با مشتریان الکترونیکی36
3-11- مدل رفتاری مشتریان39
3-12- وب سایت های انطباقی41
3-13- خلاصه فصل41
فصل چهارم42
4- ارائه روش پیشنهادی43
4-1- مقدمه43
4-2- معرفی روش پیشنهادی43
4-2-1- توسعه دانش تجاری و دانش مربوط به درک مشتریان44
4-2-2- تجزیه و تحلیل نیازمندی ها برای طراحی سایت45
4-2-3- تحلیل موقعیت سازمان در فضای رقابتی47
4-2-4- انجام فعالیت های تجاری در دنیای مجازی47
4-2-5- تهیه بازخورد از رفتار مشتریان و به روز رسانی وضعیت موجود در جهت پیشبرد اهداف سازمان 48
4-3- ارزیابی روش پیشنهادی 49
4-4- انتخاب نرم افزار50
4-5- تکنیک های مورد استفاده52
4-5-1- مدل های درخت تصمیم52
4-5-1-1- مدل C&R53
4-5-1-2- مدل CHAID54
4-5-1-3- مدل QUEST56
4-5-1-4- مدل C559
4-5-2- خوشه بندی60
4-5-3- قوانین انجمنی63
4-6- خلاصه فصل65
فصل پنجم66
5- مقایسه و نتیجه گیری67
5-1- جمع بندی مطالب67
5-2- مقایسه نتایج67
5-3- عوامل موثر بر پیاده سازی71
5-4- چالش های پیاده سازی71
5-5- نتیجه گیری72
5-6- پیشنهاداتی برای مطالعات آینده72
منابع فارسی74
منابع انگلیسی75

فهرست جداول
عنوان و شماره صفحه
جدول 3-1- تکنیک های موثر در زمینه تجارت و هوش تجاری35
جدول 3-2- گام های e-CRM37
جدول 3-3- ارتباط بین بازاریابی، اهداف، مدیریت ارتباط با مشتری و فناوری اطلاعات37
جدول 3-4- پیاده سازی چارچوب e-CRM38
جدول 4-1- فیلد های مورد سنجش50
جدول 5-1- مقایسه تکنیک های مطرح شده68
جدول 5-2- مقایسه روش های معرفی شده و روش پیشنهادی69
فهرست شکل ها و تصاویر
عنوان و شماره صفحه
شکل 2-1- چرخه تعاملات سازمان و مشتریان10
شکل 2-2- ساختار اطلاعاتی در مدیریت ارتباط با مشتری10
شکل 2-3- رابطه مدیریت ارتباط با مشتری و عملکرد بازاریابی11
شکل 2-4- ابعاد اصلی مدیریت ارتباط با مشتری الکترونیک13
شکل 2-5- مراحل وب کاوی16
شکل 2-6- ارتباط بین تکنیک های وب کاوی 18
شکل 3-1- مدل پیشنهادی برای مدیریت ارتباط با مشتری و هوش تجاری23
شکل 3-2- وب کاوی در تجارت الکترونیک25
شکل 3-3- معماری روش وب سرور32
شکل 3-4- مدل رفتاری مشتریان40
شکل 4-1- صفحه اول نرم افزار کلمنتاین نسخه 1251
شکل 4-2- اولویت بندی فیلدهای منتخب توسط الگوریتم C&R53
شکل 4-3- درخت C&R54
شکل 4-4- اولویت بندی فیلدهای منتخب توسط الگوریتم CHAID55
شکل 4-5- درخت CHAID56
شکل 4-6- اولویت بندی فیلدهای منتخب توسط الگوریتم QUEST57
شکل 4-7- درخت QUEST58
شکل 4-8- اولویت بندی فیلدهای منتخب توسط الگوریتم C559
شکل 4-9- درخت C560
شکل 4-10- تعداد تکرار بهینه در الگوریتم K-Means61
شکل 4-11- نمایش خوشه ها62
شکل 4-12- اندازه خوشه های بدست آمده از الگوریتم K-Means62
شکل 4-13- قسمتی از قوانین بدست آمده از الگوریتم GRI64
فصل اول
1- مقدمه
با افزایش فروشگاه های مجازی و تراکنش های تجارت الکترونیک، فضای وب مشتاقانی را که به دنبال مدل های جدید کسب و کار، افزایش درآمد و گسترش دامنه مشتریان خود از طریق کانال فروش برخط هستند؛ به خود جذب نموده است.
به طور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع‏رسانی جهانی، شرکت ها و سازمان ها را با حجم زیادی از داده و اطلاعات مواجه می‏کند که نیازمند وجود فناوری های جدید و ابزارهای خودکاری است که به صورت هوشمند این حجم زیاد داده را به اطلاعات و دانش تبدیل کند که داده کاوی و وب کاوی نمونه هایی از این فناوری ها می باشد. امروزه وب سایت ها نقش مهمی در ارائه اطلاعات و دانش به کاربران نهایی دارند. الگوهای استفاده از وب و وب کاوی برای کشف اطلاعات پنهان، معنی دار و در حال رشد، مورد استفاده قرار می گیرد [Kundu 2012].
با ظهور اینترنت و توسعه تجارت الکترونیکی، نحوه تجارت و داد و ستد شکل تازه ای به خود گرفته است. با توجه به حجم معاملات تجارت الکترونیکی، شرکت ها در معرض رقابتی سنگین قرارگرفته اند. با توجه به اهمیت و تاثیر رضایت و وفاداری مشتری در بیشتر نمودن سهم بازار، سازمان ها به مدیریت ارتباط با مشتری به عنوان ابزاری برای افزایش سودآوری خود می نگرند. با توجه به پیشرفت فناوری و افزایش رقابت، مهمترین چالش پیش روی هر سازمان اقتصادی افزایش سود سازمان است. در شرایط دشوار رقابت، ارتباط به هنگام و سازمان یافته با مشتریان، مناسب ترین راه افزایش رضایت مشتری، افزایش فروش و در عین حال کاهش هزینه ها می باشد [عباسی و ترکمنی 1389]. یک تجارت الکترونیک موفق از راهبردهای خدماتی خوب استفاده می کند که سبب ایجاد وفاداری در مشتری می گردد. هر تماس مشتری با فروشگاه تجارت الکترونیک، کارمندان آن، وب سایت، پشتیبانی، مرکز تماس و سایر خدمات مرتبط، بر نظر فرد نسبت به آن شرکت یا سازمان اثر دارد. فناوری های وب فرصت منحصر به فردی در ارتباط تک به تک با مشتری ایجاد نموده است. به همین دلیل ارائه سرویس و خدمات استثنایی برای مشتری بهترین راه پیشرفت برای وب سایت است.
1-1- ضرورت و اهمیت مدیریت ارتباط با مشتری
وب کاوی با استفاده از فنون داده کاوی در جهت بازیابی، استخراج و ارزیابی خودکار اطلاعات به منظور کشف دانش از مدارک و خدمات وب می پردازد و اطلاعات ساختاری وب مانند پیوندهای بین صفحات وب و اطلاعات مربوط به نحوه استفاده کاربران از وب را تجزیه و تحلیل می کند. وب کاوی می تواند در حوزه هایی مانند تحلیل و مدیریت بازار، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک مورد استفاده قرار گیرد. عرضه‏ محصولات با کیفیت برتر و ارائه‏‏ خدمات به مشتریان در سطح عالی و به طور مستمر موجب ایجاد مزیت‏های رقابتی برای شرکت ها و سازمان ها می گردد و همچنین می تواند باعث ایجاد وفاداری در مشتریان و حفظ بلند مدت آن ها گردد.
مشتریانی که از محصولات خریداری شده یا خدمات ارائه شده راضی نیستند تجربه‏ خود را به دیگران منتقل می‏کنند و زمینه کاهش درآمد و سود شرکت را فراهم آورد. انتظارات، نیازها و خواسته‏های در حال تغییر، دلالت بر این موضوع دارد که ارزیابی رضایتمندی مشتری به صورت مداوم بسیار ضروری است [Emtiyaz & Keyvanpour 2011].
بی شک می توان گفت مهم ترین دارایی اغلب سازمان ها مشتریان آن ها هستند. مشتریان به خاطر ارتباط مستقیمی که با اقدامات یک سازمان دارند، منبع ارزشمندی برای فرصت ها، تهدیدات و سوالات عملیاتی مرتبط با صنعت مربوطه می باشند. امروزه برای رشد و بقا در عرصه رقابت اقتصادی، شرکت ها و سازمان ها باید به مشتری مداری اهمیت ویژه ای داده و ارتباط خود را با خریداران کالا بیش از پیش افزایش دهند [عباسی و ترکمنی 1389].
1-2- اهداف مدیریت ارتباط با مشتری در حوزه تجارت الکترونیک

در روندهای کسب و کاری جدید، بدست آوردن رضایت مشتریان جایگاهی مهم و حیاتی در اهداف شرکت ها به خود اختصاص داده است و مدیران ارشد به خوبی می دانند موفقیت آن ها در راه رسیدن به اهداف کلان سازمان، در گرو جلب رضایت مشتریان است. هدف از مدیریت ارتباط با مشتری، توانمندسازی سازمان برای ارائه خدمات بهتر به مشتریان از طریق ایجاد فرآیندهای خودکار و یکپارچه برای جمع آوری و پردازش اطلاعات مشتریان است [عباسی و ترکمنی 1389].
در مجموع دستیابی به مزایای زیر، از اهداف مدیریت ارتباط با مشتری در حوزه تجارت الکترونیکی است [میرفخرالدینی و همکاران 1388]:
افزایش آگاهی از موجودیت آنلاین شرکت؛
افزایش اعتماد و اعتبار شرکت در محیط آنلاین؛
تقویت برداشت ها از شرکت به عنوان کسب و کاری که از فناوری های پیشرفته استفاده می کند؛
افزایش حمایت ایجاد شده برای مشتریان در طول فرآیند خرید و بعد از آن؛
افزایش تعداد کل کاربران وکاهش هزینه جذب مشتریان جدید؛
افزایش تعداد مشتریانی که موجب درآمد و مزایای بیشتر هستند؛
افزایش نرخ رسیدگی و حل شکایات مشتریان و پاسخگویی به سوالات کاربران؛
افزایش و بهبود استفاده از فناوری های پیشرفته در مقایسه با رقبا؛
به کارگیری بسیار سریع تر و موثر فرآیندهای تجاری در شرکت؛
افزایش قابلیت فرآیندهای تجاری مورد استفاده در شرکت؛
بهبود مدیریت محتوای سایت و افزایش قابلیت سوددهی؛
افزایش تنوع خدمات ارائه شده در سایت مانند پست الکترونیک، تلفن های ضروری، سیستم پاسخگویی سریع.
مدیریت ارتباط با مشتری خوب و موثر نیاز به درک روشنی از نیازهای مشتری دارد. مدیریت باید به نیازهای روز مشتریان توجه داشته باشد و بر این اساس آن ها عمل کند. جمع آوری اطلاعات در مورد مشتریان و تجزیه و تحلیل از صفحه های شخصی آن ها برای داده های بزرگ آسان نیست [Venkata Krishna et.al 2012]. مهم ترین کاربرد وب کاوی در حوزه تجارت الکترونیک و اقتصاد منجر به تشخیص بسیاری از حقایق و عوامل موثر در مدیریت ارتباط با مشتری و خدمات موثر بر مشتریان از طریق رفتار و برقراری ارتباط با سیستم می باشد [Emtiyaz & Keyvanpour 2011]. بنابراین وب کاوی کمک شایانی در شناخت سریع مشتری و کاهش هزینه‏های مربوط به بررسی مشتریان می‏کند. وب کاوی یکی از عناصر مدیریت ارتباط با مشتری در حوزه تجارت الکترونیک است و می‏تواند به حرکت شرکت‏ها به سمت مشتری محوری کمک کند. در فرآیند وب کاوی در مدیریت ارتباط با مشتری داده‏های خام از منابع مختلفی جمع‏آوری می‏شوند و به دانش و اطلاعات مفید تبدیل می گردد. وب کاوی توسط تکنیک های داده کاوی می‏تواند سودآوری مشتری‏های بالقوه را که می‏توانند به مشتریان بالفعل تبدیل شوند، پیش‏بینی کند. پس از طریق وب کاوی می توان ارزش مشتریان را تعیین، رفتار آینده آن ها را پیش‏بینی و تصمیمات آگاهانه‏ای را در این رابطه اتخاذ نمود [Gupta & Todwal 2012].
1-3- هدف پژوهش
به دلیل رقابت شدید در تجارت الکترونیک، تصمیمات اتخاذ شده جهت جذب مشتریان بهتر و نگهداری آن ها جهت موفقیت و بقای تجارت لازم است و ایجاد یک طرح مدیریت موثر ارتباط با مشتری و طراحی مناسب وب سایت ها با استفاده از تکنیک های وب کاوی به نظر می رسد تنها راه پیشروی باشد و تکنیک های وب کاوی می توانند تا حد چشمگیری به موفقیت تجارت الکترونیکی کمک نمایند. در پژوهش پیش رو، هدف تدوین و ارائه روشی بهبود یافته نسبت به روش های موجود در حوزه تجارت الکترونیک و مشتری مداری در دنیای مجازی است، به گونه ای که سبب افزایش میزان رضایت و وفاداری مشتریان، افزایش سودآوری شرکت ها و سازمان ها و ارتقای نسبی شرایط موجود در بازارهای رقابتی گردد.
1-4- مراحل انجام تحقیق
به منظور ارزیابی روش پیشنهادی، رفتار 125 مشتری اینترنتی بررسی شده است تا مواردی که از نظر آنان در مراجعه به یک فروشگاه مجازی اهمیت دارد، شناسایی شود. این موارد در 14 فیلد دسته بندی شده و سپس توسط تکنیک های مرسوم داده کاوی که در مورد وب کاربرد دارد؛ تحلیل شده است تا بتوان مناسب ترین تکنیک را برای سنجش کارایی سایت تجارت الکترونیک و در نتیجه رضایتمندی مشتریان و حفظ وفاداری آنان شناسایی نمود.
1-5- ساختار پژوهش
این پژوهش در پنج فصل تنظیم شده است. در فصل اول مقدمه، ضرورت، اهمیت و اهداف مدیریت ارتباط با مشتری، هدف پژوهش و مراحل انجام تحقیق بیان گردید. فصل دوم شامل ادبیات موضوع و مبانی نظری در زمینه مدیریت ارتباط با مشتری و کاربردهای داده کاوی و وب کاوی است. فصل سوم به بیان تحقیقات انجام شده می پردازد و مزایا و معایب روش های موجود بررسی می گردد. در فصل چهارم، راهکار پیشنهادی ارائه شده و مراحل مربوط به آن به تفضیل بیان می گردد. فصل پنجم، حاوی جمع بندی مطالب مطرح شده، نتیجه گیری و پیشنهاداتی برای پژوهش های آینده می باشد. منابع مورد استفاده در این پژوهش در انتهای پژوهش قرار دارد.
فصل دوم
2- ادبیات موضوع و مبانی نظری تحقیق
2-1- مقدمه
هدف این فصل، بیان تعاریف مدیریت ارتباط با مشتری، الزامات و اقدامات مورد نیاز برای پیاده سازی مدیریت ارتباط با مشتری در سازمان ها و ایجاد فروشگاه مجازی، ابعاد اصلی مدیریت ارتباط با مشتری الکترونیکی و اهمیت، کاربردها، مراحل و تکنیک های موثر داده کاوی و وب کاوی در این زمینه می باشد.


2-2- تعاریف مدیریت ارتباط با مشتری
متخصصان و نظریه پردازان هرکدام تعاریف مختلفی از مدیریت ارتباط با مشتری ارائه می دهند که می توان آن ها را در چهار گروه کلی با عناوین استراتژی، فناوری، فرآیند و سیستم اطلاعاتی طبقه بندی نمود. برخی از تعاریف مدیریت ارتباط با مشتریان از دیدگاه نظریه پردازان مختلف به شرح زیر است [عباسی و ترکمنی 1389]:
1- بخشی از استراتژی یک سازمان جهت شناسایی و راضی نگهداشتن مشتریان و تبدیل آن ها به مشتری دائمی می باشد. همچنین در راستای مدیریت ارتباطات مشتری با شرکت و به منظور به حداکثر رساندن ارزش هر مشتری، شرکت را یاری می نماید.
2- مجموعه متدولوژی ها، فرآیندها، نرم افزارها و سیستم ها است که به موسسات و شرکت ها در مدیریت موثر و سازمان یافته ارتباط با مشتری کمک می کند.
3- ایجاد و حفظ ارتباط شخصی با مشتریان سودآور سازمان از طریق استفاده مناسب از فناوری های اطلاعات و ارتباطات.
4- یک فرآیند، متشکل از نظارت بر مشتری، مدیریت و ارزشیابی داده ها و نهایتا ایجاد مزیت واقعی از اطلاعات استخراج شده در تعامل با آنان است.
5- استراتژی جامع کسب و کار و بازاریابی است که فناوری فرآیندها و تمام فعالیت های کسب و کار را حول مشتری یکپارچه می سازد.
3-2- الزامات و اقدامات مورد نیاز برای پیاده سازی CRM

قبل از آن که بتوان سیستم مدیریت ارتباط با مشتری را در شرکت یا سازمانی پیاده سازی کرد، لازم است قدم‏های زیر در شرکت یا سازمان برداشته شود [Tuzhilin 2012]:
آشنایی با مفاهیم و نظریه‏های مشتری مداری و کشف اهمیت و جایگاه مشتری؛
آشنایی با معیارهای کیفیت خدمات و ارتباط آن با مشتری ‏مداری؛
شناسایی موانع و مشکلات موجود برای برقراری ارتباط با مشتریان؛
مطرح نمودن راه‏حل‏هایی به منظور ارتقاء سطح مشتری‏ مداری؛
شناسایی شرایط رقابتی و ارائه راه‏حل ها.
در شکل 2-1 چرخه تعاملات بین سازمان و مشتریان مشخص شده است:

شکل 2-1- چرخه تعاملات بین سازمان و مشتریان [Tuzhilin 2012]
ساختار اطلاعاتی لازم برای مدیریت ارتباط با مشتری در یک سازمان در شکل 2-2 مشخص شده است:

شکل 2-2- ساختار اطلاعاتی در مدیریت ارتباط با مشتری [عباسی و ترکمنی 1389]
مدیریت ارتباط با مشتری راهبردی جامع و مشتمل بر فرآیند تحصیل، نگهداری و مشارکت با مشتریان منتخب برای ایجاد ارزش عالی هم برای شرکت و هم برای مشتریان است. با توجه به شکل 2-3 مدیریت ارتباط با مشتری از طریق ایجاد، حفظ و تقویت رابطه با مشتریان اصلی، سعی در شناخت آن ها، نیازها و خواسته های ایشان دارد و از طریق پاسخ مناسب و به موقع به این نیازها، رضایت مشتریان را هرچه بیشتر جلب کرده و کم کم موجب افزایش وفاداری و اعتماد آنان به سازمان می شود و بدین ترتیب عملکرد بازاریابی بهبود می یابد. رضایت و اعتماد دو شاخص اصلی عملکرد بازاریابی است و از طرف دیگر حفظ مشتریان و وفاداری آنان موجب کاهش هزینه های سازمان در جذب مشتریان جدید می شود. زیرا مشتریان وفادار، مشتریان جدیدی را به سازمان وارد می کنند و در نتیجه موجب افزایش فروش شده و سودآوری سازمان افزایش می یابد [طاهرپور کلانتری و طیبی طلوع 1389]. مدیریت موثر ارتباط با مشتری سبب افزایش درآمد، شناخت فرصت های جدید، کاهش فرصت های از دست رفته، کاهش فرار مشتریان، ایجاد وفاداری در مشتری، بهبود خدمات به مشتریان، بهبود جلوه سازمان، کاهش هزینه ها، ذخیره اطلاعات سازمان، کاهش دوباره کاری های بازاریابی می گردد [عباسی و ترکمنی 1389].

شکل 2-3- رابطه مدیریت ارتباط با مشتری و عملکرد بازاریابی [طاهرپور کلانتری و طیبی طلوع 1389]
2-4- ایجاد فروشگاه مجازی
برای ایجاد یک فروشگاه مجازی پاسخگویی به سوالات زیر لازم است تا فعالیت ها به خوبی انجام پذیرد:
چه محصولاتی برای فروش عرضه شده است؟
مشتریان چه کسانی با چه خصوصیاتی هستند؟
چرا مشتری می خواهد از این فروشگاه مجازی خرید کند؟
آزمون خرید الکترونیکی [الهی و همکاران 1388]، روشی سه مرحله ای برای پرداختن به چالش های تجارت الکترونیکی است .این آزمون برای تمامی انواع محصولات و خدمات در صنایع مختلف کاربرد دارد. آزمون خرید الکترونیکی برای خرده فروشان، تولیدکنندگان، عرضه کنندگان و هر شرکت دیگری که در بخشی از فرآیند توزیع محصول از تولید تا مصرف مشارکت می کند، قابل استفاده است. سه مرحله مربوطه به آزمون خرید الکترونیکی عبارت است از:
1- ویژگی های محصول که مربوط به میزان وابستگی محصول به حواس پنجگانه است.
2- آشنایی و خرسندی مشتری از محصول که برابر با درجه ای است که مشتری، محصول را می شناسد و به آن اعتماد دارد، قبلا آن را تجربه کرده یا از خرید مجدد آن خرسند خواهد شد.
3- ویژگی های مشتری و محصول که عمده ترین عامل انگیزش مشتری و نگرش او به خرید را مد نظر قرار می دهد. اگر ویژگی های محصول، قابلیت فروش الکترونیکی را تأیید کند و اگر مصرف کنندگان آشنایی کافی با محصول داشته و از خرید آن خرسند باشند، امکان خرید الکترونیکی آن افزایش می یابد.
در دنیای کسب و کار الکترونیکی، عوامل زیادی وجود دارد که بر تصمیم و قصد خرید از طریق سایت های وب تأثیرگذار است. مجازی بودن شبکه اینترنت، کمی اعتماد مشتری به خرید مجازی، کیفیت سایت و مدل طراحی آن مخصوصا در روش ارائه محصول و اطلاعات مربوطه، به بی رغبتی مشتریان به انجام دادن خریدهای الکترونیکی منجر می شود. از سوی دیگر، ویژگی های افراد نیز بر تصمیم و انجام خرید الکترونیکی تأثیر می گذارد، مانند وفاداری افراد به یک نام تجاری، نگرش ها، عادت ها، درک افراد برای محیط و فرصت هایی که در آن ارائه می شود، تمایل افراد به ورود به عالم تجارت جدید و استفاده از فناوری و نوآوری ها. برای کسب مزیت های رقابتی لازم است رفتار مشتری را به خوبی درک و فرآیند تصمیم گیری او تجزیه و تحلیل شود. آنچه مشتری را راضی نگه می دارد موجب ادامه حیات و فعالیت شرکت می شود. مشتری پسند کردن محصول و تعامل، دو طرح ارزشی منحصر به فرد هستند که به وفاداری الکترونیکی در رفتار برخط خریدار کمک می کنند. اکثر کسانی که از طریق وب خریداری می کنند، وب سایت هایی را ترجیح می دهند که محصولات و خدمات مشتری پسندی را ارائه کنند و این حاکی از اهمیت مشتری پسندی در ایجاد و وفاداری الکترونیکی است [الهی و همکاران 1388]. عملکرد ارتباط با مشتری الکترونیک، تحت چهار بعد اصلی در شکل 2-4 مشخص شده است:

شکل 2-4- ابعاد اصلی مدیریت ارتباط با مشتری الکترونیک [میرفخرالدینی و همکاران 1388]
2-5- اهمیت داده کاوی و وب کاوی در مدیریت ارتباط با مشتریان
داده کاوی و وب کاوی یکی از عناصر مدیریت ارتباط با مشتری است و می‏تواند به حرکت شرکت‏ها به سمت مشتری محوری کمک کند. توسط فرآیند وب کاوی می توان رفتار مشتریان در پیمایش وب سایت ها درک کرد، به طراحی مناسب وب سایت ها پرداخت و برای ارتقای فعالیت های سازمان ها در امر بازاریابی و جذب مشتریان گام برداشت [Bussa et.al 2012].
استفاده از وب کاوی در یکی از زمینه های مهم تجارت دنیای امروز، یعنی ارتباط با مشتری در جنبه شناخت مشتری، مورد بررسی قرار می گیرد. شرکت ها و سازمان ها به منظور حرکت به سوی مشتری ‏مداری می‏توانند اقدامات زیر را انجام دهند [Satish & Sunil 2012]:
کشف مجدد نقش مهم و حیاتی مشتری و درک رفتار مشتری و فروشندگان؛
یادگیری اینکه چگونه می‏توان مشتری ‏مدار بود و ارزیابی محصولات و کارایی تامین کنندگان؛
متعهد نمودن تمامی اعضای شرکت یا سازمان برای اجرای استراتژی مشتری‏ مداری و کنترل متناوب محصولات و تامین کنندگان.
به منظور ارتقای سرویس های اینترنتی و افزایش بازدیدهای کاربران، لازم است توسعه دهندگان وب دقیقا بدانند که کاربران واقعا به چه چیزی نیاز دارند و صفحاتی را که بیشتر مورد توجه بالقوه آنان قرار می گیرند، پیش بینی کنند و صفحات شخصی وب را با مشاهده الگوی رفتار کاربران ارائه دهند [Ganapathi Babu et.al 2012]. توسعه دهندگان وب با درک پروفایل کاربران و اهداف سایت، حقایقی از عادات کاربران را مشخص می نمایند. آن ها همچنین می توانند از رفتار کاربران توسط تحقیق در وب و کشف الگوهای فعالیت مشاهده کنندگان سایت آگاهی یابند [Nithya & Sumathi 2012].
2-6- کاربردهای داده کاوی و وب کاوی در مدیریت ارتباط با مشتریان

دسته بندی مشتریان: با دسته بندی مشتریان به وسیله رفتار و تحلیل جنبه های مشترک، می توان به سازمان در ارائه بهتر و مناسب خدمات یاری رساند.
ارائه خدمات شخصی سازی شده به منظور مدیریت زمان مشتریان: در فضای اینترنت مشتریان می توانند برای خدمتی خاص به شرکت های مختلفی مراجعه کنند، بنابراین چگونگی جذب و
حفظ مشتریان از دغدغه های اصلی هر شرکتی است.
کاهش هزینه های عملیاتی و بهبود وضعیت رقابتی سازمان: توسط داده کاوی و وب کاوی، عملیات تجارت الکترونیک، بازخورد قابل اطمینانی از وضعیت بازار دریافت می کند. با تحلیل رفتار آینده مشتریان می توان فعالیت های بازاریابی را در جهتی مناسب سوق داد و در هزینه های مربوط به تبلیغات و جلب مشتریان صرفه جویی نمود.
فروش متقاطع: سایت های تجارت الکترونیک برای فراهم ساختن منفعت بیشتر، از فروش متقاطع برای ارائه خدمت یا کالای جدید استفاده می کنند، یعنی مشتری می تواند خدمتی دیگری را برای یک محصول درخواست نماید. توسط تکنیک های داده کاوی و وب کاوی، با تحلیل رفتار خرید آینده مشتریان و مشخص نمودن اینکه کدام مشتری برای فروش متقاطع مناسب است، می توان منافع شرکت یا سازمان را ارتقا بخشید.
بهبود طراحی وب سایت تجارت الکترونیک: با نگهداری رفتار و بازخورد مشتریان، طراحان وب سایت می توانند ساختار مناسبی را سازمان دهی و بهینه نمایند تا مشتریان بیشتری را جذب کند. مواردی مانند دسترسی آسان و راحت مشتریان به صفحات دلخواه و ارائه یک تصویر خوشایند برای آنان، می تواند بازدیدهای آینده را افزایش دهد. همچنین امنیت مناسب، سبب افزایش رضایت و در نتیجه حفظ مشتریان می گردد [Weigang & Qingyi 2012].
2-7- مراحل وب کاوی در آماده سازی و تحلیل داده ها
با توجه به شکل 2-5 وب کاوی شامل چهار مرحله می باشد [Prasanth 2013]:
1- ماخذ یابی: یافتن اسناد منطبق از وب.
2- انتخاب اطلاعات و پیش پردازش: از لیست انتخابی، اسناد مربوط تعیین شده و پیش پردازش می شوند.
3- عمومیت بخشیدن: تحلیل اسناد و تعیین موارد مشخص.
4- تحلیل نهایی: استفاده از موارد مشخص و نشان دادن نتایج.
داده ها از منابع مختلفی جمع آوری شده، داده های مناسب انتخاب می گردد و پردازش هایی روی آن ها صورت می پذیرد. سپس فرضیه ها تعیین می شوند و ابزارهای مناسب انتخاب می گردند تا دانش مورد نظر کشف گردد. در آخر بر اساس اهداف کاربر، اطلاعات ارزشمندی تشخیص داده می شود. هدف این مرحله تنها بدست آوردن نتایج نیست بلکه پالایش اطلاعات برای اتخاذ سیاست های مناسب بازاریابی نیز در این مرحله صورت می گیرد[Weigang & Qingyi 2012].

شکل 2- 5- مراحل وب کاوی [Prasanth 2013]
2-8- تکنیک های وب کاوی موثر در حوزه تجارت الکترونیک
برخی از تکنیک های وب کاوی که می تواند در حوزه تجارت و خدمات الکترونیکی موثر واقع گردند، به صورت زیر معرفی شده است [Shinde et.al 2011]:
خوشه بندی و دسته بندی: در این روش رفتارهای منحصر به فرد در گروه های همگن شناسایی و خصوصیات مشابه از هر گروه طبقه بندی و توزیع می شود.
قوانین انجمنی: توسط این قواعد عملیات و حقایقی که در ابتدا مستقل هستند، شناسایی شده و سپس ترکیب می شوند. حقایق مورد نظر می تواند خصوصیات و رفتارهای مشاهده شده منحصر به فرد باشد.
تحلیل مسیر: در این روش ارتباط بین صفحات وب از طریق گراف ترسیم می شود که گره های گراف، صفحات وب و ارتباط بین آن ها، کمان های گراف است. این گراف همچنین می تواند مسیر پیموده شده توسط مشتری در صفحات وب را مشخص نماید.
الگوهای ترتیبی: این روش تاریخچه ای از عملیات و تراکنش هایی است که یک مشتری در یک دوره زمانی در وب سرور انجام داده است. مشکل کشف الگوهای ترتیبی، شناسایی گروهی از دسترسی های تکراری در مجموعه ای از تراکنش ها یا ملاقات ها در دوره های زمانی است.
مکعب ها: مکعب داده، آرایه ای چند بعدی است که کشف و تحلیل مجموعه ای از داده ها را از زوایای مختلف فراهم می نماید. از نظر ساختاری، داده ها دارای دو المان بعد و اندازه هستند. بعد به منظور طبقه بندی و توصیف فاکتورهای مورد مطالعه در تحلیل و اندازه برای ارزش گذاری داده های ذخیره شده در ساختار استفاده می شود.
ارتباط بین تکنیک های معرفی شده در شکل 2-6 نمایش داده شده است.

شکل 2-6- ارتباط بین تکنیک های وب کاوی[Shinde et.al 2011]
از بین تکنیک های بیان شده، سه روش اصلی قوانین انجمنی، دسته بندی و خوشه بندی بیشتر در کاربردهای تجاری وب کاوی، مورد استفاده قرار می گیرند که در ادامه توضیح داده شده است.
2-8-1- قوانین انجمنیقوانین انجمنی از ابتدایی ترین روش های داده کاوی هستند که بیشتر از سایر روش ها، در وب کاوی به کار می روند. این قوانین، به دنبال کشف ارتباط بین وی‍ژگی ها در مجموعه داده ها است و به دنبال کمی کردن ارتباط میان دو یا چند خصوصیت می باشد. این قوانین به شکل گزاره های استدلالی به فرم X => Y هستند که دو معیار اساسی پشتیبان و اطمینان در آن نقش اساسی دارند. معیار پشتیبانی بیانگر درصد مواردی است که اتفاق مورد نظر روی داده است در مقایسه با کل موارد و میزان وقوع این اتفاق مورد نظر است. قوانین انجمنی برای تشخیص رفتار مشتریان، تعیین اهداف فروش و فروش متقاطع به کار می رود.

2-8-2- دسته بندی
روش های دسته بندی داده ها را به چندین دسته از پیش تعریف شده که ویژگی های آن مشخص شده است، تقسیم می کند. دسته بندی جز روش های یادگیری با نظارت به شمار می آید زیرا در ابتدا مجموعه داده به سیستم داده می شود که دسته آن ها مشخص شده است. سپس انتظار می رود سیستم با دیدن این نمونه ها بتواند نمونه های جدید را دسته بندی کند. هدف دسته بندی، تحلیل نمونه های آموزشی و ساخت مدل دقیقی برای هر دسته با استفاده از ویژگی های موجود در داده ها و سپس استفاده از این مدل ها برای دسته بندی داده های آتی است.
2-8-3- خوشه بندیتکنیک های خوشه بندی گروه هایی از اقلام مشابه را میان حجم بالایی از داده ها تشخیص می دهد. این کار بر اساس توابع فاصله که میزان شباهت میان اقلام مختلف را محاسبه می کند، انجام می شود. در خوشه بندی مرز بین خوشه ها از قبل مشخص نیست و بر چسب های هر خوشه از پیش تعیین نشده است در صورتی که در دسته بندی، از قبل مشخص است که هر دسته شامل چه داده هایی است و برچسب های هر دسته از قبل تعریف شده است. خوشه ‌بندی داده ها بر اساس اصل مفهومی حداکثر سازی شباهت ‌های بین اعضای هر کلاس و حداقل‌ سازی شباهت‌ ها بین اعضای مربوط به کلاس‌های مختلف صورت می گیرد و جز روش های یادگیری بدون نظارت به شمار می آید. خوشه ‌بندی و دسته ‌بندی برای بهبود بازایابی، تبلیغات و مدیریت ارتباط با مخاطبین و به ‌طور خاص مشتریان کاربرد دارد.
2-9- خلاصه فصل

در این فصل مدیریت ارتباط با مشتری از دیدگاه های مختلف تعریف گردید، الزامات و اقدامات مورد نیاز برای پیاده سازی مدیریت ارتباط با مشتری در سازمان ها ذکر شد و مراحل ایجاد فروشگاه مجازی، ابعاد اصلی مدیریت ارتباط با مشتری الکترونیکی و اهمیت، کاربردها، مراحل و تکنیک های موثر داده کاوی و وب کاوی در این زمینه بیان گشت. در ادامه با بررسی روش های موجود مدیریت ارتباط با مشتریان در حوزه تجارت الکترونیک توسط تکنیک های وب کاوی، روشی تکمیل شده و بهبود یافته نسبت به روش های معرفی شده، ارائه خواهد شد.
فصل سوم
3- مروری بر تحقیقات انجام شده
3-1- مقدمه
تاکنون روش های متفاوتی در زمینه تجارت الکترونیک و مدیریت ارتباط با مشتری توسط تکنیک های وب کاوی معرفی شده است، در این فصل به برخی از آن ها اشاره و مزایا و معایب مربوط به آن بیان شده است.
3-2- مدل معرفی شده توسط دیان و داگلاس
دیان و داگلاس [Dien & Douglas 2010] در سال 2010 در پروژه - ریسرچخود، مدلی را معرفی نموده اند که برای ارزیابی استفاده فناوری اطلاعات به منظور موفقیت در کسب و کار آنلاین استفاده می شود که در شکل 3-1 مشخص شده است. آنان بیان می کنند که تبعیض قیمت، هزینه تغییر، ابزارهای مدیریت ارتباط با مشتری و هوش تجاری بر رضایتمندی و ارتباطات به عنوان متغیرهای مستقل برای موفقیت تجارت است و متغیرهای نام برده شده بر روی رضایت مشتری و ارتباطات موفقیت آمیز تاثیر می گذارد.

شکل3-1- مدل پیشنهادی برای مدیریت ارتباط با مشتری و هوش تجاری [Dien &
Douglas 2010]
3-2-1- تعریف تبعیض قیمت گذاری
قیمت کالاها و خدمات عموما بر هزینه های ثابت و متغیر و میزان تقاضا بستگی دارد. زمانی که قیمت کالا یا خدمتی بالا باشد، تعداد کمی از مشتریان تمایل به خرید دارند و اگر قیمت پایین باشد، تمایل برای خرید بالا می رود. فروشندگان به دنبال کسب منفعت بیشتر توسط فروش بیشتر هستند. تبعیض قیمت به معنای توانایی فروش محصولات یکسان به افراد یا گروه های متفاوت بر اساس رضایت آنان برای پرداخت است. در استراتژی تبعیض قیمتی، محصولات اعم از کالا یا خدمات با قیمت یکسانی ارائه نمی‌شوند. به این منظور فروشندگان باید از مشتریان شناخت کافی داشته باشند تا بتوانند قیمت گذاری را بر اساس منفعت شرکت و رضایتمندی مشتریان انجام دهند [Dien & Douglas 2010]. در واقع تبعیض قیمت گذاری به معنای این است که شرکتی برای کالایی یکسان، قیمت های متفاوتی را برای افراد و نواحی گوناگون ارائه دهد [Al-Azmi 2013].
3-2-2- معنای هزینه تغییر
هزینه تغییر به این معنا است که زمانی که فردی، مشتری یک شرکت شد، در برخی موارد به دلیل وابستگی که به محصولات آن شرکت پیدا کرده است، برای وی هزینه بر است که به سراغ یک تامین کننده دیگر برود و در خیلی از موارد هم فرآیند یافتن یک تامین کننده و عقد قرارداد و شناخت عملکرد شرکتی دیگر، برای شخص دردسرساز است؛ بنابراین مشتری حاضر می شود که خودش را با شرکت اولیه به هر طریقی هماهنگ سازد. اگر هزینه تغییر برای مشتری زیاد باشد، میزان رضایتمندی و وفاداری مشتری کاهش می یابد[Dien & Douglas 2010].

در این مدل به مشتری و نیازهای وی، سودآوری شرکت و کاهش هزینه ها توجه شده است اما به چگونگی سازماندهی مطالب، ظاهر و محتوای یک فروشگاه مجازی که در جذب مشتریان نقش به سزایی دارد، توجهی نشده است.
3-3- روش معرفی شده توسط لی و فنگ
لی و فنگ [Li & Feng 2010] در سال 2010 بیان می کنند که وب کاوی در تجارت الکترونیک بر اساس شکل 3-2 در چهار دسته قرار می گیرد: شخصی سازی سرویس، بهبود طراحی وب سایت، ارزیابی اثربخشی تبلیغات و یاری رساندن به انتخاب نوع محصولات. در ادامه هر یک از این چهار مرحله توضیح داده شده است:

شکل3-2- وب کاوی در تجارت الکترونیک [Li & Feng 2010]
3-3-1- شخصی سازی سرویس
شخصی سازی به این معنا می باشد که صفحات سایت با توجه به علاقه کاربر باشد و با تغییرات علاقه کاربر، صفحات نیز تغییر کنند و در واقع برای هر کاربر صفحه منحصر به فردی مخصوص وی ساخته شده باشد. برای این منظور نیاز است که اطلاعات مربوط به مشتری جمع آوری و نگهداری گردد و توسط تکنیک های وب کاوی، پروفایل شخصی وی ایجاد گردد[Li & Feng 2010].
ایجاد پروفایل اختصاصی برای مشتری که بتواند بر اساس سلایق و نیازهای مشتریان به تولید کالاها و ارائه خدمات بپردازد، حائز اهمیت است زیرا از این طریق می توان روابط با مشتریان را بهبود بخشید و مزایای رقابتی را افزایش داد [Rana 2012].
3-3-2- بهبود طراحی وب سایت
مناسب بودن ظاهر یک سایت بستگی به طراحی منطقی محتوا و ساختار دارد. وب کاوی می تواند جزئیات مربوط به رفتار کاربر را برای بهبود ظاهر سایت فراهم آورد [Li & Feng 2010].
زمانی که کاربر اطلاعات سایتی را بازدید می کند، سه عامل اصلی وجود دارد که بر مشاهده و ارزیابی وی تاثیر می گذارند [Gunjan et.al 2012]:
محتوای صفحات وب؛
طراحی صفحات وب؛
ساختار و طراحی وب سایت.
3-3-3- ارزیابی اثربخشی تبلیغات
تحلیل الگوهای رفتار تعداد زیادی از مشتریان توسط وب کاوی می تواند ارزیابی دقیقی برای اثربخشی ابزارهای متنوع تبلیغات فراهم سازد و به ترکیب و طراحی برنامه های تبلیغات کمک کند تا محصولات در فرآیند فروش در مکان مناسب تبلیغ گردند [Li & Feng 2010].
3-3-4- یاری رساندن به انتخاب نوع محصولات
سایت های تجارت الکترونیک از طریق عملیات بلند مدت و تجزیه و تحلیل، تعداد زیادی از الگوهای رفتاری مشتریان را که در انبارداده ها ذخیره شده اند، بر اساس تقاضای بازار برای گروه های محصولات و مواضع فروش توسط تکنیک های وب کاوی ترکیب و استدلال می کنند. در نتیجه مدیران می توانند در مورد انواع و مقدار محصولات بر اساس عامل های بدست آمده، تصمیم گیری کنند و محصولات قابل فروشی را عرضه نمایند [Li & Feng 2010].
در این روش به سلایق مشتری و ایجاد پروفایل شخصی، اهمیت ظاهر و محتوای سایت، نوع محصولات انتخابی و تبلیغات موثر بر آن توجه شده است ولی شرایط سازمانی و رقابتی و تداوم ارتباط با مشتریان در نظر گرفته نشده است.
3-4- شخصی سازی وب
رتناکومار [Ratnakumar 2010] در سال 2010 شخصی سازی وب را یکی از روش های ارتباط با مشتری معرفی نموده و آن را به چهار دسته یا استراتژی تقسیم می کند:
(1) به یاد سپاری: ساده ترین و گسترده ترین شکل شخصی سازی است، اطلاعات مشتری مانند نام و تاریخ مشاهده سایت ذخیره می شود و بعد از آن برای به رسمیت شناختن و خوش آمد گویی به مشتری استفاده می شود.
(2) سفارشی سازی: در این حالت ترجیحات مشتری در فرم های ثبت نام به منظور سفارشی کردن محتوا و ساختار یک صفحه وب به کار می رود. این فرآیند می تواند به صورت استاتیک یا حالت نیمه اتوماتیک انجام شود.
(3) سیستم های راهنما یا توصیه گر: بر اساس سیستم راهنما به طور خودکار لینکی که مربوط به سلایق مشتری است به منظور تسهیل در دسترسی به اطلاعات مورد نیاز در یک وب سایت بزرگ، پیشنهاد می شود. این روش معمولا متکی بر داده هایی است که منعکس کننده علاقه مشتری به طور ضمنی (مانند تاریخچه مرور وب سایت ثبت شده) و یا به طور صریح (از طریق پرسشنامه یا فرم ثبت نام) می باشد.
(4) پشتیبانی از عملکرد: در این سیستم یک دستیار شخصی عملیات را از طرف مشتری، به منظور تسهیل دسترسی به اطلاعات مربوطه اجرا می کند. این رویکرد نیاز به وارد شدن به قسمت هایی از جمله دسترسی، نصب، راه اندازی و تعمیر و نگهداری از نرم افزار دستیار شخصی دارد و همچنین دارای دامنه بسیار محدودی است که نمی تواند از اطلاعات مربوط به مشتریان دیگر با علایق مشابه استفاده کند.
این روش نیز مانند روش قبلی به سلایق مشتری و ایجاد پروفایل شخصی اهمیت می دهد، همچنین سهولت استفاده از سایت را نیز در نظر می گیرد، اما بر خلاف روش قبلی نسبت به ظاهر و محتوای سایت، نوع محصولات انتخابی و تبلیغات موثر بر آن بی توجه است و همچنین شرایط سازمانی و رقابتی و حفظ وفاداری مشتریان را مورد توجه قرار نمی دهد.
3- 5- سیستم هوشمند مدیریت ارتباط با مشتری

امتیاز و کیوان پور [Emtiyaz & Keyvanpour 2011] در سال 2011 سیستم مدیریت هوشمند ارتباط با مشتری را معرفی نموده اند که بر اساس تحلیل های وب کاوی مدیریت مشتری را هدایت می کند، اطلاعات را از کانال های مختلف بدست می آورد، ارتباطات را بین بخش های مختلف اصلاح می کند، سازماندهی و بررسی فعالیت های عملیاتی و فهم مناسب تجارت را بر عهده دارد. بنابراین مشتری کانال ارتباطی با شرکت یا سازمان را مطابق با سلیقه شخصی خود برای دریافت بهترین خدمات انتخاب می کند. مزایا و معایب این روش مشابه با روش شخصی سازی وب می باشد.
5- روش Visual Web Log Miner
تیواری و همکاران [Tiwari et.al 2011] در سال 2011 روش Visual Web Log Miner را معرفی نموده اند که شامل پنج لایه یکپارچگی، نشست، داده، موتور پیشنهادی و ابزارهای تجسمی است. در لایه یکپارچگی، عملیاتی نظیر استخراج، پاکسازی، انتقال و بارگذاری برای پردازش آینده داده ها استفاده می شود. این لایه از الگوهایی مانند XQuery، XSLT و XML برای ذخیره در انبار داده استفاده می کند. لایه نشست به منظور متصل کردن نمونه های وب سرویس ها و صفحات وب به مشتری استفاده می شود. این لایه برای بررسی نحوه استفاده ترکیب وب سرویس ها توسط مشتری مهم است. لایه داده، انبار داده هوشمند داده های ورودی و وقایع پیش پردازش شده، نشست های هوش تجاری و اطلاعاتی در مورد اجرای وب سرویس ها را ذخیره می کند. لایه موتور پیشنهادی، موتور داده کاوی است و مسئول بارگذاری مخازن داده های XML از پایگاه داده، اجرای دستورات SQL و اجرای الگوریتم های داده کاوی است. این لایه توسط سیستم پردازش تحلیلی آنلاین و تکنیک های داده کاوی برای شناسایی قوانین تجاری مناسب مانند دسته بندی مشتریان، جریان کلیک ها و ارتباط بین مشتریان و محصولات استفاده می کند.
از جمله مزایای این روش بهره گیری مناسب از تکنولوژی های مرتبط با وب کاوی، نمایش رابطه متقابل و وابستگی بین اجزای مختلف، کشف حساسیت ها و انجام تقریبی بهینه سازی می باشد اما عدم توجه به شرایط رقابتی و حفظ وفاداری مشتریان، عدم توجه ظاهر سایت و نوع محصولات انتخابی و تبلیغات موثر بر آن، عدم توجه به شناخت علایق و سلایق مشتری از نقاط ضعف این روش می باشد.
3-7- تحلیل جریان های کلیک
کلودیا [Claudia 2011] در سال 2011 در پروژه - ریسرچخود تحلیل و بررسی جریان های کلیک را برای مدیریت ارتباط با مشتری در دنیای مجازی مناسب می داند. جریان کلیک به معنای ترتیب صفحات وبی است که توسط کاربر بازدید شده است. زمانی که بازدید کننده به وب سایت دسترسی پیدا می کند، سرور تمام فعالیت هایی را که بازدید کننده انجام داده است را در فایل های ثبت وقایع نگهداری می کند و نشست کاربر ترتیب صفحاتی وبی از چندین سایت را که کاربر در یک دوره زمانی مشاهده کرده است، شرح می دهد. هر کلیک از موس مطابق با یک درخواست صفحه است و ترتیبی از کلیک ها مطابق با ترتیبی از لینک ها می باشد. تحلیل جریان های کلیک های پی در پی می تواند برای درک رفتار کاربر مورد استفاده قرار بگیرد. توسط این تحلیل می توان دریافت که کاربر به چه صفحاتی علاقه مند بوده یا مدت بیشتری بر روی آن درنگ کرده است و از چه صفحاتی سریعا رد شده است. به طور کلی دو نوع تحلیل برای جریان های کلیک استفاده می شود:
تحلیل ترافیک
تحلیل تجارت الکترونیک.
3-7-1- تحلیل ترافیک
تحلیل ترافیک، به بررسی رفت و آمدهای کاربر توسط جمع آوری داده های مربوط به کلیک ها که در سرور ذخیره شده است، می پردازد. این تحلیل همچنین تعداد دفعاتی را که کاربر صفحات را در طول پیمایش بارگذاری کرده است، ثبت می کند.
3-7-2- تحلیل تجارت الکترونیک
در تحلیل تجارت الکترونیک، از جریان کلیک های داده برای تعیین بازاریابی اثربخش توسط ارزیابی رفتار کاربر در طول بازدید سایت و بررسی تراکنش های فروش، استفاده می شود. این تحلیل، شاخصی است که درجه راحتی کاربر را در استفاده از فرم های مربوط به واسط کاربر، استفاده از کارت های خرید، نحوه پرداخت و ... را مشخص می نماید.
تحلیل جریان های کلیک یکی از جنبه های مهم کسب و کار و تبلیغات آنلاین است زیرا چگونگی تغییر مکان کاربران را از یک صفحه به صفحات دیگر را ثبت می کند و می تواند باعث درک مشتریان بالقوه شود. اگر کاربر در صفحاتی درنگ داشته باشند، این احتمال می رود که به محتوای آن صفحه علاقه مند بوده است.
با ساخت پروفایل کاربر برای سایت هایی مشخص، تحلیل جریان کلیک می تواند برای طراحی مناسب وب سایت و افزایش رضایتمندی مشتریان موثر واقع شود و همچنین مکان های مناسب قرار دادن تبلیغات را مشخص نماید. توسط لینک های تبلیغاتی کاربر از صفحه مبدا به صفحات دیگری ارجاع داده می شود و با تحلیل جریان های کلیک می توان نوع صفحات و سایت هایی را که کاربر به آن علاقه مند است را تعیین نمود یا کاربر را مستقیما به محلی که می تواند از آن جا مراحل خرید را انجام دهد، انتقال داد. هدف اصلی کمک به تبلیغات موثر، نمایش ارتباط بین تبلیغات و صفحات اینترنتی است که در نهایت منجر به خرید گردد.
تحلیل جریان کلیک، همچنین می تواند برای شخصی سازی استفاده گردد، به این صورت که با تحلیل سبد خرید مشتریان، کالاهایی را که بیشتر مورد توجه مشتری است را در کنار هم قرار داد. بنابراین می تواند نحوه چیده شدن محصولات در صفحات وب و طراحی فروشگاه مجازی را مطابق با سلیقه مشتری انجام داد و اجناس تخفیف دار را در کنار هم قرار نداد. این روش علاوه بر بهبود وضعیت فروشندگان، می تواند در جذب و ترغیب مشتریان برای خرید مورد استفاده قرار بگیرد.
به طور کلی مزایای این روش توجه به مشتری و نحوه پیمایش سایت توسط وی، توجه به طراحی مناسب سایت در جلب توجه مشتریان و نحوه ارائه و چیده شدن محصولات و نمایش مناسب تبلیغات است اما ضروری است که شرایط رقابتی به طور کامل در نظر گرفته شود تا ضمن جذب مشتریان بتوان در جهت حفظ رضایتمندی و وفاداری آنان گام برداشت.
3-8- روش های مشاهده اطلاعات کاربران
مالاپاتی و همکاران [Malapati et.al 2012] در سال 2012 در پروژه - ریسرچخود به منظور شناسایی الگوهای پنهان موجود در رفتار کاربران و مشاهده اطلاعات مربوط به آنان سه روش پیشنهاد داده اند: وب سرور، وب پروکسی سرور، مشتری کاربر.
در فایل های ثبت وقایع وب سرور، در یک وب سایت اطلاعات چندین کاربر که ثبت شده است؛ مشاهده می شود. در وب پروکسی سرور، اطلاعات چندین کاربر که از چندین وب سایت ثبت شده است؛ مشاهده می شود و در روش سوم اطلاعات ثبت شده یک کاربر که از چندین وب سایت ثبت شده است؛ مشاهده می گردد. ثبت وقایع در روش اول و دوم به صورت خودکار است ولی در روش سوم برای ثبت نیاز به نرم افزار اختصاصی است. روش اول، روشی کاملا ساخت یافته است که در شکل 3-3 معماری مربوط به آن مشخص شده است.

شکل 3-3- معماری روش وب سرور [Malapati et.al 2012]

روش پروکسی سرور، دشوارتر از روش اول است زیرا شناسایی رفتار حقیقی کاربر مشکل است، برای مثال آدرس های IP مشابهی می تواند توسط افراد متعددی استفاده شود ولی این امتیاز وجود دارد که می توان برای افراد رمز ورودهای منحصر به فردی قرار داد. در این روش ارتباطات چند به چند وجود دارد یعنی یک کاربر می تواند به سایت های زیادی دسترسی داشته باشد و تعدادی کاربر می توانند فقط یک سایت را بازدید کنند.
فایل های ثبت وقایع توسط وب سرور برای نگهداری مسیر درخواست هایی که در یک وب سایت به وقوع می پیوند، مورد استفاده قرار می گیرند و شامل چندین قسمت می باشند؛ تاریخ که به صورت YYYY-MM-DD چهار رقم برای سال و دو رقم برای ماه و روز می باشد. زمان که به صورت HH:MM:SS دو رقم برای ساعت، دقیقه و ثانیه می باشد. آدرس IP کلاینت که شماره کامپیوتری است که توسط آن دسترسی یا درخواست به سایت صورت گرفته است. اعتبار سنجی کاربر که برخی از وب سایت ها به منظور برقراری امنیت برای ورود کاربران نام کاربری و رمز عبور در نظر می گیرند. زمانی که کاربر این اطلاعات را وارد می کند، این موارد در فایل ثبت وقایع قرار می گیرد. نام و آدرس IP سرور، IP ثابتی است که توسط ارائه دهنده سرویس اینترنت فراهم شده است و مرجعی برای دسترسی به اطلاعات سرور است. پورت سرور که برای ارسال داده ها استفاده می شود. درخواستی که از سرور شده است که می تواند درخواست تصویر، صدا، فیلم، متن، فایل و ... باشد. مسیر میزبان است که برای نمایش ساختار وب سایت مورد استفاده قرار می گیرد. کد وضعیت که توسط سرور برگشت داده می شود و توسط سه رقم تعریف می شود که چهار وضعیت در بارگذاری صفحات دارد: کد 200 به معنای موفقیت، کد 300 به معنای ارجاع، کد 400 به معنای شکست، کد 500 به معنای خطای سرور.
تحلیل وضعیت کاربر شامل بررسی فایل های نشست و تعیین هویت کاربر است. در فایل نشست کاربر، مشخص می گردد که چه کسی به چه سایتی مراجعه کرده است، کدام صفحات را و به چه ترتیبی درخواست داده است و چه مدت آن ها را مشاهده کرده است. اگر کاربران اطلاعات خود را در زمان ورود، درج نمایند؛ شناسایی آنان به راحتی امکان پذیر است ولی در واقعیت بیشتر کاربران اطلاعات خود وارد نمی کنند و عواملی مانند استفاده از کامپیوتر مشترک، وجود دیواره های آتش و استفاده از چندین مرورگر شناسایی کاربران را مشکل می سازد. با استفاده از کوکی ها می توان رفتار کاربران را ردگیری کرد ولی با توجه به مسائل مربوط به حفظ حریم شخصی، استفاده از آن مجاز نمی باشد [Sheetal et.al 2012].
محتوا کاوی وب با ترکیب تحلیل های مربوط به فایل های ثبت وقایع و وضعیت کاربر به ارزیابی، طراحی و اصلاح ساختار وب سایت است و همچنین برای درک و تحلیل رفتار بازدیدکنندگان از دو جنبه علاقه و اطلاعات هر دسترسی و نحوه دسترسی به اطلاعات می پردازد. محتوا کاوی وب طی مراحل آماده سازی داده ها، کشف الگو و تحلیل الگو به طراحی و اصلاح ساختار سایت کمک می کند [Parvin Nina et.al 2009].
تمرکز این روش بر مشاهده و تحلیل رفتار کاربران است ولی اگر کاربر مورد تحلیل مشتری یک فروشگاه مجازی باشد، عدم توجه به شرایط بازار، شرایط رقابتی و نیازمندی های شرکت ها می تواند نقش به سزایی در کاهش سودآوری و پیشروی شرکت ها داشته باشد.
3-9- هوش تجاری
راهی و تاکور [Rahi & Thakur 2012] در سال 2012 مسئله هوش تجاری را در زمینه وب کاوی در حوزه تجارت الکترونیک مطرح نموده اند. هوش تجاری به شرکت ها و سازمان ها در تشخیص نقاط ضعف و مستحکم نمودن نقاط قوت کمک کرده و بهینه‌سازی فرآیندها را تسهیل می نماید و در پی داشتن دانش عمیق نسبت به همه عوامل مانند مشتریان، رقبا، محیط اقتصادی، عملیات و فرآیندهای سازمانی برای تصمیم گیری موثر است.
شرکت ها می توانند از ابزارهای هوش تجاری برای ارتباط با مشتریان استفاده می کنند. هوش تجاری به تحکیم، تحلیل و دسترسی به حجم وسیعی از داده ها برای اتخاذ تصمیمات تجاری کمک می کند. از ابزارهای اصلی هوش تجاری، سیستم پردازش تحلیلی آنلاین، داده کاوی و وب کاوی می باشد. پردازش تحلیلی آنلاین از تجزیه و تحلیل چند بعدی پشتیبانی می کند و انجام پرس و جوهای پیچیده را در حجم وسیعی از داده ها انجام می دهد و تکنیک های داده کاوی و وب کاوی، از میان حجم وسیعی از اطلاعات، الگوهای رفتاری مشتریان تشخیص می دهد [Dien & Douglas 2010]. ابزارهای هوش تجاری می توانند به سوالاتی مانند چگونگی راضی و شاد نگهداشتن مشتریان، جذب مشتریان بالقوه، دلایل عدم وفاداری و مراجعه به شرکت های رقیب پاسخ دهد [Al-Azmi 2013]. تکنیک های داده کاوی و وب کاوی موثر در زمینه تجارت و هوش تجاری در جدول 3-1 دسته بندی شده است.
جدول 3-1- تکنیک های موثر در زمینه تجارت و هوش تجاری [Rahi & Thakur 2012]
عملیات کاربرد روش ها
بازاریابی پیشنهاد محصول و روند تولید آن قوانین اجتماع و داده کاوی سری های زمانی
مدیریت فروش فروش محصولات یادگیری نظارتی چند مرحله ای
مدیریت امور مالی شناسایی کلاهبرداری ها ارتباط کاوی
فناوری اطلاعات کاهش روندهای تکراری خوشه بندی و متن کاوی
سرویس دهی به مشتریان ارائه پیشنهاد برای کارشناسان قوانین اجتماع، متن کاوی و تحلیل ارتباطات و مسیر
انبارداری و حمل و نقل مدیریت انبارداری خوشه بندی، قوانین اجتماع و پیش بینی
مدیریت فرآیند تجاری فرآیند کاوی خوشه بندی و قوانین اجتماع
منابع انسانی مراکز فراخوانی منابع انسانی الگوهای ترتیبی، قوانین اجتماع و خوشه بندی

هوش تجاری در زمینه وب کاوی در حوزه تجارت الکترونیک به تشخیص نقاط ضعف و تقویت نقاط قوت سازمان ها و بهینه‌سازی فرآیندها می پردازد و به نیازها و سلایق مشتریان توجه دارد اما پیاده سازی و هماهنگ سازی استراتژی های سازمان با اهداف هوش تجاری هزینه بر می باشد.
3- 10- مدیریت ارتباط با مشتریان الکترونیکی
فیض بخش توانا و همکاران [Feizbakhsh Tavana et.al 2013] در سال 2013 در پروژه - ریسرچخود، نسخه جدید CRM، e-CRM را معرفی می کنند که تاکید بیشتری بر شخصی سازی، تکنولوژی های بازاریابی مستقیم برای فروش و فرآهم آوردن خدمات مشخص و مجزا برای بخش های کوچک بازار دارد. e-CRM فرصت هایی را برای برخورد مناسب با مشتریان و ارتباط موثر با شرکت ها فراهم می آورد که هم مشتریان و هم شرکت ها از مزایای آن بهره برند. با استفاده از سیستم های شبکه مانند اینترنت، اینترانت و اکسترانت می توان کارایی تجارت های الکترونیک را بهبود بخشید و رضایت هر چه بیشتر مشتریان را فراهم آورد.
در جدول 3-2، در بازاریابی سنتی، یک نوع از محصولات برای همه برنامه های بازاریابی و برای همه افراد به صورت یکسان عرضه می شود (وضعیت 1). با شکل گیری مدیریت ارتباط با مشتری و با افزایش کانال های ارتباطی، بازاریابی فرد به فرد صورت می پذیرد (وضعیت 2). در نهایت با استفاده از فناوری اطلاعات در مدیریت ارتباط با مشتری، e-CRM به وجود می آید که از مزایای فناوری اطلاعات برای عرضه محصول مخصوص برای هر مشتری استفاده می شود.
جدول 3-3، ارتباط بین فرآیندهای بازاریابی، اهداف، بازاریابی انبوه سنتی، مدیریت ارتباط با مشتری و فناوری اطلاعات استفاده شده در مدیریت ارتباط با مشتری را نشان می دهد.
جدول 3-2- گام های e-CRM [Feizbakhsh Tavana et.al 2013]
تعداد کانال های ارتباطی e-CRM (وضعیت 3) CRM (وضعیت 2) بازاریابی فرد به فرد نگرش بازاریابی
بازاریابی سنتی (وضعیت 1) محصول مخصوص برای هر مشتری یک نوع از محصولات برای همه بازاریابی انبوه مشخصه های محصول جدول 3-3- ارتباط بین بازاریابی، اهداف، مدیریت ارتباط با مشتری و فناوری اطلاعات [Feizbakhsh Tavana et.al 2013]
فرآیند تعیین هویت تفکیک تعامل شخصی سازی
هدف تعیین مشتری منحصر به فرد ارزیابی ارزش ها و نیازهای مشتری برقراری ارتباط مداوم تکمیل نیازهای مشتری
خلق منفعت
بازاریابی انبوه سنتی - دسته بندی مراکز تلفن فروش
خدمات
CRM ایجاد پروفایل مشتری تحلیل سطوح فردی مدیریت مراکز تلفن
سیستم های پاسخگویی خودکار اتوماسیون فروش
اتوماسیون فرآیندهای بازاریابی
فناوری اطلاعات کوکی ها
شخصی سازی وب سایت ها داده کاوی
یادگیری سازمانی نرم افزارهای مبتنی بر وب و ارتباطات بدون سیستم مدیریت منابع
تجارت الکترونیک
برای پیاده سازی e-CRM از ابزارهای فناوری اطلاعات نظیر پرتال ها، ایمیل، سیستم های پاسخگویی خودکار، کاتالوگ های آنلاین، علائم تجاری و ... استفاده می شود. قابلیت این ابزارها توسط موارد زیر اندازه گیری می شود:
مورد اول، نزدیکی واسط کاربر است که مشخص می کند که چه مقدار شرکت به مشتریانش نزدیک است. مورد دوم، مربوط به بازاریابان است که باید ارزش واقعی پیاده سازی و نگهداری از ابزارها را در نظر بگیرند، اما باید توجه داشت که این معیار نسبی است و مقدار مطلقی ندارد. مورد سوم، شخصی سازی است که به معنای استفاده از یک ابزار برای درک الگوهای رفتار مشتری و نیازهایش می باشد و مورد چهارم، تعیین تعداد واقعی کاربران است که این مورد در جدول 3-4 تحت عنوان "توانایی" مشخص شده است.
جدول 3-4- پیاده سازی چارچوب e-CRM [Feizbakhsh Tavana et.al 2013]
شخصی سازی کم زیاد توانایی کم توانایی زیاد توانایی کم توانایی زیاد ارزش زیاد زیاد واسط کاربر
پاسخگویی خودکار
پرتال ها
GIS
مسیریابی کاربران
مراکز پاسخگویی تلفنی و ... برنامه های وابسته ارتباطات ارزش کم ارزش زیاد کم علائم تجاری کاتالوگ آنلاین
پرسش های متداول
دانلودها ایمیل ارزش کم برای موفقیت e-CRM پیاده سازی عوامل زیر نقش کلیدی دارد[Feizbakhsh Tavana et.al 2013]:
1- آموزش کارمندان سازمان: کارمندان باید بتوانند با مشتریان ارتباطی مناسب و شایسته داشته باشند و از فناوری های جدید در این راستا بهره ببرند.
2- مرور فرآیند ها و طراحی فرآیندهای جدید: سازمان ها بدون طراحی مناسب و منطقی فرآیندها نمی توانند در بدست آوردن اهدافشان پیروز شوند.
3- پیاده سازی فناوری های جدید: سازمان ها برای پیاده سازی e-CRM ملزم هستند تغییراتی در سازمان، ساختارها، قواعد تجاری، پایگاه داده ها و ... ایجاد نمایند.
اگر سازمان ها بدون تدوین استراتژی های مناسب و جامع نسبت به انجام تغییرات اقدام کنند، مواردی مانند ناهماهنگی بین وضعیت سازمان و e-CRM، عدم انعطاف پذیری در طرح های سازمان، عدم درک فرآیندهای تجاری سازمان، عدم تطابق با نیازهای سازمان و مشتریان، عدم حفظ حریم خصوصی مشتریان به صورت مناسب و ... پیش خواهد آمد.
با توجه به مطالب فوق، سرعت بالا، بیشتر بودن درآمد در مقایسه با هزینه ها، دسترسی دائم، سودمندی داده ها، یکپارچگی و از مزایای e-CRM و هزینه تقریبا بالای پیاده سازی و هماهنگ سازی استراتژی های سازمان با اهداف مدیریت ارتباط با مشتریان الکترونیک از معایب این روش می باشد.
3-11- مدل رفتاری مشتریان
سدات [Sadath 2013] در سال 2013 در پروژه - ریسرچخود، مدل رفتاری مشتریان را پیشنهاد می دهد. این مدل سیستمی را توصیف می کند که در آن داده های قدیمی مشتریان قرار می گیرد و یک مدل پیشگویانه مناسب در موتور امتیاز بندی اجرا می گردد. موتور امتیاز بندی یک نرم افزار کاربردی است که برای ارزیابی توابع ریاضی روی مجموعه ای از داده های ورودی به کار می رود. در فرآیند امتیاز بندی مجموعه ای از مشتریان که رفتار و علایق مشابهی دارند، شناسایی شده و در پایگاه داده یا جدولی مشخص گروه بندی می شوند و امتیاز مشخصی به آن ها داده می شود. در مرحله تحلیل با استفاده از تبدیل داده ها، گزارش ها، الگوریتم های داده کاوی، امتیاز بندی و ... فضای تصمیم گیری به وجود می آید. مرحله داده بین اجزای تعریف داده تجاری و تعاملات مشتری ارتباط برقرار می کند. انبار داده ساخته شده، داده جمع آوری شده از تعاملات مشتریان به مرحله تحلیل انتقال می دهد. در شکل 3-4 این مدل به طور کامل به تصویر کشیده شده است.

شکل 3-4- مدل رفتاری مشتریان [Sadath 2013]

در مدل رفتاری مشتریان تمرکز بر مشتریان و گروه بندی علایق آنان است اما پیمایش های کامل از جداول بزرگ در چندین نوبت، سیستم های پیچیده پردازش آنلاین، زمان بری بالا، انبار داده های بزرگ از معایب این روش است. این مدل برای زمانی که پیش بینی ها اشتباه هستند یا مواقعی که احتمال کلاه برداری بالاست مانند بخش های مالی توصیه نمی گردد.
3-12- وب سایت های انطباقی
اسحاقی و گاوالی[Eshaghi & Gawali 2013] در سال 2013 در پروژه - ریسرچخود به معرفی وب سایت های انطباقی پرداخته اند. وب سایت های انطباقی ساختار و محتوا یا ارائه اطلاعات برای پاسخگویی به اندازه گیری تعاملات کاربر با سایت را تنظیم می نمایند و تعاملات آینده کاربر را بهینه سازی می نمایند. این وب سایت ها، به صورت خودکار سازمان هایشان را بهبود می بخشند و الگوهای دسترسی کاربران را نمایش می دهند. الگوهای تعاملی کاربران ممکن است به صورت مستقیم از وب سایت جمع آوری شود یا از فایل های ثبت وقایع مربوط به وب سرور استخراج گردد. در وب سایت های انطباقی، محتوا و ساختار سایت بر اساس داده های استخراج شده از رفتار کاربر به صورت پویا سازماندهی مجدد می گردد.
این روش بر مسیر حرکت کاربر و الگوهای رفتاری مشتریان تمرکز دارد اما نیازهای سازمانی و شرایط رقابتی را در نظر نمی گیرد.
3-13- خلاصه فصل
در این فصل به برخی از روش های موجود در زمینه مدیریت ارتباط با مشتری و تجارت الکترونیک توسط تکنیک های وب کاوی اشاره شد و مزایا و معایب هر روش بیان گردید. همانگونه که مشاهده شد، روش های معرفی شده به طور کامل تمام مباحث مربوط به این حوزه را تحت پوشش قرار نمی دهند و هر روش به صورت مجرد و مجزا برخی از موارد را در نظر می گیرد. در ادامه روشی ارائه خواهد شد که ضمن در نظر گرفتن نکات مفید مطرح شده در روش های لی و فنگ، شخصی سازی وب، تحلیل جریان های کلیک، هوش تجاری، e-CRM و مدل رفتاری مشتریان و با توجه به نیازمندی های یک مشتری الکترونیکی به بیان مواردی می پردازد که برای جلب و حفظ وفاداری مشتریان اهمیت دارد.
فصل چهارم
4- ارائه روش پیشنهادی
4-1- مقدمه
در این فصل روشی برای مدیریت ارتباط با مشتریان در حوزه تجارت الکترونیک توسط تکنیک های وب کاوی معرفی خواهد شد که با الهام از نکات مفید مطرح شده در روش های لی و فنگ، شخصی سازی وب، تحلیل جریان های کلیک، هوش تجاری، e-CRM و مدل رفتاری مشتریان است و در پی افزایش میزان رضایت مشتریان و در نتیجه افزایش سودآوری شرکت ها و سازمان ها است، سپس به منظور ارزیابی روش پیشنهادی، نیازمندی ها و توقعات مشتریان اینترنتی توسط فنون متداول وب کاوی سنجیده خواهد شد.
4-2- معرفی روش پیشنهادی
روش معرفی شده، چارچوبی برای به کارگرفتن تکنیک های وب کاوی به منظور کمک به سایت های تجارت الکترونیک برای اجرای مدیریت ارتباط با مشتری است. با این چارچوب می توان فهمید که چگونه مدیریت ارتباط با مشتری می تواند از وب کاوی سود ببرد و در نتیجه موجب بهبود خدمات در سایت های تجارت الکترونیک شود. مدیران بدین وسیله می توانند توقعات مشتریانشان را بهتر بشناسند و در راستای تحقق آن ها گام بردارند. این روش پنج بخش اصلی دارد که سبب واضح شدن محیط مدیریت ارتباط با مشتری در سایت های تجارت الکترونیک می شود:
1- توسعه دانش تجاری
2- تجزیه و تحلیل نیازمندی ها برای طراحی سایت
3- تحلیل موقعیت سازمان در فضای رقابتی
4- انجام فعالیت های تجاری در دنیای مجازی
5- تهیه بازخورد از رفتار مشتریان و به روز رسانی وضعیت موجود در جهت پیشبرد اهداف سازمان
در ادامه بخش های بیان شده، تشریح شده و مشخص می گردد که در هر بخش از کدام روش های عنوان شده در مقدمه الهام گرفته شده است.
4-2-1- توسعه دانش تجاری و دانش مربوط به درک مشتریان
رضایتمندی مشتریان تحت تاثیر عواملی مانند کیفیت، قیمت، تحویل به موقع و خدمات پس از فروش قرار می گیرد. از نظر مشتری، یک محصول زمانی ارزشمند است که در برابر هزینه ای که می پردازد، مزیت ها و خدمات مناسبی دریافت کند و در این صورت است که یک شرکت می تواند در محیط رقابتی توانایی لازم را داشته باشد. مدیریت ارتباط با مشتری مشخص می کند که چه محصولات یا خدماتی، به چه مشتریانی، در چه زمانی و از چه طریقی عرضه گردد.
به منظور موفقیت در دنیای رقابتی ارائه مجموعه ای از محصولات ثابت از پیش تعیین شده برای همه مشتریان صحیح نمی باشد. مدیریت ارتباط با مشتری توسط ابزارهای تحلیل داده ها به مدیران کمک می کند تا بخش بندی های مشتریان را تشخیص دهد، به ارزش حاصل از مشتری در دراز مدت دست یابند، رفتار مشتری را پیش بینی کنند و تبلیغات بازاریابی موثری را طراحی و پیاده سازی کند. هر سازمان یا شرکتی برای شروع فرآیند ارتباط با مشتری، لازم است اطلاعات مربوط به مشتریان را در اختیار داشته باشد که می تواند از منابع داخلی مانند پرسشنامه ها و وبلاگ ها، سوابق کارت های اعتباری و منابع خارجی شامل نشانی ها، شماره تلفن ها و پروفایل های بازدید از سایت ها بدست آید. مدیرانی که امور مربوط به بازاریابی و نظارت بر محتوای سایت را بر عهده دارند، باید بتوانند برای مواردی مانند ویژگی های بازدیدکنندگان سایت، علت تمایل به خرید محصولات، نوع و میزان محصولات خریداری شده، برنامه های بازاریابی، نقاط ضعف و قوت سایت نسبت به سایر رقبا و ... پاسخ مناسبی بیابند تا جایگاه و موقعیت سایت را در تجارت الکترونیک بسنجند.
با توجه به مدل رفتاری مشتریان، مشتریان گروه بندی می شوند و توسط e-CRM، می توان بازاریابی فرد به فرد را انجام داد و از فناوری اطلاعات برای عرضه محصولات شخصی شده استفاده نمود.
4-2-2- تجزیه و تحلیل نیازمندی ها برای طراحی سایت
هنگام طراحی و ایجاد وب سایت توجه به مسائل زیر ضروری است:
1- تعریف اهداف و چشم انداز سایت تجارت الکترونیک
اهداف کوتاه مدت و بلند مدت مربوط به سایت تجارت الکترونیک چیست؟
2- تبیین و ایجاد اهداف سایت
تعریف مدیر از یک سایت موفق در زمینه تجارت الکترونیک چیست؟
نشانه های موفقیت سایت چیست و از چه طریقی می توان متوجه شد؟
سایت از منظر سازمان و مشتری چگونه توصیف می شود؟
3- تعریف مشتریان و اهداف مربوط به آنان
مشتریان سایت چه کسانی هستند؟
تعریف مدیر سایت از مشتریان بر چه اساسی می باشد؟ (شناسایی نیازها و ویژگی ها)
مشتریان به چه محصولاتی تمایل بیشتری دارند؟ (شناسایی علایق)
4- تحلیل و شناخت وظایف و فعالیت ها
مشتریان چه فعالیت هایی را در سایت انجام می دهند؟ (شناسایی محتوا و ترجیحات)
مشتریان به چه وی‍ژگی هایی از سایت بیشتر اهمیت داده یا بیشتر مورد استفاده قرار می دهند؟
چه مواردی برای موفقیت مشتری در تعامل با سایت ضروری است؟
چه جنبه هایی از سایت، دارای مشکل است و سبب آسیب پذیری سایت می شود؟
چه وظایفی برای موفقیت سازمان در زمینه طراحی و توسعه سایت و تجارت الکترونیک نقش کلیدی دارد؟
چه مواردی باعث می شود که مشتریان، سایت را مجددا بازدید نمایند؟
5- تعیین اهداف مورد نظر مشتریان
مشتریان باید چه فعالیت هایی را به راحتی، با حداقل خطا و به سرعت انجام دهند؟
مشتریان باید چه فعالیت هایی را به سرعت و با حداقل خطا به اتمام برسانند؟
رضایت مشتریان پس از استفاده از وب سایت چه میزان است؟
این موارد مشخص کننده کارآمدی، تاثیر گذاری و لذت به کارگیری سایت است.
6- تحلیل انتظارات و مشخص نمودن نیازمندی ها
دیدگاه مدیر راجع به ویژگی های سایت و آن چه که سایت باید انجام دهد، چیست؟
آیا در مورد سایت محدودیت و نقاط ضعفی وجود دارد؟
آیا سایتی وجود دارد که بتواند الگو و نمونه ای برای طراحی سایت مورد نظر باشد؟
کدام تکنیک ها می تواند در برطرف نمودن نیازمندی های سایت یاری رسان باشد؟
7- مشخص نمودن منابع موجود و تحلیل فناوری های موثر
چه منابع و ابزارهایی برای طراحی ظاهر و محتوای سایت در دسترس است؟
چه منابع و ابزارهایی برای جلب مشتریان و حفظ وفاداری آنان موجود است؟
چه منابع و ابزارهایی برای ایجاد مزیت رقابتی وجود دارد؟
چه کسانی مسئولیت ارتقا و توسعه سایت را بر عهده دارند؟
چه تکنیک هایی می تواند در بهبود طراحی سایت استفاده گردد؟
کدام تکنیک ها در حفظ مزیت رقابتی، تاثیر بیشتری دارد؟
چه تکنیک هایی می تواند در سنجش عملکرد سایت موثر باشد؟
با استفاده از ابزارهای هوش تجاری می توان برای سوالات فوق پاسخ های مناسبی یافت که نمایان گر جایگاه سازمان، موقعیت سایت و نیازمندی مشتریان در زمینه تجارت الکترونیک است.

4-2-3- تحلیل موقعیت سازمان در فضای رقابتی
در دنیای تجاری امروز، مشتریان به دنبال بدست آوردن حداکثر خدمات با حداقل هزینه می باشند و بنابراین با توجه به تحلیلی که در بخش قبل از سایت بدست می آید و به منظور ارتقای مزیت رقابتی می توان از روش لی و فنگ و شخصی سازی وب استفاده کرد. شخصی سازی سرویس، بهبود طراحی وب سایت، ارزیابی اثربخشی تبلیغات و یاری رساندن به انتخاب نوع محصولات، در ایجاد مزیت های رقابتی بسیار موثر است. ارائه محصولات قابل فروش و انجام فعالیت های بازاریابی مناسب و تبلیغات فراگیر از جمله مواردی است که در دنیای رقابت بسیار مورد توجه قرار می گیرد. همچنین ساختار، محتوا و ظاهر وب سایت و ایجاد پروفایل اختصاصی به منظور درک نیازها و سلایق مشتریان برای بهبود روابط با آنان، برای جلب نظر مشتریان بسیار اهمیت دارد. روش شخصی سازی وب با استراتژی های به یاد سپاری، سفارشی سازی، سیستم های توسعه گر و پشتیبانی از عملکرد در بهبود فعالیت های سازمان مورد استفاده قرار می گیرد. در این بخش نیز ابزارهای هوش تجاری می توانند به شرکت ها در تشخیص و ارزیابی نقاط ضعف و قوت یاری رساند.
4-2-4- انجام فعالیت های تجاری در دنیای مجازی
پس از عبور از سه بخش فوق، شرکت ها عملا وارد دنیای مجازی می شوند تا فعالیت های تجاری خود را آغاز نمایند. توجه به این نکته ضروری است که اگر چه ورود ممکن است همراه با دشواری باشد ولی ماندگاری و ایجاد اطمینان برای مشتریان برای تعاملات بلند مدت همواره دارای مشکلات و چالش های فراوانی است. در این بخش همواره باید از ابزارهای هوش تجاری و تحلیل های مربوط به جریان کلیک و مدل رفتاری مشتریان برای سود آوری و بازدهی شرایط موجود استفاده نمود.
تکنولوژی جریان های کلیک با مشخص نمودن رفتار خرید مشتریان، الگوهایی را تعیین می نماید و برای حفظ مشتریان سودآور، ارتقا عملکرد وب سایت و تهیه بیشتر محصولات سفارشی حمایت می کند. علاوه بر این شرکت های تجارت الکترونیک می توانند کیفیت محصولات خود را بهبود ببخشند یا مشکلات فروش خود را قبل از وقوع، پیش بینی کنند [Prasanth 2013].
4-2-5- تهیه بازخورد از رفتار مشتریان و به روز رسانی وضعیت موجود در جهت پیشبرد اهداف سازمان
در این مرحله چگونگی پاسخگویی وب سایت به اهداف مشتریان با توجه به دلایل بازدید و نیازمندی های آنان مشخص می گردد. بدین منظور لازم است مواردی مانند راحتی و سهولت استفاده از سایت در یافتن اطلاعات مربوط به محصولات یا خدمات، کارآمدی و انجام مناسب فعالیت های مورد نظر، قابلیت درک مشتریان از ظاهر و محتوای سایت و خرسندی و رضایت از تعامل با سایت سنجیده شود. به منظور جمع آوری اطلاعات، می توان فعالیت های زیر را انجام داد:
الف) ارزیابی تعاملات مشتریان با سایت که شامل پست های الکترونیکی، بخش ارسال سوال و تماس های تلفنی می باشد. مشتریان نیازها و درخواست های خود را معمولا از این طریق مطرح می نمایند.
ب) نظر سنجی آنلاین: در این بخش با قرار دادن پرسشنامه در وب سایت می توان سوالاتی با محوریت موضوعات مطرح شده فوق از مشتریان سوال نمود. با بررسی پرسشنامه ها می توان فهمید که به طور کلی مشتریان از محتوا و خدمات سایت رضایت دارند یا خیر؟
ج) بررسی سوابق مربوط به سایت و جست و جوها: سوابق مربوط به وب سایت نحوه استفاده مشتریان از سایت را مشخص می نمایند. از جمله مهمترین مواردی که در این بخش تحلیل و بررسی می شوند، شامل تعداد مشتریانی است که فقط صفحه اصلی را بازدید نموده اند، مشخص نمودن صفحاتی است که بیشترین بازدید کننده را داشته اند و محصولات یا خدماتی است که بیشتر مورد جستجو قرار گرفته است.
توسعه دهندگان وب با درک پروفایل کاربران و اهداف سایت، حقایقی از عادات کاربران را مشخص نمایند. آن ها همچنین می توانند از رفتار کاربران توسط تحقیق در وب و کشف الگوهای فعالیت مشاهده کنندگان سایت آگاهی یابند. تحلیل گران وب با استفاده از داده هایی که در فایل های ثبت وقایع وب موجود است، به اطلاعات پنهان و شیوه های پیشگویانه برای وب کاوی و تکنیک های کشف دانش دست یابند [Nithya & Sumathi 2012].
در این بخش نیز می توان از ابزارهای هوش تجاری و تحلیل های مربوط به جریان کلیک و مدل رفتاری مشتریان برای پیشبرد اهداف سازمانی بهره برد.
4-3- ارزیابی روش پیشنهادی

–248

2-5بررسی کروموزومی Boraginaceae s.str 23
2-6بررسی گرده شناسی Boraginaceae s.str 25
2-7تقسیمات تاکسونومیکی زیر تیره Boraginoideae (Boraginaceae s.str) 26
2-8مطالعات مولکولی DNA 27
2-9تولید مثل و گرده افشانی 27
2-10مطالعات پیشین تیره Boraginaceae s.str: 28
2-11اختصاصات بیوشیمیایی و شیمیایی تیره 29
2-12کاربرد اقتصادی تیره 29
2-13مصارف اقتصادی و دارویی 30
2-14 برخی از توالی های ژنی مورد استفاده در سیستماتیک مولکولی 31
2-14-1 توالی های DNA هستهای 31
2-15 PCR اساس مارکرها 32
2-15-1 اجزای واکنش زنجیره‌ای پلیمراز(PCR) 33
2-15-2آغازگر 33
2-15-3 آنزیم 34
2-15-4الگو 34
فهرست مطالب
عنوان صفحه
2-15-5 دزاکسی ریبونوکلئوزید تری‌فسفات‌ها 34
2-15-6کلرید منیزیم 34
2-15-7 بافر 35
2-15-8 مراحل تکثیر 35
2-16 درخت فیلوژنتیک 35
فصل سوم: مواد و روش ها37
3-1مطالعه منابع 38
3-2مطالعه هر بار یومی 38
3-3استفاده از DNA در سیستماتیک مولکولی 38
3-4بررسی روابط فیلوژنی بر اساس صفات مولکولی 40
3-4-1استخراج DNAاز برگ 40
3-4-2تکثیر قطعات مورد نظر با استفاده از واکنش زنجیره ای پلیمر از 42
3-4-3الکتروفورزژل آگارز 43
3-4-4تعیین توالی مناطق تکثیر شده 45
3-5آنالیز فیلوژنی 45
3-5-1روش ماکزیمم پارسیمونی 46
3-5-2روش Bayesian 46
3-5-3مقایسه دو روش آنالیزی ماکزیمم پارسیمونی و Bayesian 47
فصل چهارم: بحث و نتیجه گیری49
4-1 انالیز ماکزیمم پارسیمونی 50
4-2 انالیز Bayesian 52
4-3 فیلوژنی قبیله Cynoglosseae 54
4-4 روابط فیلوژنی جنس Rindera 55
منابع 61
فهرست شکل ها
عنوان صفحه
شکل 1-1 7
شکل 1-2 8
شکل 1-3 25
شکل 1-4 28
شکل 1-5 39
شکل 1-6 44
شکل 1-7 44
شکل 1-8 45
شکل 1-9 45
شکل1-10 51
شکل1-11 53
فهرست جداول
عنوان صفحه
جدول 1-1 گزارش عدد پایه کروموزومی تعدادی از گونه های Boraginaceae در ایران 24
جدول 1-2 مقایسه دریچه دانه گرده بین قبیله های Boraginaceae s.str 26
جدول 1-3 تاکسون های مورد استفاده برای تکثیر قطعه - جدول nrDNA ITS 40
جدول 1-4 توالی آغازگر های مورد استفاده برای تکثیر قطعه - جدولnrDNA ITS 42
جدول1-5 ترکیبات مورد استفاده برای مخلوط کلیpcr 42
جدول 1-6 برنامه مورد استفاده برای واکنش PCR قطعه ITS nrDNA 43
چکیده
تیره گاوزبان دارای 100 جنس و 1600 گونه بوده و دارای پراکنش جهانی می باشد. این تیره هم اکنون در گروه EuasteridsI واقع شده ودر بین راسته های این گروه جایگاهی ندارد. از مهمترین قبیله های تیره
s. str Boraginaceae در ایران، می توان قبیله هایBoragineae, Lithospermeae, Cynoglosseae, Echiochileae, Echieae, را نام برد در تحقیق حاضر 5گونه با استفاده از توالی nrDNAITS، به روش بیشنه صرفه جویی (mp: Parsimony Maximum) تعبیه شده در نرم افزار PAUP*4.0b10 و همچنین با روش Bayesian با نرم افزارVersion3.12 Mr Bayes آنالیز شدند. توالی همردیف سازی شده nrDNAITS دارای 658 جایگاه نوکلئوتیدی می باشد. که از این توالی ITS نشان داد جایگاه 146 جایگاه برای توالی nrDNAITS اطلاعاتی می باشد آنالیز انجام شده بر اساس داده های توالی ITS نشان داد،، قبیله Cynoglosseae تک تبار نمی باشداز این قبیله 5 گونه از جنس Rinderaو 3 گونه از جنس Cynoglossum آنالیز شدند و دو گونه از قبیله Lithospermeae مورد آنالیز قرار گرفتند .
و دو گونه HeliotropiumBacciferum, TournefortiaRubicunda به عنوان برون گروه قرار گرفتند قبیله Cynoglesseae دارای فندقه های خاردار است که در سطح پشتی – شکمی تخت و گاهی در حاشیه بالدارند در آنالیز انجام شده نشان داده شد که بین گونه های جنس Rindera روابط حل نشده است وبا جنس Cynoglossum در یک کلاد با حمایت قوی قرار گرفته اند
کلمات کلیدی: توالی هسته ای nrDNA ITSفیلوژنی مولکولی، Cynoglesseae ،Rindera ، تیره گاوزبان
534670108585فصل اول
مقدمه
00فصل اول
مقدمه

1-1تیره گاو زبان (Boraginaceae)
تیره Boraginaceae یا گاوزبانیان یکی از تیره های بزرگ گیاهان و دولپه های حقیقی است. جنس معروف آن Borago است که ازکلمات لاتین Bor و ago به معنای من محرک قلبم مشتق شده و از این نظر که گیاهان این تیره دارای اثر درمانی روی قلب می باشند، تیره را به این نام نامیده اند (خوش سخن، 1388)
تیره Boraginaceae در کلاد Euastrid I (Lamiids) قرار می گیرد که در حال حاضر در میان هیچ یک از راسته های این کلاد جای نگرفته است (APG III 2009) تیره Boraginaceae (subfamily Boraginaceae) دارای 100 سرده و حدود 1600 گونه در دنیا با مراکز پراکنش در اوراسیا می باشد (Weigend et al., 2010)
در فلور ایران Boraginaceae s.I دارای 41 سرده و 218 گونه و Boraginaceae s.str دارای 36 سرده و حدود 180 گونه است. (Khatamsaz, 2002)
در تیره Boraginaceae s.i دو جنس Onosma و Heliotropium بیشترین گونه ها را دارند. تقریبا درتمامی مناطق کشور و در رویشگاه های مختلف پراکنده شده اند. در مناطق کویری و کوهستانی دیده می شوند و گونه هایی از آنها نیز به صورت علف های هرز مزارع و یا در مجاورت مناطق مسکونی و زمین های مخروبه می رویند (kazempour Osaloo,1993)
تیره Boraginaceae s.str شامل یک سری گونه های علفی دو جنسی، ندرتا درختی و درختچه ای اغلب با پوششی از کرک یا موهای زبر، برگ ها معمولا ساده و بدون گوشواره، گل آذین گرزن دم عقربی ساده یا مرکب یا خوشه ای، کاسه گل 5 قسمتی، اغلب بعد از گلدهی وسیع شده، جام گل 5 لبه، منظم یا به ندرت نامنظم، معمولا با لوله مشخص، محل اتصال لب ها به لوله جام اغلب زائده دار، پرچم ها 5 عدد، متصل به سطح بیرونی جام، تخمدان فوقانی، 2 برچه و 4 خانه، خامه منفرد، 2-1 کلاله، جفت بندی قاعده ای، میوه شیزوکارپ معمولا با 4 فندقه می باشند.
این تیره دامنه تنوع وسیعی را به ویژه در ویژگی های میوه وگل نشان می دهد. به همین دلیل تا به حال به صورمختلف رده بندی شده است.
اهداف تحقیق
1.تعیین حدود گونه ای این جنس با استفاده ازتوالیDNA
2.مقایسه نتیجه حاصله با داده ی مورفولوژی
3.بازسازی مولکولی وتعیین حدود جنس Rinderaبااستفاده ازتوالی DNA
687070133350فصل دوم
مرور بر منابع
00فصل دوم
مرور بر منابع

2-1موقعیت تاکسونومیکی تیره Boraginaceae
این تیره در طبقه بندی های دالگرن (Dahlgren,1989) و تختاجان (Takhtajan,1997) در راسته Boraginales براساس نظر کوانکوئیست (Cronquist,1988) در راسته Lamiales و برطبق رده بندی تورن (Thorne,1983) در راسته Solanales قرار می گیرد.
اکنون تیره گاوزبان براساس بررسی های مولکولی در گروه Euasterids I قراردارد و فعلا در میان راسته های گیاهی موجود جایگاهی ندارد (APG III 2009) شکل (1-1)
Euastrids I یک نام غیر رسمی است که برای یک گروه تک تبار شامل چهار راسته به کار می رود Solananles,Gentianales,Lamiales,Garyales به اضافه تعدادی تیره که در راسته های این گروه جایی ندارند. مثل (APG III 2009)Boraginaceae شکل (1-1)
گورکه (Gurke, 1897) جانسون (Jahnston, 1951) و کرانکوئیست (Cronquist, 1981) تیره مذکور را براساس ویژگی های میوه به عنوان یک واحد طبیعی از گروه های خویشاوند مشتمل بر چهار زیر تیره
Heliotropioideae ,Ehretioideae ,Cordioideae ,Boragionideae در نظرگرفتند.
هم اکنون تیره گاو زبان با 4 زیر تیره ذکر شده، به عنوان Boraginaceae sensu lato در نظرگرفته می شود.
Boraginaceae sensu stricto فقط شامل زیر تیره Boraginoideae می باشد و زیر تیره های دیگر به عنوان تیره های مجزا معرفی شده اند و شامل Heliotropaceaee,Cordiaceae,Ehreticeae می باشند(Simpson, 2006). (تصاویر تعدادی از گونه های این تیره در شکل 1-2 آمده است.)
در فلور ایرانیکا Boraginaceae s.I به 4 زیر خانواده، Heliotropioideae,Cordioideae, Ehretioideae، (Boraginaceae s.str) Boraginoideae تقسیم بندی می شود و Boraginaceae s.str شامل قبیله های
Eritrichieae,Myosotideae,Trichodesmeae,Cynoglosseae,Lithospermeae,Boragineae
است.

شکل 1-1) درخت فیلوژنی نشان دهنده روابط بین راسته های نهاندانگان در APG III، موقعیت تیره Boraginoideae در کلاد Lamiids مشخص شده است. (APG III 2009).

شکل 1-2) برخی از گونه های تیره Boraginaceae
A:Onosma longilobum
B: Anchusa italica
C:Onosma dichroantum
D:Paracaryum
E:Nonea lutea
F:Borago officinalis
G:Echium italicum
H:Symphytum officinale
I:Cynoglossum germanicum
J:Maharanga emodi
2-1-1ویژگی های قبیله Cynoglosseae
قبیله Cynoglesseae دارای فندقه های خاردار است که در سطح پشتی – شکمی تخت و گاهی در حاشیه بالدارند (Hilger ,1985). قبیله Cynoglosseae در ایران با داشتن 11 جنس
Heliocarya,Rindera,Trachelanthus,Lindelofia,Omphalodes,Solenanthus,
Cynoglossum,Paracaryum,Microparacaryum,Caccinia,Trichodesma
سومین قبیله بزرگ تیره گاوزبان به شمار می رود که به طورگسترده در نواحی گرمسیری و معتدله پراکنش دارند. دانه گرده در گیاهان این قبیله به صورت 6 شیار ناجور دیده می شود که 3 شیار مرکب و 3 شیار ساده به طور متناوب قرار گرفته اند و عدد پایه کروموزومی در این قبیله عموماx=12 می باشد. این ها گیاهانی با پایه خامه (ژینوباز) مخروطی، هرمی یا به ندرت استوانه ای کوتاه هستند. در این گروه فندقه ها معمولا 4 عدد، و از تمام طول به پایه خامه متصل اند و یا فقط در قسمت انتهایی متصل می باشند و راس فندقه ها در بالاترین نقطه اتصال غیر برآمده می باشد. این قبیله در فلور ایران شامل 11 جنس و 53 گونه می باشد (khatamsaz, 2002)
2-1-2 ویژگی کلی جنسPall Rindera
گیاهی علفی، چند ساله، بدون کرک یا با کرک، ساقه افراشته، اغلب غیر منشعب، برگ ها تخم مرغی تا نواری، برگ های قاعده ای با دمبرگ طویل، گل آذین خوشه مرکب، خوشه ها مجتمع یا به صورت گرزن یک سویه، دمگل در حالت میوه وسیع شده، کاسه قسمتی تا قاعده شکافته شده، دندانه های کاسه باریک و غیر قابل تغییر، در حالت گل افراشته و در حالت میوه برگشته، جام گل لوله ای، با زایده بین لبه های جام، منقسم شده به 5 لبه کوتاه یا بلند، پرچم ها 5 عدد، بساک نواری – استوانه ای در قاعده تیرکمانی، یا بیضوی. خامه رشته ای شکل، معمولا خارج از جام گل و به ندرت داخل جام گل، کلاله سرسان و همیشه بدون چین خوردگی، فندقه ها چسبیده به خامه، بادکرده و با حاشیه غشایی وسیع شده و به صورت بال درآمده
1:R.Regia
حاشیه بال فندقه یک لبه. پرچم ها حداکثر تا لبه جام گل. زایده بزرگ و در انتهای جام گل، برگ ها مستطیلی نیزه ای یا نواری
حاشیه بال فندقه دولبه، پرچم ها بلندتر از جام گل، زایده در قسمت قاعده ای جام گل و تقریبا ً کوچک. برگ ها نیزه ای – نواری

Rindera regia
2:R.Lanata
گل آذین چتری، گل ها ارغوانی
گل آذین خوشه ای، گل ها قرمز، آبی یا سفید

Rindera lantana
3:R.Cyclodonta
گیاه پوشیده از کرک های پشمی، کاسبرگ ها پوشیده از کرک های پشمی زایده بین لبه های جام باد کرده و مربع شکل.
گیاه نسبتا بدون کرک ,کاسبرگها با کرک های انبوه. زایده بین لب ها کوچک وغیر باد کرده.

Rindera cyclodonta
4 :R.Albida
لب های جام گل طویل، جام گل فقط کمی بلندتر از کاسه، لب های جام گل کوتاهتر از لوله. جام گل 2 تا 3 برابر کاسه

Rindera albida
5 :R.Bungei
لبه داخلی بال میوه کاملا خم شده به داخل
لبه داخلی بال میوه کمی خم شده به داخل

Rindera bungei
6:R.Media
1-R.Regia
گیاهی چند ساله با ریزوم ضخیم، ساقه منفرد، افراشته، پوشیده از کرک های بلند پشمی سفید، برگ های قاعده ای نیزه ای با قاعده کشیده بردمبرگ، به طول 15 تا 20 و عرض 5/0 تا 2 سانتی متر، هردو سطح برگ پوشیده از کرک های بلند پشمی سفید، نوک تیز، در قاعده باریک شونده، برگ های ساقه ای نیزه ای، نواری، برگ های قاعده ساقه پهن تر و طویل تر و برگ های انتهایی باریک ترو کوچک تر، گل آذین متشکل از چندین گرزن که به صورت چتر درآمده اند. کاسه گل به طول 4 تا 6 میلی متر. جام گل ارغوانی، کمی طویل تر و کاسه، لب ها تخم مرغی کشیده، پرچم ها تا دهانه جام گل، با میله کوتاه، بساک تیر کمانی، خامه ارغوانی و طویل.
2-R.Lanata
گیاهی چند ساله، علفی، پوشیده از کرک های پشمی تا با کرک های اندک پشمی، در بعضی مواقع کرک ها ریزان و فقط قاعده آنها باقی می ماند. ساقه افراشته، منفرد یا منقسم، به ارتفاع 15 تا 65 سانتی متر. برگ های قاعده ای با دمبرگ طویل، مستطیلی – نواری یا مستطیلی، به طول 5 تا 15 و عرض یا تا 5/2 سانتی متر، با پوشش کرکی متراکم یا تقریبا بدون کرک، برگ های ساقه ای تخم مرغی تا نواری، بدون دمبرگ وبرگ های انتهایی تقریبا ساقه آغوش، گل آذین خوشه مرکب، متشکل از چندین گرزن، دمگل ها طویل تر از کاسه. کاسه گل استکانی، به طول 4 تا 7 میلی متر، پوشیده از کرک های پشمی سفید، جام گل قرمز، آبی یا سفید متمایل به زرد، بلندتر از کاسه، لب ها تخم مرغی کشیده، زایده بین لب ها مربع شکل و باد کرده، پرچم ها تا دهانه جام گل، میله کوتاه، بساک تیرکمانی، خامه طویل، فندقه دایره ای، به قطر 15 تا 22 میلی متر، حاشیه با بال غشایی ساده یا چین خورده.
زمان گل دهی تابستان، گیاه خاص مراتع و حاشیه جنگل ها و ارتفاعات خزری و ایران و تورانی.
3-R.Cyclodonta
گیاهی علفی، چند ساله، نسبتا بدون کرک، ساقه منفرد، انباشته به ارتفاع 15 تا 60 سانتی متر. برگ های قاعده ای با دمبرگ طویل، به طول 15 تا 25 و عرض 2 تا 6 سانتی متر، تخم مرغی، نوک کوچک.
برگ های ساقه ای تخم مرغی و بدون دمبرگ. برگ های انتهایی ساقه آغوش، هر دو سطح برگ بدون کرک و گاهی با غده های سفید. گل آذین خوشه مرکب، انتهایی، دمگل در حالت میوه طویل، کاسه گل استکانی، به طول 6 تا 8 میلی متر، جام گل استوانه ایی به طول 60 تا 13 میلی متر، آبی، زایده بین لبه ها کوچک و فرورفته (غیر باد کرده) پرچم ها تا لبه جام، بساک نواری، تیرکمانی، خامه نسبتا کوتاه فندقه دایره ای، به قطر حدود 15 میلی متر، با حاشیه غشایی و بال مانند.
4-R.Albida
گیاهی علفی، چند ساله پوشیده از کرک های سفید، کپه ای، ساقه ها افراشته و در انتها منشعب، به ارتفاع 10 تا 40 سانتی متر، برگ های قاعده ای نیزه ای یا نواری، قاشقی باریک یا نواری به طول 7 تا 10 و عرض 3/0 تا 5/0 سانتی متر، با دمبرگ کوتاه، برگ های ساقه ای کوچک و بدون دمبرگ، هر دو سطح برگ پوشیده از کرک های سفید انبوه، گل آذین خوشه مرکب.
دمگل در زمان میوه دهی طویل، کاسه گل استکانی، به طول 4 تا 5 میلی متر، پوشیده از کرک های متراکم، جام گل قرمز ارغوانی، استکانی – استوانه ای، 2 تا 3 برابر کاسه گل، زایده در قسمت قاعده ای جام گل، کوچک لب های جام گل کوچکتر از لوله جام. پرچم ها بلندتر از جام گل، بساک بیضوی، خامه طویل، به طول 12 تا 14 میلی متر، فندقه دایره ای، به قطر حدود 15 میلی متر، حاشیه غشایی، بال دو لبه، لبه ها ساده یا چین خورده و دندانه دار.
5-R.Bungei
گیاهی علفی، چند ساله، کپه ای، کوچک، پوشیده از کرک های زرد رنگ، ساقه افراشته به ارتفاع 5 تا 15 سانتی متر. برگ های قاعده ای نواری، با دمبرگ کوتاه، به طول 4 تا 10 و عرض 4/0 تا 6/0 سانتی متر. برگ های ساقه ای کوچکتر، بدون دمبرگ. گل آذین خوشه مرکب، دمگل در حالت میوه طویل، کاسه گل استکانی به طول 5 تا 7 میلی متر، پوشیده از کرک های انبوه، جام گل استوانه ای، کمی بلندتر از کاسه، لب های جام گل طویل، زایده در قسمت قاعده ای لوله جام گل و نسبتا کوچک. پرچم ها بلندتر از جام گل، بساک بیضوی، میله پرچم ها طویل، فندقه دایره ای، به قطر 5 تا 7 میلی متر. با حاشیه غشایی و با دولبه، لبه داخلی با بال میوه کاملا به داخل خم شده و لبه خارجی دندانه دار تاموج دار.
زمان گل دهی و میوه دهی: تابستان، گیاه خاص منطقه ایران وتورانی
6- R.Media
گیاهی علفی, چند ساله, کپه ای کوچک, پوشیده از کرک. ساقه افراشته به ارتفاع 5تا20سانتی متر.
برگهای قاعده ای نیزه ای –نواری ,به طول 3تا 10وعرض3/0تا 5/0سانتی متر, هر دو سطح برگ پوشیده از کرکهای انبوه. برگهای ساقه ای کم ,نواری نیزه ای.گل اذین خوشه مرکب ,انتهایی. دمگل طویل تر از کاسه. کاسه گل استکانی,پوشیده از کرک.جام گل خط کمی طویل تر از کاسه,لب های جام طویل, با زایده بین لب ها کوچک. پرچم ها طویل تر از جام گل ,بساک بیضوی.خامه طویل تر از جام گل.
فندقه دایره ای به قطر 5تا7میلی متر, حاشیه غشایی و با دو لبه ,لبه داخلی بال کمی به داخل خم شده.(خاتم ساز،2002)
Rindera pallus
علفی های چند ساله، ساقه ها معمولاً ساده، کرکی نرم(به ندرت بدون کرک)، برگ ها بیضوی تا خطی، دمگل بلند. گل آذین به فرم دیهیم،. پرانکل ها در میوه به هم می چسبند. کاسه گل 5 قسمتی، لوب ها کشیده بیضوی یا نوک تیز هستند. جام گل استوانه ای،
2- 12 1برابر کاسه گل بوده و شاخه های زیرین کوتاهتر یا بلندتر از لوله گل هستند. ضمائم حلقوی بیضوی - قلبی شکل یا مثلثی شکل، متمایز، تحلیل رفته، میله های پرچم برآمده، بساک ها کشیده هستند. خامه از کاسه گل بیرون، معمولا برآمده از جام گل هستند، فندقه چسبیده به خامه، مسطح، همراه با یک بال غشایی خارجی پهن و همچنین به ندرت یک بال داخلی باریکتر و خمیده هستند.
1.Caespitosa
لوله کاسه گل بلند تر یا مساوی با اندام زیرین ضمائم حلقوی به شکل تا خورده،0.1-0.3 mm هستند.
لوله کاسه گل کوتاهتر از اندام زیرین، ضمائم حلقوی مشخص 0.9 mm یا بیشتر
2.Lanata
2 -لوله کاسه گل 18 - 14 برابر طول اندام زیرین، بساک ها فندقه با یک بال پهن
3.Albida
3 -لوله کاسه گل 23 - 12 برابر طول اندام زیرین، بساک ها برآمده فندقه همراه با دو بال، بال درونی باریک و خمیده.
R.caespitosa
چند ساله های با کرک های نقره ای، خاکستری، ساقه های ساده، 5-10-30 cm، برگدار متراکم، برگ ها خطی – نوک تیز هستند. گل آذین انتهایی به فرم دیهیم، لوب های کاسه گل 5.5-6.5 mm، نوک تیز – بیضوی، به صورت گرد، تک رشته ای هستند. کاسه گل قرمز مایل به بنفش، 8-11.5 mm، لوله گل مساوی یا اندکی بلندتر از اندام های زیرین می باشد. ضمائم حلقوی بسیار کوچک، به صورت تاخورده.
R.Lanata
چند ساله های علفی قائم با ریشه های اصلی باریک محکم هستند. ساقه ها ساده و به ندرت در قسمت پایین منشعب، 15-55cm، کرک دار ، (پراکنده، کم پشت) یا بدون کرک هستند. برگ ها دارای دمگل بلند، بیضوی، دوک مانند یا خطی، با پهنک 20-150 2-25 mm، نوک تیز تا با زاویه منفرجه، برگچه نازک، کرکدار، بدون کرک های برآمده، یا بدون مو همراه با تعداد زیادی برجستگی آهکی، ساقه پایین شیاردار یا خطی، در انتها نازک، ساقه های بالاتر عموماً بیضوی، نوک تیز، توسعه یافته است.
تعداد زیادی سنبله، تشکیل یک گل آذین انتهایی بسیار بزرگ را می دهند. پرانکل ها تا حد زیادی در میوه توسعه می یابند. کاسه گل 3.5 -8 mm، لوب ها بیضوی، بسیار متراکم، سفید پشمی است. جام گل صورتی، 7-12 mm، زنگوله ای – استوانه ای، لوله گل 14 - 18 برابر اندام زیرین است. ضمائم حلقوی،رأس آن نا منظم است. پرچم ها در بردارنده میله هایی که با هم برابر (مساوی و اندازه)،
23 - 12 1 برابر طول بساک است. خامه 7-16 mm و معمولاً برآمده است. فندقه (اغلب 2 تا عقیم اند) مدور، 15 - 23 mm 14-26 ×، صاف، برگ ها با حاشیه ی صاف یا موج دار و اغلب آبی و بدون خار هستند.
برگ های پایه کشیده، بیضوی یا تخم مرغی 5-25 mm 25- 140× است (var. lantana)
برگ های پایه خطی یا خطی – نوک تیز، 20 -130 -2 – 12 mm است. (var.canescens)
R.albida
ساقه ها ساده، 25-4 cm، پر برگ، خاکستری – پشمی نسبتاً ضخیم هستند. برگ های پایه نوک تیز یا خطی نوک تیز، پهنک 4-11 mm 40-130× و برگ 20-40mm، ساقه خطی، نوک تیز، 1-8 mm 10-70 × است. کاسه گل 5-9 mm، لوب ها نوک تیز – بیضوی، با زاویه تند، کرک دار سفید نسبتاً ضخیم هستند. جام گل مایل به قرمز – بنفش، آبی محو، خشک شونده سیاه – بنفش، 7-12 mm، اندام زیرین به 12 تقسیم شده است. ضمائم حلقوی کشیده – نوک تیز، با زاویه تند، قلبی شکل هستند. پرچم ها و خامه معمولاً اندکی برآمده هستند. فندقه ها10.5-15 mm 9 -15×، با دوبال، بال بیرونی با عرض 4mm، با حاشیه موج دار، بال داخلی با عرض 1.8 mm خمیده به سمت داخل با حاشیه دندانه دار، و کاملاً بدون خار هستند. (Davis P.H ,1978)
جنس Rindera pall
کاسه گل تقریباً در قسمت پایه به لوب باریک عوض نشده، خمیده در میوه و قائم در گل تقسیم شدند. جام گل لوله ای شکل، با طول 8-14mm، اندکی یا دو برابر طول کاسه گل، متمایل به زرد، اغلب همراه با رنگ آنتوسیانین – بنفش روی دندانه یا لوله، به ندرت صاف، اغلب با چین های چروکیده متقاطع یا فلس، به ندرت فلس ها در قسمت میانی یا یک سوم پایینی لوله هستند، با لوب های قائم یا اندکی رو به زوال (و سپس اندام های زیرین اندکی قیف مانند اند)، اغلب نوک تیز، کشیده، تقریبا به بلندی لوله گل، به ندرت کوتاه و گرد شده – گوشه باز هستند.
میله ها (پرچم) کوتاه، به ندرت متصل (به زیر) گلوگاه هستند. بساک ها خطی – کشیده، با طول 2-4 mm، در پایین به صورت سهمی یا مطابق معمول، راس اغلب گوشه باز (منفرجه) یا دندانه دار، به ندرت نوک تیز و هممیشه برآمده از لوب های جام گل نیست.
خامه به صورت رشته ای، معمولاً از کاسه گل برآمده و به ندرت در آن مانده است، کلاله در یک نقطه یا اندکی رأسی و همیشه یکپارچه است. فندقه ها نسبتاً بزرگ، بالدار، بال از این سو به آن سو 10-20 mm، با پشتی صاف (Flat back) به صورت دیسک هستند.
برآمدگی اندک تیغه میانی به صورت یک خط به نظر می رسد که در کناره های چین دار پایین متورم می باشد.، فندقه ها صاف، درخشان، یا صیقلی و یا پوشیده در امتداد یک دیسک، به ندرت در کناره ها با چرخش به دور خود و با سر لنگر مانند یا یک ردیف با چرخش های لنگر مانند بزرگ و مسطح در طول تیغه هستند. بال های فندقه ها عریض، کما بیش مسطح، حاشیه خارجی اغلب به رنگ آبی است. حاشیه به ندرت صاف و اغلب به خوبی دندانه دار هستند. چند ساله ها، به ندرت ارتفاع 60-100 cm دارند، بدون کرک یا علف های بدون کرک با ریشه های کوتاه یا کم وبیش تیره نازک که در مناطق باستانی مدیترانه ای (تا یونان در غرب) رشد می کنند.
R.lanata
چند ساله ای ،ریشه عمودی اصلی به سمت پایین باریک و تیره می شود، ارتفاع ساقه ها 20-50 cm، به تعداد 1-2، افراشته، تراش دار، کرک دار، با شاخه زایی خوشه ای (به صورت پانیکول)، مولد گل و گاهی اوقات شاخه های دراز شده، برگ ها کما بیش پرزدار بوده و خاکستری، برگ های ریشه چه ای نوک تیز تا کشیده یا sublinear، با زاویه ای تنگ که به تدریج به صورت یک دمبرگ بلند باریک می شود که طول آن به 8-10 cm(و تا 30cm) می رسد و عرض آن1-2 (تا 6cm) است. برگ های ساقه ای اغلب پر پشت، بی پایه، که به تدریج به طرف بالا در اندازه کاهش می یابند،. گل آذین پانیکول (خوشه ایی دارای گل های افشان) در بالا دیهیم دو فرمی می شود، براکته ایی شده، پرانکل ها به آرامی (اغلب به طور قابل ملاحظه ای) از کاسه گل بلند تر می شود، خاکستری – پرزدار، کاسه گل کرک دار با طول 4-6 mm، با لوب های کشیده است، طول جام گل 10-11mm، صورتی، در حال تبدیل نشدن به آبی، لوب های آن قائم نوک تیز – خطی، و طول آن به اندازه لوله گل، فلس ها تقریباً برابر، پرچم ها در وسط لوله ی جام گل هستند، طول خامه 9-12 mm و برآمده هستند، فندقه ها (با بال) تخم مرغی شکل و از این سو تا آن سویش 17-22 mm، صفحه آنها صاف است، طول تخمدان 9mmبوده
R.cyclodonta
چند ساله ای، ریشه ضخیم، تیره، 1-3 ساقه، با ارتفاع در حدود 30 mm، در بالا به صورت پشمی، تراش دار، شاخه دهی در گل آذین، برگ های اندکی کرکی در حال تبدیل شدن به بدون کرک، خطی – نوک تیز، نوک تیز یا کشیده – نوک تیز، ریشه چه کما بیش و به تدریج در حال باریک شدن و تبدیل به دمبرگ، با طول 20cm، و گاهی با عرض 7cm و اغلب باریک تر و کوتاهتر 100 cm طول و 105 cm عرض.
جام گل بنفش، لوله ای، لوب های آن نوک تیز، افراشته (قائم)، تقریباً از نظر طول هم اندازه یا 23 طول لوله را دارد. کاسه گل کرکدار، لوب های آن خطی، تقریباً هم اندازه (از نظر طول) لوله کاسه گل،
گل آذین کوچک بلند، فقط بالایی ها کوتاهتر از کاسه گل هستند، مودار – پشمی، فلس ها به عنوان چین خوردگی های متقاطع تقریباً در گلوگاه توسعه یافتند. طول بساک ها 2-3 mm، کشیده، به صورت سهمی در پایین، گرد، دو تا سه برابر طویل تر از میله های عریض تر کوتاه هستند. میوه گرد، با بال های پهن، صفحه ی صاف، اغلب حاشیه ی بال با دندانه های مشخص می شوند.
Lipskil)) به درستی از که هیچ تفاوت اساسی بین این گونه و گونه ی پیشین نیست، تفاوت ها صرفاً قراردادی و فن آن ها را به دلیل عرف حفظ کردم. این صحیح تر خواهد بود که گونه ها ادغام شوند. در آسیای مرکزی آن ها یک چرخه ی پیچیده تر فرم ها را ایجاد می کنند که تفاوت های بین R.tetraspis مناسب و R.cyclodonta مناسب حذف می شوند، به هر حال تعداد زیادی فرم های محلی وجود دارند. یک نژاد منحصر به فرد در صحرای Mujunkum رشد می کند، یک نژاد دیگر با برگ های بسیار باریک از Kara Tau شمال، زندگی می کند، فرم های جنوبی از جنوب Dzhizak به R.baldshuanica نزدیک هستند. R.tetraspis یک نژاد از این گونه چند ریختی است. فرم های باستانی (اجدادی) به ویژه در E Tien shan فراوان هستند.(Popov M.G ,1953)
R.Karabaghensis با یک نژاد مشخص با بال های از Paropamisus(اشتباهاً توسط Brand به عنوان Bukhara"" توصیف شده است) و به علاوه در منطقه ی Eeast Dagh رشد می کند. (shamli, 1948 , Blinovskii).
2-2ترکیبات اسیدهای چرب
مثل لینولنیک اسید و انواع توکوفرول ها مثل a، δ،γ توکوفرول در این تیره ارزش تاکسونومیکی بالقوه دارند (Velasco & Goffman, 1999) مطالعات نشان داده است که آلفا لینولنیک اسید، لینولئیک اسید و اولئیک اسید به عنوان اسیدهای چرب معمول و گاما لینولنیک اسید و استئاریدونیک اسید از اسیدهای چرب غیرمعمول و تا حدی نیز توکومانول ها در دانه های روغنی این تیره ارزش تاکسونومیک دارند. به طور خاص وجود یا عدم وجود زنجیره طویل اوریک اسید و وجود یا عدم وجود استخلاف 6-متیلن در پلی انوئیک اسیدهایی مثل گاما لینولنیک اسید و استئاریدونیک اسید به عنوان شاخصی از طبقه بندی شناخته شده است Aitzetmuller & Altan2008, Bagci,Brueh,2008.) عمده اسیدهای چرب اشباع نشده در اعضای تیره گاوزبان آلفا لینولنیک اسید، لینولئیک اسید و اولئیک اسید می باشند. اما گاما لینولنی اسید و استئاریک اسید سطح قابل ملاحظه ای را در این گیاهان به خود اختصاص داده اند. درصد و نسبت اسیدهای چرب اشباع شده و اشباع نشده به عنوان شاخص های تاکسونومیک در این تیره محسوب می شوند (Ozcan, 2009)
گل و اعضای مختلف گیاه Borago officinalis دارای لعاب نسبتا فراوان مواد معدنی و مقدار کمی آلانتوئین می باشند. ریشه و ریزوم گیاه Cymphytum officinalis دارای موسیلاژ، اسید گالیک، آلانتوئین و آلکالوئیدی به نام کونسولیدین می باشد. ریشه گیاه Cymphytum officinalis حاوی کولین، مواد رزینی وآلکالوئیدهایی مثل سینوگلوسین و سینوگلوسئین است. قشر سطحی دانه Lithospermum officinale دارای کربنات کلسیم و سیلیکات کلسیم است. (زرگری، 1368).
2-3 فیزیولوژی
اعضای این تیره با فیزیولوژی C3 و C4 وجود دارند. فیزیولوژی C3 در،
Lappula,Lithospermum,Moltakiopsis,Onosmodium,Trichodesma,Arnebia,Heliotropoium و فیزیولوژی C4 در Heliotropium گزارش شده است(Watson & Dallwits,2011)
.
2-4میکرومورفولوژی
این تیره از حیث گرده شناسی بسیار متنوع است و گستره وسیعی از اشکال دریچه و آراستار را نشان می دهد. از 3 شیار، روزن (Tricolporate) یا 3 روزن (Triporate) گرفته تا چند شیاری (Polycolpate) و یا چند شیار – روزن (Polycolporate) و گاهی 6 شیار ناجور (Hetrocolpate) دیده می شود که به طور متناوب یکی دارای روزن و دیگری بدون روزن می باشد (Simpson ,2006).
تعداد دریچه های دانه گرده بین 3 تا 20 متغیر است دانه گرده آن ها 3 و یا به ندرت 2 هسته ای است. دانه گرده دو هسته ای در Cordia,Helitortopium,Coldenia دیده می شود و در اکثر جنس ها سه هسته ای است (Watson & Dallwits,2011)
2- 5 بررسی کروموزومی Boraginaceae s.str
تغییرات کروموزومی اولین محرک گونه زایی در تکامل گیاهان گلدار محسوب می شوند، به طوری که این تغییرات می تواند زیست شناختی موجود راتحت تاثیر قرار دهد و یا باعث جدایی جمعیتی با ایجاد جدایی های تولید مثلی شود.
Boraginaceae s.str دارای تنوع کروموزومی قابل توجهی است مطالعه مشخصات کروموزومی آن به درک بهتر مسیر تکاملی این تیره کمک می کند. ارزش خصوصیات کروموزومی در سیستماتیک این تیره بعد از مطالعات Britton(1951),strey(1931),smith(1932) مشخص شد که نشان داد این تیره دارای تنوع در سطوح پلوئیدی، عدد پایه کروموزومی و سایز و ریخت شناسی کروموزوم است (Selvi et al ,2006).
قبیله های Boraginaeae، Lithospermeae تنوع زیادی در عدد پایه کروموزومی نشان می دهند به طوری که x=6,7,8,9,10,15 از آنها گزارش شده است. قبیله Cynoglosseae کمترین تنوع در عدد پایه کروموزومی را نشان می دهد ودر اکثرسرده ها x=12 کمترین تنوع در عدد پایه کروموزومی را نشان می دهد و در اکثر سرده ها x=12 گزارش شده است. از قبیله Eritrichieae اعداد x=10,11,12 گزارش شده است عدد پایه نسبتا بالا و سایز کوچک کروموزوم ها در این قبیله قرابت آن را با قبیله Cynoglosseae نشان می دهد. (Coppi et al,2006)
مطالعات کروموزومی Onosma بزرگترین سرده تیره Boraginaceae s.str نشان دهنده نقش مهم پلوئیدی در تاریخچه تکاملی و غالبیت X=6,7 در این سرده است، همچنین نوعی کروموزوم غیر طبیعی به نام B-chromosome نیز در گونه های از سرده Onosma مشاهده شده است (Martonfi et al, 2008).
کمترین عدد کروموزومی گزارش شده از Boraginaceae s.str مربوط به گونه Amsinckia lunaris 2n=8 و بیشترین عدد گزارش شده مربوط به گونه 2n=144 symphytum tuberrosum است
(Coppi et al,2006)
جدول 1-1) گزارش عدد پایه کروموزومی تعدادی از گونه های Boraginaceae در ایران (Ghaffari, 1996)
Lavel of ploidy N Taxonon
Tetra ploid 14 Alkanna bracteosa
Diploid 8 Echium amoneom
Diploid 11 Arnebia decumbens
Diploid 14 Moltkia cearulea
Diploid 16 Anchea caspice
Diploid 14 Nonnea caspica
Tetra ploid 12 Lappula microcarpa
Diploid 24 Heterocayum macrocarpum
Tetra ploid 12 Caccinia strigose
Diploid 12 Paracaryum rugulosome
Diploid 12 Solenanthus stamineous
Diploid 12 Trichodesma incanum
Diploid 8 Onosma microcarpa
Diploid 22 Onosma albo-rosea
Tetra ploid 16 Onosuma sericea
2- 6 بررسی گرده شناسی Boraginaceae s.str
تیره مزبور از حیث گرده شناسی بسیار متنوع است به طوری که گستره وسیعی از اشکال، دریچه آراستار و غیره را نشان می دهد. دانه گرده دراین تیره منفرد و از نوع
Subprolate,prolate,isopolar,zonocolporate است تعداد دریچه ها از 13-4 عدد متفاوت است، در برخی از سرده های این تیره دریچه درونی با کمربند استوایی ادغام شده و endocingulum نامیده می شود hatgtove. L et al,2003))
قبیله Cynoglosseae دارای دانه گرده 6 ناجور شیار قبیله Erithrichieae دارای گرده های کوچک 10 و 8 و 6 ناجور شیار، بیضوی یا مستطیلی در نمای استوایی و شش ضلعی در نمای راس است قبیله Boragineae دارای 15 نوع گرده متفاوت در بین سرده ها و یا حتی گونه ها است قبیله Lithospremeae دارای متنوع ترین خصوصیات ریخت شناسی دانه گرده و دریچه است.
(S.Ovchinnikova,2009)
شکل 1-3) دانه گرده برخی گونه های Boraginaceae s.str
Rindera tetraspis Anchusa. arvensis
Nonea lutea
جدول 1-2) مقایسه دریچه دانه گرده بین قبیله های Boraginaceae s.str
Comparis on of the pollen apertures among the tribes the subfamily boraginioiseae
Types of pollen apertures Tribes
3-Colporate 3-syncolporate ,4-8-colporate.
4-6-syncolpate ,6-7-colpate Lithospermeae
3-colporate,4-colporate,5-colporate or more Boragineae
3-Colporate,3-pseudocolpate Trigonotideae
3-Colporate,3-pseudocolpate Eritichieae
3-Colporate,3-pseudocolpate Cynoglosseae
3-Colporate,3-pseudocolpate Myosotideae
2- 7 تقسیمات تاکسونومیکی زیر تیره Boraginoideae (Boraginaceae s.str)
گیاه شناسان متعدد این زیر تیره را به چهار الی هفت قبیله تقسیم کرده اند که با اقتباس از Mabberley 1990 پنج قبیله در زیر ارائه می شود:
Cynoglosseae (گل ها منظم، پایه خامه کم و بیش مخروطی، رئوس فندقه ها در بالاترین نقطه اتصال برآمده نیست)
Eritrichieae (گل ها منظم، پایه خام کم و بیش مخروطی، رئوس فندقه ها در بالاترین نقطه اتصال برآمده است).
Boragineae (گل ها منظم، پایه خامه مسطح و یاکمی محدب، فندقه ها با سطح اتصال مقعر).
Lithospermeae (گل ها منظم، پایه خامه مسطح، فندقه ها نیز با سطح اتصال مسطح).
Echieae (گل ها نامنظم)
2-8 مطالعات مولکولی DNA
مطالعات مولکولی انجام شده به صورت نمونه برداری های پراکنده با استفاده از مارکرهای مولکولی مختلف (matk,atpB,nrDNA ITS) انجام شده است. در مهم ترین مطالعه انجام شده بر روی تیره گاوزبان Langstrom & chase,2002 با استفاده از توالی DNAکلروپلاستی atp B روابط فیلوژنتیکی قبیله های موجود در زیر تیره Boraginoiseae را با تعداد معدودی جنس و گونه از هر قبیله بازسازی کردند. اخیرا فیلوژنی مولکولی قبیله Eritrichieae با استفاده از توالی DNA هسته ای ITS و توالی DNA کلروپلاستی trnL-F انجام شده است (2008 khoshsokhan et al.2010 khoshsokhan & kezempour osoloo) است اما طبق آخرین مطالعات مولکولی weigend و همکاران (2010) با نمونه برداری های کم نشان دادند که 3 قبیله
Trigonotideae,Myosotideae,Eritrichieae جزئی از قبیله Cynoglosseae sensu lato هستند.
اولین مطالعه مولکولی انجام شده پراکندگی سرده Echium L را در Macronesia توصیف می کنند 0 Bohle et al, 1996 ,Hilger, H. H. Bohle, 2000)، مطالعه مولکولی دیگر وسیعترین مطالعه از نظر تاکسون های نمونه گیری شده از قبیله Lithospermeae با تاکید بر سرده مدیترانه ی Lithodora Thomas et,2008 al بوده است. (Hacioglu & Erik2011) همچنین گزارشی از فیلوژنی سرده symphtum ارائه داده اند.
2- 9 تولید مثل و گرده افشانی
اعضای تیره گاوزبان اغلب گیاهانی تک پایه اند اما گاهی گیاهان دوپایه درگونه هایی از heliotropium دیده شده است. گرده افشانی این گیاهان از طریق حشرات و عمدتا توسط پروانه ها صورت می گیرد.
(waton & dallwits,2011)
روابط فیلوژنی درون قبیله Lithospermeae به عنوان بزرگترین زیرگروه Boraginaceae S.Str بسیار پیچیده است. در محدوده تاکسونومیکی (Johnston ,1954) و (seibert, 1978) قبیله Lithospermeae حاوی 450 گونه و حدود 22 تا 28 سرده می باشد که سرده اورسیایی Onosma L یک سوم گونه ها را تشکیل می دهد. گونه ها و سرده های این قبیله ازنظر محدوده فیلوژنتیکی بسیار مسئله دار است و تنها داده های محدودی درباره این قبیله منتشر شده است (Weigend et al, 2009).

پراکنش تیره Boraginaceae s.str
تیره Boraginaceae s.str در قلمروهای Antractic,Australian,Cape,Neotropic,Halorctic پراکنده شده است. در نواحی گرمسیری رشد می کنند، جهان شمول و در موارد نادری در نواحی سردسیری دیده شده اند (WWW.mobot.com).
برای این تیره در جنوب غرب آمریکا 113 تاکسون با مرکز پراکنش در ایالت های آریزونا و نیومکزیکو همچنین نواحی بیابانی جنوب شرقی کالیفورنیا تشخیص داده شده است. (Higgins, 1997)


شکل 1-4 نقشه پراکنش تیره (www.mobot.com)Boraginaceae
2-10مطالعات پیشین تیره Boraginaceae s.str
در گذشته مطالعاتی چند از حیث ریخت شناسی (,zarinkamar,2006,Hilger,1984,kazmpour osaloo,1993) گرده شناسی (khatamsaz, 2001,Kazempour Osaloo & Khatamsaz, 1994, 1984 Ahn & Lee ,1986 kazempour Osaloo, 1993,Clarke, 1977,Diez) سیتولوژی (Ghaffari 1996,selvi et al., 2006 ,luque,1900,Luque & Valdes,1984) مولکولی(Winkworth et al.,2002,Khoshsokhan et al.,2008) بر روی تعدادی از تاکسون های تیره انجام شده است. مطالعات مولکولی انجام شده به صورت نمونه برداری های پراکنده با استفاده از نشانگرهای مولکولی مختلف (trnL-F,mark,atpB,nrDNAITS) در خارج و داخل کشور انجام شده است. از مطالعات انجام شده روی قبیله Lithospermeae می توان کار
(Langstrom & Chase 2002,James et al.,2009,chosen et al., 2009,cecchi et al.,2009,weinged et al., 2009,2010,Liu et al., 2010 ,2008) را نام برد.
در مطالعات (2009,2010،.Weinged etal نمونه برداری های محدود از سرده های Lithospermum,Buglossoides,Echium,Cerinthe,Brunnera,podonosma,Arnebia,MoltkIA,echiochilon,Alkana,Symphytum انجام شده است و روابط تا حدودی حل شده اند. همچنین (.،Kolarcik et al 2010) در مطالعه خود تعدادی از گونه های اروپایی sec Asterotricha از سرده Onosma را مورد بررسی های جمعیتی و تکاملی قرار دادند.
ولی بسیاری از گونه های سرده های Onosma همچنین سرده های Suchtelenia,Hormozakia بررسی نشده اند.
2-11اختصاصات بیوشیمیایی و شیمیایی تیره
غالبا این گیاهان آلکالوئیدهای گروه پیرولیزیدین و یک نفتاکیننون قرمز به نام آلکانین تولید می کنند وفاقد ترکیبات ایریدوئیدند. فقط به ندرت ترکیبات سیانوژنیک و ساپونین دار ونه تانن دار به وجود می آورند. معمولا فاقد اسید الاژیک و پروآنتوسیانین ها هستند. غالبا فروکتوزان ها (عمدتا ایزوهپتوز و ایزوکتوز) را به عنوان کربوهیدرات های ذخیره ای و آلانتوئین (یک امید) را به عنوان ماده غذایی ارائه انباشته می کنند (Cronquist ,1981).
2-12کاربرد اقتصادی تیره
بسیاری از اعضای این تیره خواص دارویی دارند و به عنوان یک داروی سنتی برای درمان زخم ها، بیماری های پوستی، قلب و درد سینه و... استفاده می شوند.تعدادی از نمونه های دارویی این تیره در زیر ذکرمی شود:
Borago officinalis: گل واعضای مختلف گیاه دارای لعاب نسبتا فراوان مواد معدنی و مقدار کمی آلانتوئین می باشند. گل و برگ این گیاه اثر نرم کننده، معرق و مدر، آرام کننده و تصفیه کننده خون است.
Symphytum officinalis: ریشه و ریزوم گیاه دارای موسیلاژ، اسیدگالیک، آلانتوئین و آلکالوئیدی به نام کونسولیدین می باشد. از ریشه گیاه به عنوان نرم کننده تسکین دهنده آرام کننده درد و التیام دهنده استفاده می شود.
Cynoglossum officinale: ریشه گیاه دارای کولین، مواد رزینی و آلکالوئیدهایی مثل سینوگلوسین، سینوگلوسئین است. گل آن آرام کننده سرفه و دارای اثر مخدر به صورت خفیف است. ریشه آن اثر قابض ملایم وبرگ آن اثر ملین دارد. ریشه و برگ گیاه هم در رفع اسهال، سرفه های خشک و عصبی، اسپاسم های روده و خونریزی های داخلی مصرف می شود.
Lithospermum officinale: قشر سطحی دانه دارای کربنات کلسیم و سیلیکات کلسیم است. پوشش ریشه آن دارای ماده ای قرمز به نام لیتوسپرمین است که در رنگ کردن مواد غذایی استفاده می شود دانه این گیاه طعم ملایم لعابی و اثر مدر دارد.
Heliotropium europium: از ریشه و دانه آن آلکائیدی به نام سینوگلوسین به دست آمده است که اثر صفرابر و تب بر است.
از نمونه های دارویی دیگر نیز
cerinthe major,africanum,trichodesma,onosma,echium,vulgare
,anchusa italic,myxa cordial,alkanna tinctoria,pulmonaria officinalis رامی توان نام برد (زرگری، 1368).
در آخرین گزارش (Wiegend et. al.,2010) زیر تیره Boraginoideae را براساس توالی کلروپلاستی trnL-F به 4 قبیله Cynoglosseae,Echiochileae,Lthospermeae,Boragineae، S.L تقلیل داده است.
2-13مصارف اقتصادی و دارویی
بعضی از گیاهان این تیره به صورت گلدانی و برای مصارف زینتی استفاده می شوند. از ترکیبات رنگی این گیاهان در رنگ آمیزی چوب و سنگ استفاده می شود. در تهیه انواع داروها، شراب و لوازم آرایشی کاربرد دارند. و در عین حال از گیاهان مهم در تولید عسل به شمار می روند (2011 Dallwits &Watson., پوست ریشه Lithospermum officinale دارای ماده ی قرمز به نام لیتوسپرمین است که در رنگ کردن موادغذایی استفاده می شود (زرگری .،1368).
میوه بعضی از گونه های این تیره مصرف خوراکی دارد. در جنوب آفریقا از برگ، ساقه و میوه خشک شده
Ehretia rigida subsp.nevifolia چای تهیه می کنند ریشه خشک شده angufolia trichodesma مخلوط با آب سرد در درمان اسهال مورد استفاده قرار می گیرد. برگ گیاه Lobos--on سرخ شده در روغن بادام شیرین از داروهای قدیمی در درمان عفونت های قارچی انواع زخم ها و سوختگی ها است.
در سراسر اروپا، شمال آفریقا و آمریکا از شاخه، برگ و گل گیاه borago afficinalis در سالاد و نیز به عنوان ادویه استفاده می شود. این گیاه در طب سنتی هم کاربرد دارد. در اروپا از گل و ریشه cynolossum officinale در طب سنتی و برای درمان جراحات استفاده می شود. lithospermum officinale در طب سنتی اروپا در درمان نقرس مورد استفاده است (Retief, 2004).
گل و برگ گیاه Borago officinalis اثر نرم کننده، معرق، مدر، آرام کننده دارد و همچنین تصفیه کننده خون است. ریشه گیاه symphytum officinalis اثر نرم کننده، تسکین دهنده و آرام کننده درد و التیام دهنده دارد. گل cynoglossum officinale آرام کننده سرفه و دارای اثر مخدر خفیفی است. ریشه آن قابض و برگ آن اثر ملین دارد. ریشه و برگ گیاه هم در رفع اسهال، سرفه های خشک و عصبی، اسپاسم های روده و خونریزی های داخلی مصرف می شود. دانه گیاه Lithospermum officinale اثر مدر دارد. از ریشه ودانهheliotropium europium آلکالوئیدی به نام سینوگلوسین به دست امده که صفرابر و تب بر است (زرگری،1368).
2-14 برخی از توالی های ژنی مورد استفاده در سیستماتیک مولکولی
2-14-1 توالی های DNA هستهای
از متداولترین توالیهای هستهای مورد استفاده در سیستماتیک internal transcribed spacer nr DNAITS یا فاصلهگر رونویسی شونده درونی میباشد. ITS مربوط به توالی ریبوزومی هستهای است که ناحیه بین اگزون S 18 و S 26 واقع شده است و شامل ناحیه ITS1 و S 5.8 و ITS2 میباشد (شکل 2-1) فاصلهگرهای بین ژنی دارای سیگنالهای مورد نیاز برای پردازش و رونویسی rRNA است وغالبا برای فیلوژنی استنباطی شده واکثرا برای حل روابط در سطح زیر تیره یا پایینتر استفاده میشود برای سطوح بالاتر ITS آن قدر تنوع دارد که هم ردیف سازی توالی بسیار مشکل است (Alvarez and Wendel, 2003).
از فواید ITS برای بازسازی فیلوژنی میتوان موارد زیر را نام برد:
توارث دو والدی ITS: این ویژگی ITS را برای آشکار کردن شبکه سازیها، گونهزایی هیبدریدی و نشان دادن پلی پلوئیدی ارزشمند میسازد.
عمومی (جامع) بودن ITS: این ویژگی باعث میشود که توالی ITS در بعد وسیعی از موجودات (قارچ ها و اکثر گیاهان) کاربرد داشته باشد.
سادگی (simplicity): ژنهای ریبوزوم هستهای از تکرارهای 265 –S 5.8 –S 18 تشکیل شدهاند که این تکرارها Kbp10 در اندازه متفاوت اند. چون صدها تا هزاران تکرار از آنهاد وجود دارد، پس نسبت به لوکوسهای هستهای یا کپی کمتر، راحتتر خالص می شوند. در آنژیوسپرمها توالی ITS از 700-500 جفت باز و در ژیمنوسپرم ها تا 3700-1500 جفت باز متغیر است.
یکنواختی در ITS: معمولا در تیره های چند ژنی تکامل همزمان وجود دارد تکامل همزمان زمانی رخ می دهد که اختلافات توالی ها (حاصل از تجمع موتاسیون ها) در میان کپی های تکرار شونده در یک ژنوم توسط مکانیسم های مثل کراسینگ اورنا برابر و واژگونی ژنی، یکنواخت و هم شکل شده و توالی یکسانی ایجاد می شود.
تنوع بین ژنومی ITS: تنوع توالی ITS جهت استنباط فیلوزنتیکی در سطوح گونه جنس و تیره مناسب است. همچنین تنوع در سطوح سلسله مراتبی به عواملی مثل پلی مورفیسمهای نوکلئوتیدی نسبت داده میشود.Alvarez and Wendel, 2003
2- 15 PCR اساس مارکرها
PCR، به طور آنزیماتیک تکثیر یک منطقه تعریف شده از DNA الگو است. تکثیر قطعهی DNA وابسته به آغازگر بوده که آغازگرها توالی DNA مکمل موجود در DNA دو رشتهی را تشخیص می دهند و با آن پیوند برقرار میکند.
برای به دست آوردن محصولات PCR باید:
الف- دو آغازگر که هر دو دارای ردیفهای واحدی هستند به رشتههای مخالف بچسبند.
ب- دو آغازگر باید در جهت عکس هم آرایش یابند(انتهای ́3 آنها مجاور ناحیهای باشد که قرار است تکثیر شود)
پ- دو آغازگر باید با فاصلهای کوتاه نسبت به یکدیگر (به طور معمول کمتر از 4 جفت کیلوباز) به DNA الگو متصل شوند. دلیل این امر این است که پلی مراز Taq فقط در این فاصله میتواند فعال باشد و رشتهی دوم را سنتز کند. در حقیقت ساخته شدن رشتهی مکمل DNA به این دلیل است که پلیمراز Taq سبب طویل شدن آغازگر از انتهای́3 با اضافه کردنdNTPها میگردد. بعد از چند چرخه PCR، قطعههای سنتز شده جدید نسبت به قطعهی اولیه ژنومی غالب میشوند و از نظر تئوری به صورت توالی تکثیر خواهند شد.
2-15-1 اجزای واکنش زنجیره‌ای پلیمراز(PCR)
این روش در اواســـــط دهــــه 1980 به وسیـــــله کری مولیس معرفی شد. واکنش زنجیره‌ای پلیمراز مبتنی بر همانند‌سازی نیمه حفاظت شده DNA می‌باشد. در این واکنش قطعه‌ای از DNA بین دو ناحیه با توالی شناخته شده تکثیر می‌شود. تکثیر به وسیله دو توالی الیگونوکلئوتیدی به عنوان آغازگر که به دو رشته DNA و در ناحیه مکمل خود متصل می‌شوند صورت می‌گیرد (Chawla, 2002). اجزای تشکیل دهنده این واکنش به شرح زیر است.
2-15-2آغازگر
آغازگرهای PCR، الیگووکلئوتیدهایی هستند که بر روی رشته الگو به توالی‌های مکمل خود متصل می‌شوند و حدود محصولات تکثیر را مشخص می‌کنند. هنگام طراحی آغازگرها عوامل متعددی مانند پرهیز از مکمل بودن توالیهای درون یک آغازگر و یا بین آغازگرها، محتوی GC آغازگر، طول آغازگرها و دمای ذوب (Tm) آغازگر مورد توجه قرار می‌گیرد. دمای ذوب، درجه حرارتی است که در آن نیمی از آغازگرها به جایگاه هدف اتصال پیدا کرده باشند. دمای ذوب آغازگر در انتخاب دمای اتصال اهمیت دارد و معمولاً دمای اتصال چند درجه کمتر از دمای ذوب انتخاب می‌شود (Dawson, 1998).
2-15-3 آنزیم
مهم‌ترین ویژگی آنزیم مورد استفاده در واکنش زنجیره‌ای پلیمراز، مقاومت به حرارت می‌باشد. آنزیمی که به طور معمول در PCR استفاده می‌شود، آنزیم تـــــک DNA پلیمراز می‌باشد که از باکتری گرمادوست Thermus aquaticus استخراج می‌شود. این آنزیم فاقد فعالیت اگزونوکلئازی َ3 به َ5 بوده و قادر به تصحیح بازهای اشتباه نمی‌باشد. آنــزیم اضافه در واکنش سبب تکثیر توالی‌های غیرهدف می گردد Mcpherson M. and S. G. Moller2000))
2-15-4الگو
نمونه مورد استفاده جهت تکثیر در PCR ممکن است DNA تک رشته و یا دو رشتهای حیوانات، گیاهان و حتی باکتریها باشد. مولکول های RNA شامل RNA کل، و یا tRNA نیز می توانند بعد از اینکه توسط آنزیم ترانس‌کریپتاز معکوس بهDNA مکمل(cDNA) تبدیل شدند، به عنوان الگو برای تکثیر مورد استفاده قرار گیرند Dawson , M.T.,A.Powell and F ,1998).)
2-15-5 دزاکسی ریبونوکلئوزید تری‌فسفات‌ها
در واکنش زنجیره‌ای پلیمراز مرسوم، هرچهار نوع دزاکسی ریبونوکلئوزید تری‌فسفات با غلظت‌های مساوی به کار برده می‌شوند. غلظت مناسب dNTPs به عوامل متعددی مانند طول رشته مورد نظر، غلظت آغازگر، غلظت MgCl2 و تعداد سیکل‌های تکثیر بستگی دارد. جهت بهینه‌سازی یک واکنش ضروری است که بهترین غلظت به صورت عملی تعیین شود.
2-15-6کلرید منیزیم
کلرید منیزیم (MgCl2) یک عنصر اساسی برای تکثیر DNA در واکنش PCR می باشد زیرا یون Mg2+ با dNTPs کمپلکسی تشکیل می دهد که برای وارد کردن dNTP در رشته ضروری است. به علاوه، این یون از طریق تحریک فعالیت پلیمرازی، واکنش متقابل آغازگر – الگو را افزایش می‌دهد. غلظت MgCl2 باید برای هر جفت الگو– آغازگر بهینه شود. معمولاً غلظت پایین یون Mg2+ باعث کاهش محصولات PCRو غلظت زیاد آن منجر به تجمع محصولات غیراختصاصی می‌شود.
2-15-7 بافر
بافر موردنیاز برای فعالیت آنزیم تک‌ پلیمراز در واکنش زنجیره‌ای پلیمراز شامل 50 mM KCl، Tris-HCL 10 mM و Gelatin 1% pH 8.3 می‌باشد. قابل ذکر است که در صورت استفاده از سایر آنزیم‌های پلیمراز مقاوم به حرارت، ترکیبات بافر متفاوت خواهد بود (McPherson, 2000).
2-15-8 مراحل تکثیردر هر چرخه واکنش ابتدا توسط حرارت پیوندهای هیدروژنی دو رشته DNA شکسته شده و رشته‌ها از هم باز می‌شوند. جداشدن رشته‌ها معمولاً در دمای oC94 صورت می‌گیرد و واسرشته‌سازی نام دارد. سپس مخلوط واکنش سرد می‌شود تا آغازگرها به نواحی مکمل خود متصل شوند. این مرحله که به طور معمول در دمای oC65-35 انجام می‌گیرد، مرحله اتصال نامیده می‌شود. در مرحله سوم که دما حدود oC72 بوده و بسط نام دارد آنزیم پلیمراز از روی DNA الگو همانند سازی کرده و بسط یک ناحیه از DNA صورت می‌گیرد. نکته مهم در این چرخه، دمای واکنش در مرحله اتصال آغازگر است. دما برای اتصال تدریجی باید به حد کافی پائین باشد تا امکان دورگه‌گیری بین آغازگر و الگو وجود داشته باشد و از طرفی به حد کافی بالا باشد تا از تشکیل دورگه‌های اشتباه جلوگیری کند (Chawla, 2000).
2-16 درخت فیلوژنتیکبررسی فیلوژنتیکی یک خانواده بر اساس ترادف اسید نوکلئیک یا پروتئین تعیین میکند که چه طور یک خانواده در مسیر تکاملی خویش از اجداد اولیه خود مشتق شدهاند. ارتباطات تکاملی در میان ترادفها توسط مکان یا رتبه ترادفها که به عنوان شاخههای بیرونی یک درخت میباشند نمایش داده میشود. ارتباطات بین شاخهای در بخش داخلی درخت منعکس کننده درجهای است که ترادفهای متفاوت را که با هم ارتباط دارند را نمایش میدهد. دو ترادف که همانندی خیلی زیادی با هم دارند به صورت شاخههای بیرونی مجاور واقع خواهند شد و به یک شاخه مشترک (معمولی) که در زیر آنها واقع شده متصل میشوند. هدف از بررسی فیلوژنتیکی پیدا کردن ارتباطات بین شاخههای درخت و طول شاخهها می باشد. بررسی فیلوژنتیکی ترادفهای پروتئین و اسید نوکلئیک در حال حاضر وجود دارد و به صورت ناحیه مهمی از آنالیز ترادفی ادامه خواهد یافت. وقتی یک ژن خانوادگی در یک موجود زنده کشف شود، ارتباطات فیلوژنتیکی در میان ژنها میتواند به پیشگویی این که یکی از آنها ممکن است یک عملکرد مشابه داشته باشد کمک کند. که این پیشگوییهای کاربردی میتواند به وسیله آزمایشات ژنتیکی بررسی شوند. بررسی فیلوژنتیکی در دنبال کردن تغییراتی که به وقوع میپیوندند در گونههایی که به سرعت تغییر میکنند، مانند یک ویروس میتوانند استفاده شوند.
برنامههای بررسی فیلوژنتیکی زیادی در دسترس میباشند که هزینه کمی دارند و یا هزینهای ندارند. از مهم ترین این برنامهها که مورد استفاده قرار میگیرد برنامههای PHYLIP و PAUP میباشند. نسخههای جدید از این برنامهها 3 روش اصلی را برای بررسی فیلوژنتیکی شامل Parsimony, Distance, Maximum likelihood را فراهم کرد و همچنین تعداد زیادی از مدلهای تکاملی را برای درجه تنوع ترادف را شامل میشود. برنامه دیگر MacClade میباشدکه برای آنالیزهای با جزئیات بیشتر مفید است.
534670-576580فصل سوم
مواد و روش ها
00فصل سوم
مواد و روش ها

3-1مطالعه منابع
ابتدا به مطالعه منابع موجود در اینترنت و کتب مرجع جهت مطالعه مقالات بررسی تحقیقاتی که اخیراً صورت گرفته و تعیین چارچوب کاری پرداخته شد از فلور ایران Khatamsaz,2002)) و به عنوان شناسایی نمونه های هر بار یومی و بررسی صفات کیفی و کمی ریخت شناسی استفاده گردید.
نمونه برداری از آنجایی که محدوده پراکنش گونه ها وسیع بود و همچنین به علت عدم وجود امکانات و زمان کافی برای جمع آوری به موقع گیاهان بخش عمده بر روی نمونه های هر بار یومی انجام گرفت.
.
3-2مطالعه هر بار یومی
استفاده ازDNA در سیستماتیک مولکولی داده های مولکولی مخصوصاً توالی DNA برای بازسازی روابط فیلوژنی نسبت به سایر روشهای دیگر از صحت بیشتری برخوردار است به همین دلیل امروزه به خصوص از زمان پیدایش واکنش زنجیره ای پلیمراز این روش با استقبال محققین مواجهه شده است (Chase et al. ,1993).
3-3استفاده از DNA در سیستماتیک مولکولی
در گیاهان 3 نوع اصلی از توالی های DNAدر دسترس است که عبارتند از:توالی های هسته ای (nr DNA)، توالی های کلروپلاستی (cp DNA) و توالی میتوکندر یایی. توالی میتوکندر یایی به علت سرعت تکاملی پایین کمتر در بررسی روابط خویشاوندی گیاهان مورد استفاده قرار می گیرند.
اما توالی های کلروپلاستی و هسته ای در ابعاد وسیعی بدین منظور به کار می روند (معین، 1389).
(Internal Transcribed spacer) ITS یا ناحیه فاصله گذار رونویسی شونده درونی بخش از ریبوزومی هسته می باشد (شکل1-5) درون این ناحیه، نواحی کد گذار بسیار حفاظت شده
, 26snrDNA) (18nrDNA,5,8 snrDNAبه همراه نواحی غیر کد گذار (ETS و ITS)قرار دارند. نواحی ITS1 و 2 ITS در بالغ شدن و پردازش ریبوزوم نقش مهمی را ایفا می کنند اما ناحیهITS پس از پردازش ریبوزوم ترجمه نمی شود و به همین علت کمتر تحت فشار عملکردی است. و سرعت بالای تکاملی، این ناحیه را برای بررسی روابط فیلوژنتیکی مناسب کرده است (Baldwin et al. ,1995,Alvarez &vendel ,2003)
شکل 1-5 ساختار ناحیه - شکل 2 nrDNA ITS برگرفته از Baldwin et al.,1995 با اندکی تغییر

دهه اخیر از داده های توالی ITS به عنوان ابزاری برای تعیین روابط فیلوژنتیکی در سطح پائین تاکسونومی و مخصوصاً جنس های نزدیک استفاده شده است (2008،. Soltis et al)
دلایل استفاده از این ناحیه در بازسازی روابط فیلوژنی را می توان به صورت زیر بیان کرد:
1-دارای کپی های فراوان که به صورت تکرار های در یک یا چند لوکوس کروموزومی ژنوم هسته ای قرار گرفتند که سبب سهولت در تکثیر کلونینگ و توالی یابی آن می شود.
2-یکی از مهمترین ویژگی های این ناحیه برای بازسازی روابط فیلوژنی وجود تکامل هماهنگ در این منطقه از طریق کراسیگ اوور نابرابر و برابر می باشد.
3- اندازه کوچک این ناحیه (کمتر از 700 جفت باز در نهاندانگان) و حضور توالی های بسیار حفاظت شده در مجاورت آن، سبب سهولت در تکثیر این ناحیه حتی از نمونه های هر بار یومی می شود.
White و همکاران (1990) پرایمرهای همگانی برای تکثیر این قطعه در موجودات یوکاریوت طراحی کردند.
4- برتری این ناحیه نسبت به ژنوم کلروپلاستی در به ارث رسیدن از دو والد است که این ویژگی سبب می شود تا درصد هیبرید ها و پلی پلوئیدی ها را نیز تشخیص داد (Baldwin et al. ,1995).
عمومیت این ژن در تمامی نهاندانگان، مزیت آن برای استفاده از گیاهان انگل است که بخشی یا تمامی کلروپلاست خود را از دست داده اند (معین، 1389).
3-4بررسی روابط فیلوژنی بر اساس صفات مولکولی
به منظور بررسی و بازرسانی تاریخچه تکاملی قبیله Cynoglosseae از توالیهای هسته ای
nrDNAITS (Nuclear Ribosomal DNA Internal Tran cribed spacer)
استفاده شد تاکسونهای مورد بررسی در این مطالعه در جدول آورده شده است
1-3 تاکسون های مورد استفاده برای تکثیر قطعه - جدول nrDNA ITS
نام تاکسون محل جمع اوری محل نگهداری وشماره هرباریومی
Rindera regia موسسه جنگل هاو مراتع
Rindera lanata موسسه جنگل هاو مراتع
Rindera cyclodonta موسسه جنگل هاو مراتع
Rindera albida موسسه جنگل هاو مراتع
Rindera bungei موسسه جنگل هاو مراتع
Rindera media 3-4-1استخراج DNAاز برگ
استخراج DNA کل از سلولهای برگ نمونه های هربایومی صورت گرفت استخراج به روشCTAB
(Doyle,1987& Doyle) انجام گرفت گیاهان این تیره حاوی مقادیر قابل توجهی از متابولیت های ثانویه هستند. به منظوربالا رفتن کیفیت کار بافر استخراج هر روز درست و استفاده می شد.
مراحل استخراج DNA به شرح زیر است:
1-یک تکه برگ خشک را در هاون اتو کلاو شده می سابیم تا کاملاً پودر شود. (باید توجه داشت که از برگهای زرد، قهوه ای و بیمار استفاده نشود)
2-به پودر حاصل به نسبت برگ به کار رفته محلول CTAB اضافه می کنیم تا جاییکه محلول یکدست و به رنگ سبز روشن در آید.
3-700میکرولیتر از محلول فوق را درون میکروتیوبهای 2 میلی لیتری اتو کلاو شده می ریزیم.
4- زیر هود به هر میکروتیوب 20 میکرولیتر مر کاپتواتانول می افزائیم.
5- میکروتیوبها را به مدت 1 الی 2 ساعت در بن ماری 65 درجه سانتیگراد قرار می دهیم و هر 5 دقیقه یکبار به دلیل ته نشین شدن مر کاپتواتانول میکروتیوبها را تکان می دهیم.
6- 800 میکرو لیتر کلروفرم – ایزو آمیل الکل با نسبت 1: 24 به میکروتیوبها اضافه کردیم و سپس آنها را به مدت 20 دقیقه با دست تکان دادیم.
7- میکروتیوبها را به مدت 15 دقیقه با سرعت 11000 دور سانتریفیوژ می کنیم.
8- در این مرحله 3 فاز تشکیل می شود فاز بالایی حاوی DNA است برای اینکه با فاز پائینی مخلوط نشودDNAرا برداشته و به میکروتیوب استریل دیگری منتقل می کنیم.
9-و باز دوباره کلروفرم و ایزوآمیل الکل به حجم 800 میکرو لیتر به آن اضافه می کنیم و باز دوباره میکروتیوبها را به مدت 10 الی 20 دقیقه با دست تکان می دهیم باز سانتریفیوژ به مدت 15 دقیقه با سرعت 11000 دور.
10- میکروتیوبها از سانتریفیوژ خارج کرده و 200 میکرو لیتر از فاز بالایی می کشیم و به میکروتیوبهای جدید انتقال می دهیم.
11- 700 میکرو لیتر ایزوپروپانول اضافه می کنیم و در دمای منفی 20 درجه به مدت2 الی 24 ساعت می گذاریم.
12- میکروتیوبها را از یخچال در آورده و با سرعت 8000 دور در 15 دقیقه سانتریفیوژ می کنیم.
13 –بلافاصله محلول رویی را دور ریخته و اتانول 70% سرد را به مقدار 200 میکرولیتر به رسوب DNA اضافه می کنیم.
14- میکروتیوبها را به مدت 5 دقیقه با سرعت 8000سانتریفیوژ می کنیم.
15- میکروتیوب ها را از دستگاه سانتریفیوژ خارج می کنیم و بلافاصله محلول رویی را دور ریخته و میکروتیوب های حاوی رسوب DNA را در دمای آزمایشگاه قرار می دهیم تا کاملاً خشک شود و اتانول تبخیر گردد.
16- به هر میکروتیوب با توجه به مقدار رسوب DNA حدود 20تا 40 میکرولیتر آب دیونیزه اضافه می کنیم.
17- میکروتیوبها را در دمای 20 درجه نگه داری می کنیم تا در صورت نیاز از DNA استفاده کنیم.
3-4-2تکثیر قطعات مورد نظر با استفاده از واکنش زنجیره ای پلیمر از (PCR =Polymerase chaine Reaction).
به منظور تکثیر توالیهای nrDNA ITS از آغازگر های ITS1F و ITS4 (White et al.1990) استفاده گردید.
توالیهای آغازگرهای مورد استفاده در جدول 1-4آمده است.
جدول 1-4 توالی آغازگر های مورد استفاده برای تکثیر قطعه - جدولnrDNA ITS
توالی آغازگر جهت حرکت آغازگر نام آغاز گر
5-AAGGTTTCCGTAGGTGAACC-3 آغازگر رفت ITS1F
5-TCCTCCGCTTATTGATATGC-3 آغازگر برگشت ITS4
جهت انجام واکنش PCR ابتدا مخلوط کلی طبق جدول پایین تهیه گردید.
جدول1-5 ترکیبات مورد استفاده برای مخلوط کلیpcr
مقدار مورد استفاده غلظت نام ماده
7 میکرو لیتر برای تکثیر قطعه هسته nrDNA ITS - آب دیونیزه
10میکرو لیتر 2X PCRmaster Mix
1میکرو لیتر 10PmoL /ML آغاز گر رفت
1میکرو لیتر 10PmoL/ML آغاز گر برگشت
1میکرو لیتر 20-25ng/ML DNA الگو

مراحل اصلی در یک واکنش PCR به ترتیب زیر است:
واسرشتگی اولیه: مخلوط تا 95 درجه سانتی گراد حرارت داده می شود این دما پیوندهای هیدروژنی بین 2 رشته DNA را می شکند و باعث واسر شتگی دو رشته DNA می گردد.
واسر شتگی ثانویه: مرحله اول مجدداً تکرار می شود تا اطمینان حاصل گردد که دو رشته DNA کاملاً از یکدیگر جدا شده اند.
اتصال: مخلوط تا دمای 64-60 درجه سانتیگراد خنک می شود در این دما آغازگرها به محل های ویژه ای از DNA متصل می شوند.
بسط اولیه: دما تا 72 درجه سانتیگراد افزایش می یابد. این دما برای عملکرد آنزیم Taq پلیمر از مناسب است تا رشته جدیدی از DNA ساخته شود.
بسط نهایی: مرحله قبل مجدداً تکرار می شود تا قطعاتی که هنوز تکثیرشان کامل نشده تکمیل گردند
در هر واکنش PCR مراحل 2تا 4 بسته به نمونه های مختلف 25تا 30 مرتبه تکرار می گردد.
جدول1-6 برنامه مورد استفاده برای واکنش PCR قطعه ITS nrDNA
زمان دما چرخه
5 ثانیه 950C واسرشتگی اولیه 25-30
1دقیقه 950C  واسرشتگی ثانویه 45ثانیه 0C 64-60 اتصال آغازگر 1دقیقه 720C بسط اولیه 7دقیقه 720C بسط نهایی 3-4-3الکتروفورزژل آگارز
الکتروفورز روشی است که در آن مولکول های DNA با بار منفی در میدان الکتریکی قرار می گیرند.
مولکول های DNA از میان شبکه ژل آگارز به سمت قطب مثبت حرکت می کنند که سرعت حرکت مولکول ها وابسته به اندازه قطعات DNA می باشد.
به منظور حصول اطمینان از تکثیر ناحیه مورد نظر در DNA، پس از انجام فرایند PCR محصولات در ژل آگارز 1 % الکتروفورز شدند.
بدین ترتیب 6 % آگارز وزن شد و در 60 میلی لیتر TBE IX به کمک حرارت حل شد 5/1 میکرو لیتر اتیدیوم برو ماید اضافه می کنیم. بعد از خنک شدن، محلول حاصل در سینی مخصوص که شانه در آن قرار داده شده بود ریخته شد. پس ژل برای بسته شدن درون یخچال قرار گرفت. بعد از قرار دادن ژل درون دستگاه الکتروفورز 3 میکرولیتر از محصولات PCR درون چاهک های افقی ژل تزریق شد. همچنین درون یکی از چاهک ها Ladder تزریق شد.
دستگاه الکتروفورز افقی (GeL XL Ultrauk) که با TBE IX برشده است به مدت 1 ساعت بر روی 75 ولتاژ تنظیم شد.
بعد از اتمام کار برای مشاهده ژل از دستگاه UV Light استفاده شد. باید توجه داشت که وجود باند در ستون کنترل منفی نشان دهنده آلودگی در محلول PCR و یا حین کار است.
براساس نوارهای وزنی Ladder بر روی ژل می توان به طول قطعه تکثیر شده پی برد.
تصویر ژل آماده شود.

شکل 1-6 nrDNA IT’S حاصل از تکثیر DNAژل الکتروفورز محصول

به طور کلی آغازگرهای PCR، براساس نواحی بسیار حفاظت شده ای طراحی می شوند که در دو سوی نواحی بسیار متغیر قرار دارند. مثلا آغازگر trn-c مورد استفاده در این مطالعه دارای ژن trnF (GAA) می باشند که ضمن انجام فرآیند PCRمطابق شکل1-7 به جایگاه های مربوطه متصل شده و ناحیه مورد نظر را تکثیر می کنند.

شکل 1-7 ناحیه فاصله گر رونویسی شونده داخلی (nrDNAITS)، زیر واحد ها، جهت و موقعیت آغاز گرها نشان داده شده است (برگرفته از Soltis et al., 1998).

شکل 1-8. ناحیه توالی DNA کلروپلاستی دو منطقه ی غیر کد شونده: اینترون trnL و فاصله گر بین ژنی trnL-F، جهت و موقعیت آغازگرها نشان داده شده است (برگرفته از (Quanddt et al., 2004.
3-4-4تعیین توالی مناطق تکثیر شده
محصولات PCRتک باند قوی و بدون کشیدگی ، جهت تعیین توالی از طریق شرکت ژن فن آوران به کشور کره فرستاده شد. برای تعیین توالی نمونه های مربوط به nrDNAITS از آغازگرهای ITS5 یا ITS5m وI4 یا AB101F و AB101R استفاده گردید
3-5آنالیز فیلوژنی
برای آنالیز داده های مولکولی، کروماتوگرام های حاصل از تعیین توالی نمونه ها با استفاده از نرم افزار Bioedit ویرایش و به text تبدیل شد و سپس به دو طریق دستی و با استفاده از نرم افزار ClustalW (Thompson et al., 1994) هم ردیف سازی گردید. با روش بیشینه ی صرفه جویی (Maximum parsimony) با استفاده از نرم افزار PAUP*4.0bl0 (Sowfford, 2002) و همچنین با روش Bayesian با نرم افزارversion 3.12) MrBayes Ronquist & Huelsenbeck, 2003) آنالیز شدند.

شکل 1-9 کروماتوگرام حاصل از تعیین توالی قطعه - شکل nrDNA ITS
3-5-1روش ماکزیمم پارسیمونی
بر اساس روش پارسیمونی مناسب ترین درخت، درختی است که به حداقل تعداد تغییرات برای توضیح داده ها (توالی های نوکلئوتیدی) نیاز داشته باشد و بنابراین بهترین درخت، کمترین تغییرات را در مسیر تکامل طی کرده و کمترین میزان هموپلازی ناشی از همگرایی یا برگشت را دارد و کوتاهترین درخت است.
در آنالیز پارسیمونی ممکن است چند کوتاهترین درخت به دست آید، در این صورت درخت توافقی (strict consensus tree) آنها را نشان می دهند که در این درخت کلادهای مشترک بین آن درختان نشان داده می شود ولی روابط ناسازگار بین آنها به صورت پلی تومی دیده می شود (Hall, 2001, Soltis & Soltis ,2003).
برای آنالیز داده های nrDNAITS، cpDNAtrnL-F و ترکیب ایندو، از جست و جوی ابتکاری (Heuristic search) و روش تبادل شاخه ای (Swapping)، دو نیمه سازی درخت و اتصال مجدد شاخه
هاTree Bisection Reconnection (TBR) و گزینه چندین درخت (MULTrees) با 100 تکرار از Random addition sequences و MaxTrees = 20000 (بیشینه درختان ذخیره شده) استفاده گردید.
برای تعیین حدود اطمینان کلاد ها در درخت مطلق مرکزی (Strict Consensus) حاصل از هر یک از آنالیز های مذکور، آنالیـز (Felsenstein 1985) Bootstrap با روش جستجوی ابتـکاری و انتخاب گزیـنه های Simple addition sequences و TBR و با انتخاب گزینه off برای MULTREES، انجام شد. تعداد تکرارها در تمامی آنالیزهای Bootstrapping، 20000 تکرار در نظر گرفته شد. بیشینه ی درختان ذخیره شده به ازای هر تکرار در تمامی موارد 100 درخت انتخاب شد.
3-5-2روش Bayesian
آنالیز Bayesian بر اساس قاعده آماری Bayes بنا نهاده شده است. در این قاعده برآمد نهایی آزمایش به انچه در مراحل قبلی رخ می دهند، بستگی دارد.
روش استنباطی Bayesian اخیرا به فیلوژنی راه یافته و یک ابزار قوی برای پاسخ به سوالات پیچیده در بیولوژی تکاملی است. Bayesian در فیلوژنی بر اساس کمیتی است که احتمال ثانویه نام دارد. در واقع تئوری Bayes، ترکیب احتمال اولیه (prior probability) از فیلوژنی(pr [Tree]) با احتمال (pr [Data / Tree])، برای ایجاد یک احتمال ثانویه (posterior probability) بر درخت (pr [Tree / Data)
است (Hall ,2001, Soltis & Soltis, 2003, Huelsenbeck et al., 2001).
این روش بر مدل های تکاملی متمرکز می شود و تمامی مکان های جانشینی را بررسی می کند. برای آنالیز داده های nrDNAITS، cpDNAtrnL-F و ترکیب ایندو، مدلهای تکاملی با استفاده از برنامه MrModeltest version 2.3 (Nylander, 2004)، اجرا شده در MrMTgui (Nuin 2005) بر اساس معیار اطلاعاتیAkaike (AIC) (Posada & Buckley 2004) انتخاب شدند. برطبق این آنالیز، مجموعه داده ها با استفاده از مدلهای K81uf + I + G و SYM +I + G، به ترتیب برای داده های cpDNAtrnL-F و nrDNAITS آنالیز شدند. مجموعه داده های ترکیبی در دو بخش با استفاده از ترکیب مدلهای مشابه یا به عنوان یک بخش با مدل GTR + I + G آنالیز شدند. برنامه MrBayes version 3.12 (Ronquist & Huelsenbeck 2003) برای آنالیز های فیلوژنتیکی Bayesian استفاده شد. برای آنالیز بخش بندی شده (partitioned analysis) و غیر بخش بندی ((nonpartitioned data، اجازه داده شد تخمین های جانشینی ها و طول شاخه ها به طور مستقل در هر بخش متغیر باشد. احتمالات ثانویه بر روی پارامترهای مدل از داده ها با استفاده از پیش فرض های اولیه برآورد شدند. آنالیز های ترکیبی و جدا از هم در 2 میلیون نسل تکرار شدند. 4 زنجیره مارکوف مونته کارلو (MCMC) در یک زمان از یک درخت به طور تصادفی شروع به کار کرد. یک درخت را در هر 100 نسل نمونه برداری کرد. درختان نمونه برداری شده بعد از رسیدن به فاز خطی (بعد از 500000 نسل یا 5000 نمونه) جمع آوری شدند و برای ایجاد یک درخت توافقی با بیشینه 50%، همراه با ارزشهای احتمال ثانویه با استفاده ازTreeview (Page 1996) استفاده شدند.
3-5-3مقایسه دو روش آنالیزی ماکزیمم پارسیمونی و Bayesian
در روش ماکزیمم پارسیمونی، بهترین تفسیر از درخت، ساده ترین تفسیر است. در این روش، درختانی انتخاب می شوند که حداقل تعداد تغییرات را داشته باشند. مزایای این روش این است که انتخاب درخت با کوتاهترین طول، تعداد جانشینی های نوکلئوتیدی و هموپلازی ناشی از تکامل موازی و برگشت را نیز به حداقل می رساند. این روش آنالیزی به آسانی در برنامه PAUP* قابل اجراست و می تواند جایگاه های اطلاعاتی و مشکلدار را شناسایی کند. همچنین این روش قادر است به حالت های اجدادی نیز پی ببرد. از معایب این روش این است که ممکنست بر اساس توالی های وارد شده، نتایج متفاوت ناشی از چندین جستجو به دست آید. همچنین این آنالیز با مجموعه داده های بزرگ نسبتا کند انجام می شود. روش Bayesian از یک سری فنون جستجوی بسیار کارآمد استفاده می کند. این روش با در نظر گرفتن احتمال اولیه قبل از آنالیز و بر اساس احتمال ثانویه، نتیجه تولید می کند. از مزایای این روش بر ماکزیمم پارسیمونی اینست که از بسیاری از امکانات آماری و مدلهای تکاملی استفاده می کند در حالیکه روش پارسیمونی فقط بر اساس صفات بنا نهاده شده است. روش Bayesian می تواند مجموعه داده های نسبتا بزرگ را آنالیز کند و همچنین ارزشهای حمایتی بالایی دارد (Soltis & Soltis, 2003).
8394701098550فصل چهارم
بحث و نتیجه گیری
00فصل چهارم
بحث و نتیجه گیری

4-1 آنالیز ماکزیمم پارسیمونی
طول این ناحیه هسته ای برای 5 تاکسونی که مورد مطالعه قرار گرفت. 658 جفت باز میباشد. ماتریکس توالی های nrDND ITS شامل 13 تاکسون درون گروه و2 تاکسون برون گروه می باشد. صفات اطلاعاتی 146 وصفات غیراطلاعاتی 512 میباشد. انالیز دادهای nrDNA ITS با روشMPتعداد کوتاهترین درخت با337 گام میباشد. با شاخص پایداری یا ثبات CI 671/0،شاخص گروه پذیری یا ابقا RI 613/0ایجاد کرد.
در این آنالیز دو نمونهTournefortia Rubicunda,Heliotropium Bacciferum به عنوان
برون گروه انتخاب شدند.بعد از برون گروه کلادوگرام شامل 8 زیرکلاد میباشد اولین زیر کلاد با حمایت 100به دو زیر کلاد تقسیم می شود که یک کلاد تک تبار شامل Echiochilon persicumوکلاد بعدیEchiochilon Fruticosum میباشد که این دو با حمایت 100میباشد زیر کلاد بعدی با حمایت 100شامل گونه Solenanthus circinatusمیباشد وزیرشاخه بعدی به گونه هایی از جنس Rinderaکه یک کلاد با حمایت 54 که کمترین حمایت میباشد شامل یک گونه R.lanataو شاخه بعدی گونه R.Bungei می باشد زیر کلاد بعدی با حمایت 100 به یک کلاد تقسیم میشود. که شامل گونه incerpicua Lepechiniella میباشد و کلاد بعدی شامل گونه paracaryum میباشد. همچنین زیر کلاد بعدی با حمایت 58به یک شاخه که شامل گونه R.Cyclodonta میباشد. زیر کلاد بعدی نیز به یک گونه Cynoglossum creticum میباشد و یک زیر کلاد نیز با حمایت 86 به 2 شاخه که شامل گونه های Lindelofialongiflora,cynoglossum officinalis
تقسیم می شود که این 3 گونه با R.Cyclodontaخواهران متوالی اند.

شکل 1-10فیلوگرام حاصل از آنالیز داده های nrDNAITS با روش ماکزیمم پارسیمونی. اعداد روی شاخه ها، نشانگرحدود اطمینان شاخه هاست.
4-2 آنالیز Bayesian
در این فیلو گرام 2 گونهHeliotropium BacciferumوToumefortia Rubicundaبه عنوان برون گروه میباشند.فیلوگرام به 2 شاخه تقسیم می شود که این شاخه خود به 2 زیر کلاد با حمایت 00/1 می باشد زیر کلاد اولی به 2 شاخه تقسیم شده با حمایت 00/1 که 2 گونه Echiochilon persicum وEchiochilon fruticosumمیباشد که به عنوان کلاد خواهری هستند ومونوفیلند و شاخه بعدی به 2زیر کلاد تقسیم میشود که یک کلاد گونه Solenanthus circinatus وهستش وهمچنین گونه های جنس RinderaوSolenenthus با حمایت 90/0گروه تک تبار را تشکیل میدهند و گونهRindera bungieوR.Lanataبا حمایت 99/0 کلاد خواهری را تشکیل میدهند.شاخه بعدی که با حمایت 90/0 خارج شده خود به 2 زیر کلاد تقسیم شده که زیر کلاد اولی به گونه Paracaryum spوشاخه بعدی با حمایت 78/0 که گونه
incerpicua Lepechiniella را شامل میشود و زیر شاخه بعدی به 2 شاخه تقسیم میشود که شامل گونه
R. cyclodontaبا حمایت 60/0 میباشد و شاخه بعدی با حمایت 86/0به 2شاخه که شامل 3 گونه که اولی cynoglossum certicumبا حمایت 99/0 و زیر شاخه بعدی شامل lindelofialongiflora وcynoglossum officinaleبا حمایت 97/0 کلاد خواهری را تشکیل میدهند.
که گونهParacaryumو incerpicua Lepechiniella و R.Cyclodontaوcynoglossum certicum
و lindelofialongiflora وcynoglossum officinale پیرا تبار میباشد.
-579755-200025CynoglossumOfficinale
Lindelofialongiflora
0.97
CynoglossumCreticum
0.99
R.cyclodonata
0.86
Lepechiniella incerpicua
0.60
ParacaryumSP
0.70
R.lanata
R.bungei
0.99
R.albida
R.regia
Solenanthuscircinatus
0.98
EchiochilonPersicumIRan
EchiochilonFruticosum
1.00
1.00
TournefortiaRubicunda
HeliotropiumBacciferum
0.1
00CynoglossumOfficinale
Lindelofialongiflora
0.97
CynoglossumCreticum
0.99
R.cyclodonata
0.86
Lepechiniella incerpicua
0.60
ParacaryumSP
0.70
R.lanata
R.bungei
0.99
R.albida
R.regia
Solenanthuscircinatus
0.98
EchiochilonPersicumIRan
EchiochilonFruticosum
1.00
1.00
TournefortiaRubicunda
HeliotropiumBacciferum
0.1

شکل 1-11درخت فیلوژنی حاصل از آنالیز nrDNAITS با استفاده از روش Bayesian. اعداد نشان داده شده، حمایت آماری کلادها را نمایش میدهد.
4-3 فیلوژنی قبیله Cynoglosseae
همان گونه که درفیلوگرام نمایش داده شده در آنالیز ماکزیمم پارسیمونی حاصل از داده های ITSنمایش داده شده است گونه متعلق به جنس Echiochilon یک کلاد با حمایت 100 را با گونه های Echiochilon persicum و E. fruticosum و به عنوان اولین کلاد از درخت خارج می شوند را تشکیل داده اند.این 2گونه در تبارEchiochileaeقرار دارندکه بر اساس مطالعات لنگستروم (2002) به این قبیله معرفی شد.
گونه R.cyclodonta نیز دور از سایر گونه های جنس Rindera قرار گرفته است.بنابرابن جنس Rindera تک تبار نمی باشد.
اعضای قبیله Cynoglosseae دارای خامه ای با تقسیماتی در راس با 2 تا 4 کلاله، همچنین با فندقه های دارای اثر اتصال قاعده ای وسیع مشخص می شوند. از نظر کروموزومی عدد پایه کروموزومی 8 دارند. (Lugue & valdes ,1984)
قبیله Echiochileae با دو گونه آنالیز شده(Fruticosum E.percicum, Echiochilon)
تک تبار می باشد و این قبیله معمولا در قاعده درخت قرار گرفته است. اعضای این قبیله فرم چوبی دارند. در حالیکه بقیه اعضای زیرتیره علفی اند. از نظر گرده شناسی گونه های Echiochilon شبیه به گونه های Heliotropium، 3 شیاره (3- colpate) هستند.
(Kazempour osaloo& khatam saz ,1994, Diez& valdes 1986)
گروهی از گیاهشناسان (De candolle ,1846) Echiochilon را در قبیله Echieae و عده ای دیگر Al shehbaz, 1991 آن را در قبیله Eritrichieae قرار داده بودند.
khatamsaz,2002, Riedl ,1997 نیز این جنس را متعلق به قبیله Lithospermeae می دانستند.
در توضیح قبیله Cynoglosseae.s.L می توان گفت که پهنای قبیله Cynoglosseae در یک کلاد با حمایت بالا قرار می گیرد و تک تبار نیست. (سعادتی، 1390).
گونه های جنس Rindera همراه با گونه Solenanthus circinatus یک کلاد با حمایت بالا (pp=100) را تشکیل داده اند، این 2 جنس در داشتن برگهای قاعده ای با دمبرگ طویل. گل آذین خوشه مرکب، جام گل لوله ای پرچم ها 5 عدد، کلاله سرسان مشترک هستند. صفت نامساوی بودن شکل برگها – تعداد فندقه و شکل بساک میان سایر اعضای این قبیله صرفاً مختص به این دو جنس می باشد.
گونه های جنس Rindera در کلادی با حمایت 100 قرار گرفته اند. اعضای این کلاد، یک کلاد خواهری Solenanthus circinatus تشکیل داده اند این دو جنس در داشتن برگهای قاعده ای با دمبرگ طویل هستند. بنابراین ویژگی برگهای قاعده ای یک صفت طبیعی برای طبقه بندی اعضای این قبیله محسوب می شود. و موید قرابت این دو جنس است.
در پلی تومی 4 شاخه ای که در میانه فیلوگرام شکل گرفته، گونه های جنس Solenanthus در یک کلاد با حمایت 100 قرار گرفته که دال بر تک تبار بودن این جنس است (اسماعیل بگی کرماتی ،1391)
اعضای جنس ها Cynoglossum و lindelofia در فیلوگرام نیز در یک کلاد با حمایت 86 قرار گرفته اند. اعضای این دو جنس هیچ کلادتک تباری را تشکیل نداده اند. اما مجموعه ی کلادی با حمایت 86 ایجاد کرده اند. این دو جنس ظاهراً تک تبار نیستند اما خویشاوند نزدیک یکدیگر به شمار می روند. جنس های Cynoglossum و lindelofia در داشتن گل آذین انتهایی بدون براکته، زائده مستطیلی شکل بین لب ها در دهانه جام و فندقه های خاردار مشابه هستند.
گونه های جنس Rindera در دو زیر کلاد نزدیک به هم قرار دارند و به همراه جنس Lepechiniella incerpicua و یک گونه از جنس paracaryum پارافیلتیک را تشکیل داده اند. براساس نتایج حاصل از این مطالعه جنس Rindera تک تبار نمی باشد.
4-4 روابط فیلوژنی جنس Rindera
جنس Rindera 5 گونه از (R. Regia, R.Albida, R.Bungei, R.lanata, R.Cyclodanta)این جنس با استفاده از توالی هسته ای ITSآنالیز شده که درخت حاصل از آن نشان داد که این جنس تک تبار نمی باشد. آنالیز نیز نشان داد R.Cyclodontaبه عنوان گروه خواهری با کلادی متشکل از گونه های جنس, Lepechiniella ,paracaryum, cynoglossum creticum,lindelofialong, cynogolossum officinale) قرار می گیرد. و در آنالیز انجام شده با استفاده از توالی هسته ای ITSگونه های Rindera در کنارparararyum, Lepechiniella incerpicua قرار گرفته اند و نشان می دهد این گونه ها به هم نزدیکند.
خصوصیات مشترک جنس Rinderaعلفی، کپه ای کوچک، پوشیده از کرک،ساقه افراشته،کاسه گل استکانی هستند.. (خاتم ساز1381)
علفی،ساقه ها معمولا ساده، کرکی نرم،(به ندرت بدون کرک)برگها بیضوی،دمگل بلند،گل اذین به فرم دیهم،کاسه گل 5قسمتی (Davis P.H ,1978))

Payan name 2013

کدام ساختار برای شبکه عصبی پیشنهادی مناسبتر است؟
مدل حاصله چگونه آموزش داده میشود؟
آیا میتوان احتمال خرابی یک کنتور را با مدل تصمیم گیری ارائه شده با دقت قابل قبول تشخیص داد؟
1-6 فرضیه‌هادر این پروژه موارد زیر به عنوان فرضیه جهت حل مسأله و پاسخ به سوالات پروژه در نظر گرفته شده است:
الگوریتم ترکیبی از درخت تصمبم و شبکه عصبی راهکار مناسبی برای حل مسأله است.
معیارها و فاکتورهای ارزیابی خرابی کنتور در جریان اجرای الگوریتم از پایگاه دادهها قابل دسترسی و محاسبه است.
تعداد ورودیها بستگی به تعداد متغیرها داشته و نتیجهی حاصله شامل کنتورهای خراب میباشد. پس ساختار مورد استفاده شامل چندین ورودی و یک خروجی میباشد.
اگر بنا بر دسته بندی کنتورهای خراب در چندین دسته مانند کنتورهای خراب، کنتورهایی با احتمال بالای خرابی، کنتورهایی با احتمال پایین خرابی و... شبکه دارای چندین خروجی خواهد شد.
با استفاده از دادههایی که از شناسایی یکسری محدود دادههای کنتورهای سالم و همچنین یکسری محدود دادههای کنتورهای خراب، شبکه آموزش داده میشود.
اختلافات بوجود آمده بین دادههای یک مشترک در طول زمان و استمرار آن را میتوان دلیل بر خرابی کنتور دانست.
1-7 راهکار ارائه شدهبا توجه به حساسیت این شرکت بر روی دادهها قبلا مجوز دسترسی به فیلدهای مربوطه گرفته شده است و منبع دادهها پایگاه داده شرکت ملی گاز کرمانشاه است. الگوریتمهای داده کاوی را از یک دید کلی بر اساس نوع میتوان به 2 گروه تقسیم کرد که عبارتند از دسته بندی و خوشه بندی. دسته بندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی ازمجموعههای از قبل تعریف شده میباشد ولی خوشه بندی به عمل تقسیم ناهمگن به تعدادی از زیر مجموعهها یا خوشههای همگن گفته میشود]3[. با توجه به تعاریف، نوع استفاده شده در این پروژه دسته بندی میباشد. با توجه به گسسته بودن اطلاعات روشی مشتمل بر شبکه عصبی و درخت تصمیم برای حل مساله مطرح شده طراحی میشود. با استفاده از پرسشنامه جهت دستیابی به تجارب مسئولین مرتبط با هدف پروژه، معیارهایی برای تعریف کنتور سالم و کنتور خراب از دیدگاه شرکت مشخص خواهد شد. نتیجه این پرسشنامه که ویژگیهای کنتور خراب را از دید مسئولین مشخص خواهد کرد که در تشخیص معیارهای ارزیابی کمک خواهد نمود. با توجه به معیارهای بدست آمده و ترکیب آنها با معیارهای مهندسی شده درمورد ساختار شبکه عصبی تصمیم گرفته خواهد شد و همچنین معیارهای مقایسه در درخت تصمیم مورد نظر بدست میآید. دادههای ارزیابی شده به عنوان مجموعه اعتبارسنجی انتخاب میشود که جدای از دادههای آموزش شبکه میباشد. بعد از آموزش شبکه عصبی و درخت تصمیم نسبت به ارزیابی و اعتبار سنجی آنها با مناسبترین الگوریتم از بین الگوریتمهای نام برده شده در شرح مسأله اقدام خواهد شد. بعد از اتمام طراحی و اعتبار سنجی روش حاصل توسط ابزارهای داده کاوی تست و اجرا میشوند و در صورت بروز مشکل یا احتمال خطا با توجه به تکرارپذیر بودن داده کاوی مراحل گفته شده دوباره تا حصول بهترین نتیجه تکرار خواهند شد. بعد از اتمام کلی و نهایی شدن طراحی، روش حاصله توسط ابزارهای داده کاوی تست و اجرا گشته و در نهایت نتایج جهت کمینه کردن هزینهی پروژهی مذکور در شرکت ملی گاز کرمانشاه به آن شرکت ارائه خواهد گردید.
روند داده کاوی نیز طبق متودلوژی CRISP-DM ]6[ پیش خواهد رفت که در شکل 1 میتوان آن را مشاهده نمود.

شکل 1- مدل فرآیند CRISP-DM برای کاربردهای داده کاوی]6[با توجه به اینکه داده کاوی یک فرآیند تکرارشونده است این مراحل تا حصول یک نتیجه قابل قبول تکرار خواهند شد.
تکنیکهای داده کاوی را میتوان به منظور ساخت سه نوع مدل، برای سه نوع فعالیت بکار برد که عبارتند از نمایه سازی توصیفی، نمایه سازی هدایت شده و پیش بینی]3[ که پروژه حاضر از نوع نمایه سازی هدایت شده میباشد.
با توجه به استفاده از درخت تصمیم و شبکه عصبی در این پروژه مراحل انجام طراحی برای هر قسمت جداگانه در ادامه توضیح داده خواهد شد.
الگوریتمهای درخت تصمیم در دسته بندی دادههای جدید بهترین عملکرد را ندارد. میتوان اینگونه گفت که درخت، الگوهای کلی را در گرههای بزرگ و الگوهای خاص را در گرههای کوچکتر مییابد. به عبارتی، درخت بر مجموعه آموزشی محاط شده که نتیجه آن یک درخت بیثبات و ناتوان در پیش بینیهای مناسب میباشد. علاج کار، حذف تقسیمات ناپایدار از طریق ادغام برگهای کوچکتر توسط فرآیندی است که هرس کردن نام دارد]10[. برای هرس کردن یکی از الگوریتمهای موجود مانند هرس کارت ]11[، هرس C5 ]11[، هرس ثبات محور ]10[ استفاده خواهد شد.
برای اندازه گیری خلوص ارزیابی تقسیمات در متغیرهای تابع هدف درخت تصمیم با توجه به دستهای یا عددی بودن آن از روشهای رایج مانند جینی ( پراکندگی جمعیت)]12[، آنتروپی (بهره اطلاعاتی)]13[، نسبت بهره اطلاعاتی که بیشترین کارایی را دارد استفاده شده است]10[.
برای طراحی شبکه عصبی در راستای اهداف پروژه مراحل زیر دنبال خواهد شد]10[:
تشخیص مشخصههای ورودی و خروجی
تبدیل ورودیها و خروجیها به نحوی که در یک بازه کوچک قرار گیرند.
ایجاد شبکه با یک ساختار مناسب
آموزش دادن شبکه به کمک مجموعه دادههای آموزشی
استفاده از مجموعه اعتبار سنجی، جهت انتخاب مجموعه اوزانی که خطا را به حداقل میرساند
ارزیابی شبکه با استفاده از مجموعه آزمون به منظور بررسی کیفیت عملکرد آن
به کار گرفتن مدل ساخته شده توسط شبکه جهت پیش بینی نتایج متناظر با ورودیهای نامعلوم
بعد از طراحی شبکه عصبی توسط مراحل گفته شده میتوان به سوالات زیر پاسخ داد:
تابع فعال سازی چیست؟
ساختار شبکه چگونه است؟
شبکه چگونه آموزش داده میشود؟
ساختار شبک دارای حداقل دو لایه پنهان است. بر روی یالهای شبکه اوزانی با استفاده از روش پس انتشار خطا برای تنظیم و تشخیص ورودیها در نظر گرفتیم. در نهایت بعد از طراحی، مدل را ساخته و در نرم افزار Rapid Miner 5 تست و اجرا کردیم و اشکالات را یافته و با تکرار مراحل طراحی آنها را رفع کردیم تا در نهایت مدل طراحی شده بتواند به مسأله مطرح شده پاسخ قابل قبولی را ارائه دهد.
1-8 ساختار پایان‌نامهدر ادامهی متن پایان نامه، ساختار کلی فصول مختلف به صورت زیر خواهند بود:
فصل دوم: این فصل مروری بر ادبیات و پیشینه پروژه میباشد که در آن به معرفی اولیه الگوریتمها و روشهای اجرا شده در پروژه اشاره میکنیم.
فصل سوم: در این فصل فرآیند داده کاوی انجام شده و روشها تست و ارزیابی میشوند و در نهایت روش ترکیبی از بهترین نتایج بدست آمده را تشکیل داده و معرفی میکنیم.
فصل چهارم: این فصل به نتیجه نهایی پروژه و معرفی راهکارهای آینده اشاره میکند.
فصل دوم
مروری بر ادبیات و پیشینه تحقیق

2-1 داده کاوی چیست؟بنا بر اعلام دانشگاه MIT دانش نوین داده کاوی یکی از ده دانش در حال توسعه‌ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می‌سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه‌های مختلف است، به گونه‌ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته‌اند [14].
داده کاوی، تحلیل داده و کشف الگوهای پنهان با استفاده از ابزارهای خودکار و یا نیمه خودکار است و هم چنین فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید در حجم وسیعی از داده می‌باشد، به طریقی که این الگوها و مدلها برای انسان‌ها قابل‌درک باشند. جمع‌آوری داده‌ها سبب شده سازمان‌ها منابع داده غنی و دانش ناچیزی داشته باشند. حجم این مجموعه داده‌ها به سرعت افزایش می‌یابد و باعث محدود شدن استفاده کاربردی از داده‌های ذخیره‌شده می‌شود. هدف اصلی داده کاوی استخراج الگوها از داده‌های موجود، افزایش ارزش ذاتی‌شان و تبدیل داده به دانش است [14].
با گسترش سیستمهای پایگاهی و حجم بالای داده‌های ذخیره‌شده در این سیستمها، به ابزاری نیاز است تا بتوان این داده‌ها را پردازش کرد و اطلاعات حاصل از آن را در اختیار کاربران قرارداد. معمولاً کاربران پس از طرح فرضیه‌ای بر اساس گزارشات مشاهده‌شده به اثبات یا رد آن می‌پردازند درحالی‌که امروزه به روش‌هایی نیاز داریم که به کشف دانش می‌پردازند، یعنی روش‌هایی که با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه‌های منطقی را پیدا کرده و بیان نماید.
امروزه، بیش‌ترین کاربرد داده کاوی در بانک‌ها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستان‌ها، مراکز تحقیقاتی، بازاریابی هوشمند می‌باشد. داده کاوی فرآیند اکتشاف اطلاعات و روندهای نهفته از درون حجم بسیار زیاد داده‌هایی است که در قالب پایگاه‌های داده‌ای، انباره های داده‌ای و یا هر نوع انباره اطلاعاتی ذخیره می‌شود. داده کاوی اطلاعات موجود در انبار داده‌ها را استخراج و داده‌ها را به دانشی حیاتی و مهم در ارتباط با کسب و کار تبدیل می‌نماید [15]. از طریق داده کاوی و دانش جدیدی که در اختیار قرار می‌دهد، افراد می‌توانند از داده‌ها به عنوان اهرمی جهت خلق فرصت‌ها یا ارزش‌های جدید در سازمان خود استفاده کنند و همچنین برای مسائل طبقه‌بندی و رگرسیون بکار گرفته شود. در مسائل طبقه‌بندی، دسته‌ای از اشیاء که در داخل یک طبقه‌ای قرار دارند پیش‌بینی می‌شوند و در مسائل رگرسیون، یکسری از اعداد، پیش‌بینی می‌گردند.
در حال حاضر، داده کاوی مهم‌ترین فناوری جهت بهره‌برداری موثر از داده‌های حجیم است و اهمیت آن رو به فزونی است [16]. به طوری که تخمین زده شده است که مقدار داده‌ها در جهان هر 20 ماه به حدود دو برابر برسد. در یک تحقیق که بر روی گروه‌های تجاری بسیار بزرگ در جمع‌آوری داده‌ها صورت گرفت مشخص گردید که 19 درصد از این گروه‌ها دارای پایگاه داده‌هایی با سطح بیشتر از 50 گیگابایت می‌باشند و 59 درصد از آن‌ها انتظار دارند که در آینده‌ای نزدیک در چنین سطحی قرار گیرند [16].
2-2 تعاریف متنوعی از داده کاوی
در زیر به تعاریف داده کاوی از دیدگاههای مختلف میپردازیم:
داده کاوی کشف دانش از پایگاه داده‌ها نامیده می‌شود) نشانگر فرآیند جالب استخراج دانش از قبل ناشناخته (الگو از داده است [17].
فرآیند کشف الگوهای مفید از داده‌ها را داده کاوی می‌گویند [16].
فرآیند انتخاب، کاوش و مدل کردن داده‌های حجیم، جهت کشف روابط نهفته باهدف به دست آوردن نتایج واضح و مفید، برای مالک پایگاه داده‌ها را، داده کاوی گویند [17].
"فاید"، داده کاوی را این‌گونه تعریف کرد، یک فرایند استخراج از اطلاعات ضمنی ناشناخته و مفید از داده‌های ذخیره‌شده در پایگاه داده‌هاست [18].
"گودیچی"، نیز داده کاوی را فرایند انتخاب، اکتشاف ومدل سازی مقادیر زیادی از داده‌ها برای به دست آوردن نتایج روشن و مفید برای پایگاه داده‌ها تعریف می‌کند [18].
اما تعریفی که در اکثر مراجع به اشتراک ذکرشده عبارت است از: "استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده‌های بسیار بزرگ و پیچیده"[17].
داده کاوی یک متدلوژی بسیار قوی و با پتانسیل بالا می‌باشد که به سازمان‌ها کمک می‌کند که بر روی مهم‌ترین اطلاعات از مخزن داده‌های خود تمرکز نمایند [19].
ابزارهای داده کاوی الگوهای پنهانی را کشف و پیش‌بینی می‌کنند که متخصصان ممکن است به دلیل اینکه این اطلاعات و الگوها خارج از انتظار آن‌ها باشد، آن‌ها را مدنظر قرار ندهند و به آن‌ها دست نیابند [19].
2-3 آیا داده کاوی سودمند است؟داده کاوی به دو دلیل سودآور است:
داده کاوی منجر به تصمیمات واقع‌بینانه می‌شود.
داده کاوی منجر به تکرار تصمیمات سودآور اتفاق افتاده در گذشته می‌شود.
با استفاده از داده کاوی تصمیمات احساسی کنار گذاشته میشوند و بر اساس واقعیت‌ها تصمیمات گرفته میشوند. بنابراین ضررهای ناشی از ناآگاهی مدیران حذف می‌شود. داده کاوی همچنین فضای سال‌های گذشته‌ی شرکت شما را بازبینی می‌کند و در نهایت نشان می‌دهد کدام تصمیمات منجر به سود شده است درحالی‌که شما از آن تصمیمات اطلاعی ندارید. شرکت‌ها و سازمان‌ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می‌شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی‌شود و عواملی چون «فراموشی»، «تخلفات و تقلبات»، «اشکالات خط تولید»، «منافع شخصی» و «سیاست‌های اعمال نفوذ شده از جاهای دیگر» منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می‌شود[20].
اما داده کاوی فضای حاکم بر کسب‌ وکار شما را شفاف می‌کند و شما را ملزم می‌کند واقع‌بینانه تصمیم بگیرید. تصمیم‌گیری واقع‌بینانه کلید از بین بردن تصمیمات احساسی و در نتیجه از بین بردن بهره‌وری پایین و ضررهای ناشی از ناآگاهی است. به طور کلی فضای تصمیم‌گیری در یک کسب‌ و کار شباهت بسیار زیادی به فضاهای تصمیم‌گیری اتفاق افتاده در 10 سال گذشته‌ی آن مجموعه دارد. این شباهت در یاد تصمیم‌گیرندگان آن کسب‌ و کار باقی نمی‌ماند و اغلب آشکار نیز نمی‌شود. داده کاوی فضای سال‌های گذشته‌ی کسب‌ و کار شما را بازخوانی می‌کند و به شما می‌گوید کدام تصمیمات منجر به سود شده است و کدام تصمیمات منجر به زیان کسب‌ و کار شده است. بنابراین داده کاوی باعث می‌شود تصمیمات زیان ده کسب و کارتان در گذشته را تکرار نکنید ولی تصمیمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنید. به لحاظ فنی، داده کاوی عبارت از فرآیندی است که در میان حوزه‌های گوناگون بانک‌های اطلاعاتی ارتباطی بزرگ، همبستگی‌ها یا الگوهایی را پیدا می‌کند [21].
2-4 آمار و داده کاویتلاش برای الگوهای موجود در دادهها مدت زمان طولانی در بسیاری از زمینه ها، از جمله آمار، الگوشناسی ، و تجزیه و تحلیل دادههای اکتشافی مورد مطالعه قرار گرفته شده است]4[. داده کاوی اساساً یک رشته کاربردی است و یک داده کاوی باید از روش‌های آماری درک خوبی داشته باشد. در داده کاوی تلاش می‌شود بین آمار و علوم رایانه‌ای رابطه‌ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح و دشوار بودن تبدیل مفاهیم نظری به الگوریتم‌های رایانه‌ای در ادبیات آماری و به دلیل وجود الگوریتم‌های فراوان در ادبیات رایانه‌ای دشوار است. لذا داشتن درکی درست از مدل‌سازی و الگوریتم‌های محاسباتی برای کارهای داده کاوی ضروری است.
روابط در داده کاوی غالباً به صورت الگوها و مدلهایی از قبیل معادلات رگرسیونی، سری‌های زمانی، خوشه‌ها، رده‌بندی‌ها، گراف‌ها و غیره ارائه می‌شوند. در داده کاوی نیز همانند آمار غالباً داده‌هایی که تحلیل می‌شوند، نمونه‌ای از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه‌ای حجیم مواجه هستیم. در هنگام کار با مجموعه داده‌های حجیم مشکلات تازه‌ای بروز می‌کند. برخی از این مشکلات به نحوه ذخیره‌سازی یا فراخوانی داده‌ها مربوط می‌شود و برخی دیگر مربوط به مسائلی مانند نحوه تحلیل داده‌ها در زمانی مناسب و استخراج الگوها و مدلهای حاکم بر داده‌ها است [22]. به طور کلی فرآیند کاوش الگوها، مدل ها و روابط مطلوب در یک مجموعه داده شامل مراحل زیر است:
معین ساختن طبیعت و ساختار مورد نظر
تصمیم‌گیری در مورد میزان برازش نمایش‌های متفاوت به داده‌ها، یعنی انتخاب یک تابع امتیاز
اتخاذ یک فرآیند الگوریتمی برای بهینه‌سازی تابع امتیاز
تصمیم‌گیری در مورد اصول مدیریت داده‌ها برای اجرای موثر الگوریتم
با توجه به اینکه مدلها و الگوها، توابع امتیاز، روش‌های بهینه‌سازی و راهکارهای مدیریت داده‌ها چهار مؤلفه اصلی الگوریتم‌های داده کاوی را تشکیل می‌دهند، با توجه به اینکه ماهیت داده‌ها در آمار با داده کاوی متفاوت است، داده کاوی به برخی از روش‌های آماری که دارای ویژگی‌های خاصی می‌باشند توجه بیشتری نشان می‌دهد.
یکی از ویژگی‌های مورد توجه روش‌های آماری در داده کاوی، سادگی تعبیر آن‌ها است. از این رو به استفاده از مدلهای نسبتاً ساده و قابل تعبیر مانند گراف‌ها گرایش زیادی وجود دارد. در داده کاوی مواردی که در آن‌ها با تعداد بسیار زیادی متغیر، مدل و یا فرضیه مواجه هستیم، فراوان است. از طرفی داده کاوی یک فرآیند اکتشافی و تکراری است به این معنی که در خلال تحلیل داده‌ها اطلاعات جدید کشف می‌شوند و فرضیه‌های قبلی اصلاح و فرضیه‌های جدید ارائه می‌شوند و این کار ممکن است با داده‌های زیاد، بارها تکرار شود. لذا از دیدگاه آمار روش‌هایی با کارایی محاسباتی بالا، تحلیل‌های محاسباتی و تحلیل‌های تقریبی، مورد توجه خاص داده کاوی هستند. تاکید بیشتر داده کاوی بر بعضی روش‌های آماری، به معنی عدم استفاده از سایر روش‌های آماری نیست و در عمل از طیف گسترده‌ای از روش‌های آماری برای تحلیل داده‌ها استفاده می‌شود.
آمار و داده کاوی هر دو با روش‌های تحلیل و مدل بندی داده‌ها مرتبط می‌باشند. بنابراین اشتراک زیادی بین این دو رشته وجود دارد. به عنوان یک شوخی، یکی از نویسندگان در پاسخ سؤال اینکه "داده کاوی چیست؟ بیان می‌کند که "همان آمار است، اما با یک نام خیلی بهتر" البته این ویژگی به معنای یکسان دانستن داده کاوی وآنالیزآماری نیست، در جدول زیر این تفاوت‌ها آورده شده است [23،21].
جدول (2-1): مقایسه آنالیز آماری و داده کاوی [22]آنالیز آماری داده کاوی
آمار شناسان همیشه با یک فرضیه شروع به کار می‌کنند. به فرضیه احتیاجی ندارد.
آمار شناسان باید رابطه‌هایی را ایجاد کنند که به فرضیه آن‌ها مربوط شود الگوریتم‌های داده کاوی در ابزارها به طور اتوماتیک روابط را ایجاد می‌کنند
آن‌ها از داده‌های عددی استفاده می‌کنند. ابزارهای داده کاوی از انواع مختلف داده و نه فقط عددی می‌توانند استفاده کنند.
آن‌ها می‌توانند داده‌های نابجا و نادرست را در طول آنالیز تشخیص دهند داده کاوی به داده‌های صحیح و درست طبقه‌بندی شده بستگی دارد.
آن‌ها می‌توانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند. نتایج داده کاوی آسان نیست و همچنان به متخصصان آمار برای تحلیل آن‌ها و بیان آن‌ها به مدیران نیاز است.
2-5 پیچیدگی و هزینه زمانیتحلیلگران دریافتهاند که پیچیدگی و زمانبر بودن دسترسی به حجم زیاد دادههای مورد نیاز و پردازش آن‌ها توسط بعضی ابزارهای داده کاوی، استفاده از این ابزارها را در هر نقطه از زمان و مکان غیرممکن ساخته است.
وزارت امنیت داخلی ایالات‌متحده آمریکا در آگوست 2006، به 12 تلاش داده کاوی دست زد که یکی از آن‌ها سیستم TVIS بود. این سیستم به منظور ایجاد و بهبود اشتراک دانش از خطرات تروریستی بالقوه، به روشی واحد دادههای زنده تولیدشده به وسیله خلبانان را ترکیب میکرد. نتایج تحلیلها نشانداد که اگرچه این سیستم در یک دوره تناوب دو ساعته کار می‌کند، کاربران قادر به استفاده روزانه از آن نبوده و فقط دو تحلیلگر امکان استفاده همزمان از آن را دارند. این منجر به اتلاف وقت تحلیلگران در زمان جستجو در پایگاه دادههای مضاعف شد. مشکل پیچیدگی و هزینه زمانی بعضی تکنیکهای داده کاوی، موجب کاهش پذیرش استفاده زمان واقعی از این سیستمها توسط افراد و روی آوردن به سیستمهایی با عملکرد ضعیفتر میشود [24].
2-6 محرمانگی دادههابا وجود تکنیکهای داده کاوی و اشتراک اطلاعات، توجه بسیاری از تحلیلگران به پیادهسازی محرمانگی و امنیت دادهها معطوفشدهاست. بعضی کارشناسان پیشنهاد کرده‌اند که بعضی کاربردهای ضد تروریسمی داده کاوی میتواند برای یافتن الگوهای تبهکارانه و مقابله با انواع جرمها مفید باشد. تا کنون، با وجود دیدگاه‌های متضاد بحث شده، توافق کمی درباره اینکه داده کاوی به چه صورت باید اجرا شود وجود دارد. بعضی مخالف سبک سنگینی برای ایجاد محرمانگی و تأمین امنیت هستند. بعضی ناظران نیز پیشنهاد کرده‌اند که قوانین و مقررات مربوط به حمایت از محرمانگی کافی هستند و هیچ تهدیدی برای محرمانگی وجود ندارد. هنوز ناسازگاریهایی در باب این مسئله وجود دارد که باید برطرفشوند. به موازات پیشرفت‌های داده کاوی، سؤالات متنوعی افزایش مییابند شامل اینکه نهادهای شهری و دولتی تا چه اندازه می‌بایست دادههای تجاری را با دادههای دولتی استفاده و ترکیب کنند، آیا منابع داده به منظورهایی غیر از هدف اصلی طراحی میشوند و کاربردهای ممکن از اعمال محرمانگی چیست؟ [25]
2-7 محدودیت‌های داده کاوی "گـرچه داده کاوی پیشرفت شگرفی در نوع ابزارهای تحلیلی موجود به وجود آورده است، لکن محدودیت‌هایی نیز درباره کاربردپذیری آن وجود دارد. یکی از محدودیت‌ها این است که ابزارهای داده کاوی هنوز استانداردسازی نشده‌اند و از نظـر تأثیرگذاری اختـلاف فـاحشـی با یکـدیگـر دارنـد. محدودیت دیگر آن است که گــرچــه داده کـاوی می‌تواند بـه آشکـارسـازی انگاره‌ها و رابطه‌ها کمک کند اما نمی‌تواند ارزش یا اهمیت این انگاره‌ها را به کاربر بگوید. بـنــابــرایــن، خــود کــاربـر بـایـد ایـن اطـلاعـات را مشخـص کنـد. محـدودیـت دیگـر این است که گرچه داده کاوی می‌تواند روابط بین رفتارها یا متغیرها را شناسایی کند، اما لزوما نمی‌تواند یک رابطه تصادفی را شناسایی کند"[26].
2-8 مراحل داده کاویچرخهی داده کاوی شامل روشها و مراحل مختلفی میباشد که ما در این پروژه از متدولوژی CRIDP-DM استفاده میکنیم. مراحل متدولوژی نام برده به ترتیب زیر است:
درک کسب و کار: در اولین قدم بایستی یک تعریف مناسب از مسأله و فضایی که قرار است پروژه در آن اجرا شود، داشت.
درک دادهها: در دومین قدم بایستی تمامی دادهها جمع آوری شود و مورد بررسی قرار گیرند. در این مرحله دادهها تعریف و یک دید از هرکدام از دادهها ارائه میشود.
آماده سازی دادهها: در این بخش دادههای مورد نیاز تشخیص داده شده و یا دادههای جدید از ترکیب دادههای قبلی تولید میشوند.
ساخت مدل: در این مرحله بایستی با استفاده از دادههای موجود مدلی برای حل مسأله ساخته شود. این مدل میتواند با هر یک از روشهای داده کاوی در راستای هدف تعریف شده ساخته شود.
تست و ارزیابی: در این مرحله مدل ساخته شده با دادههای مشخص بایستی مورد تست و ارزیابی قرار بگیرند. در این ارزیابی بنا به تعریف مسأله میتوان معیارهایی مانند دقت و یا سرعت مدل را مورد بررسی قرار داد.
ارائه مناسب از مدل و نتایج: در آخرین مرحله از این فرآیند بایستی روشی مناسب برای ارائه مدل و نتایج حاصل از اجرا و تست و ارزیابی پروژه انتخاب نمود.
باید توجه داشت که جمع‌آوری و محافظت از داده‌ها نکته بسیار مهمی می‌باشد. اصولاً چون قالب و نوع داده‌ها در طول زمان تغییر می‌کند ممکن است بسیاری از داده‌های موجود در قالب‌های متفاوت باشند و همچنین بسیاری از داده‌های قدیمی از بین رفته و دور ریخته شوند. درحالی‌که ممکن است اهمیت این داده‌ها از داده‌های جدید به هیچ‌وجه کمتر نباشد. همچنین به علت اینکه داده‌ها از منابع مختلف داخلی و خارجی مانند کارکنان شرکت، مدیران، مشتریان، کارفرمایان، پیمانکاران باشند باز هم ممکن است قالب داده‌ها باهم یکسان نباشد. به همین دلیل انتخاب داده‌های درست و یکپارچه‌سازی قالب آن‌ها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار می‌باشد[27].
2-9 وظایف و تکنیک های داده کاویکلاس‌بندی
تخمین
پیش‌بینی
گروه‌بندی وابستگی‌ها
خوشه‌بندی
نمایه‌سازی توصیفی
2-9-1 کلاس‌بندیکلاس‌بندی به معنای یادگیری تابع نگاشت ترکیب مقادیر خصایص به دسته‌های مختلف و تعیین کلاس از یک شی پایه بر اساس ویژگی‌هایش می‌باشد. هر شی‌ای که کلاس‌بندی می‌شود به صورت عمومی توسط رکوردهایی در جدول یک پایگاه داده یا در یک فایل بیان می‌گردد و عمل کلاس‌بندی با اضافه نمودن یک ستون جدید به همراه کد کلاس انجام می‌شود. وظیفه کلاس‌بندی به خوبی توسط تعریف کلاس‌ها و یک مجموعه آموزشی شامل نمونه‌های کلاسه‌ای از پیش تعریف‌شده مشخص می‌گردد .و در نهایت مدلی ساخته می‌شود که می‌توان داده‌های غیر کلاس‌بندی به این کلاس‌ها تخصیص داد [28].
2-9-2 تخمین
برآورد کردن با مقادیر خروجی پیوسته سروکار دارد .به صورت تجربی برآورد کردن اغلب قبل از کلاس‌بندی استفاده می‌شود. از مزایای رویکرد برآورد این است که رکودهای منحصربه‌فرد می‌توانند مطابق با برآورد رتبه ترتیبی اتخاذ نمایند [28].
2-9-3 پیش‌بینیپیش‌بینی همانند کلاس‌بندی است و انتظار می‌رود رکودهایی که کلاس‌بندی شده‌اند بر طبق بعضی از ویژگی‌های کلاس‌ها بتوانند پیش‌بینی‌های رفتارهای آینده به همراه تخمین ارزش‌های آینده باشند. در پیش‌بینی تنها راهی که مشخص می‌کند کلاس‌بندی ما صحیح بوده این است که منتظر بمانیم و ببینیم. داده‌های تاریخی برای ساخت مدلهای مفید هستند که رفتار مشاهدات جاری را توصیف نمایند و زمانی که مدل پیش‌بینی برای ورودی‌های جاری بکار برده می‌شود ،حاصلش این است که رفتارهای آینده را پیش‌بینی می‌نماید [28].
2-9-4 قواعد وابستگی یا گروه‌بندی پیوستگی‌هاقواعد انجمنی قابلیتی برای یافتن روابط ناشناخته موجود در اطلاعات است. این روابط مواردی از قبیل اینکه حضور مجموعه‌ای از مقولات اشاره به این دارند که مجموعه مقولات دیگری نیز احتمالاً وجود دارند را شامل می‌شود. این قواعد و وابستگی‌ها برای مشخص کردن چیزهایی است که باهم هستند .این وظیفه قلب تحلیل سبد بازار است و رویکردی ساده برای تولید قاعده دار داده می‌باشد[28].
2-9-5 خوشه‌بندیاین وظیفه برای بخش‌بندی جمعیت ناهمگن به زیرمجموعه‌های همگن یا همان خوشه‌ها می‌باشد. تفاوت عمده خوشه‌بندی با کلاس‌بندی در این است که بر اساس کلاس‌های از پیش تعریف‌شده عمل نمی‌نماید. در کلاس‌بندی هر رکورد به کلاس‌های از پیش تعریف‌شده‌ای که بر پایه توسعه مدل یادگیری می‌باشند، تخصیص داده می‌شود درحالی‌که در خوشه‌بندی کلاس‌های از پیش تعریف‌شده وجود ندارد و رکوردها بر پایه شباهت‌هایشان، گروه‌بندی می‌شوند [28].
2-9-6 نمایه‌سازی توصیفیبعضی اوقات هدف از داده کاوی ساده‌سازی توصیف و اینکه در پایگاه داده‌های پیچیده از چه طریقی می‌توان با شناخت افراد، میزان عرضه و تقاضای محصولات را افزایش داد. درخت تصمیم‌گیری ابزار قدرتمندی برای پروفایل نمودن مشتری می‌باشد [28].
2-10 معماری سیستم مبتنی بر داده کاویمعماری سیستم مبتنی بر داده کاوی از اجزای زیر تشکیل شده است :
پایگاه داده، انباره داده تحلیلی، سایر مخزن‌های اطلاعاتی که شامل یک یا مجموعه‌ای از پایگاه داده، انباره داده‌های تحلیلی، صفحات گسترده است و تکنیک های پالایش و تجمیع روی این داده‌ها انجام می‌گردد. سرویس‌دهنده پایگاه داده یا انبار داده تحلیلی که مسئول واکشی داده‌های مرتبط با درخواست‌های داده کاوی کاربران می‌باشد.
بانک دانش: دامنه دانشی است که به منظور راهنمای تحقیق و یا ارزیابی نتایج جالب‌توجه الگوها مورد استفاده قرار می‌گیرد.
موتور داده کاوی :از اجزای اصلی سیستم های داده کاوی است و مشتمل بر مجموعه‌ای از توابع برای وظایف داده کاوی می‌باشد .
الگوها: دانش به دست آمده در قالب الگوهایی ارائه و توسط توابعی صحت و دقت آن‌ها ارزیابی می‌شود .
واسط کاربر: به عنوان ارتباط‌دهنده‌ی میان کاربر و سیستم داده کاوی می‌باشد و ابزاری است برای بصری سازی الگوهای کاوشی در فرم های متفاوت [28].

شکل (2-1): معماری سیستم مبتنی بر داده کاوی [28].2-11 روش‌های داده کاوی
اهداف داده کاوی شامل پیش‌بینی و توصیف یا ترکیبی از آن‌هاست. هدف پیش‌بینی تمرکز بر روی دقت در توانایی پیش‌بینی بوده و توصیف بر درک فرآیند تولید داد ه ها تمرکز دارد. در پیش‌بینی تا زمانی که مدل قدرت پیش‌بینی دارد، کاربر توجهی به این ندارد که مدل انعکاس دهنده واقعیت است. به هر ترتیب، اهداف داده کاوی با استفاده از روش‌های داده کاوی، محقق می‌شوند. اصطلاح روش‌های داده کاوی در واقع بیانگر جمع کثیری از الگوریتم‌ها و فنون است که از علومی مانند آمار، یادگیری ماشین، پایگاه داده وتجسم سازی، استنتاج شده‌اند. روش‌های داده کاوی مشهوری که در این پژوهش معرفی خواهند شد شامل شبکه‌های عصبی، درختان تصمیم می‌باشد که در ادامه این روش ها را شرح می دهیم و همچنین دو روش ترکیبی جدید از روشهای گفته شده برای حل مسأله تشخیص کنتور خراب معرفی و بررسی خواهیم کرد.
2-12 درخت تصمیم‌گیریدرخت تصمیم‌گیری از نسل جدید تکنیک های داده کاوی بشمار می‌آید که در دو دهه اخیر توسعه زیادی یافته است. از این تکنیک هم می‌توان برای کشف و استخراج دانش از یک پایگاه داده و هم برای ایجاد مدل های پیش‌بینی استفاده نمود. درخت تصمیم‌گیری یکی از ابزارهای قوی و متداول برای دسته‌بندی و پیش‌بینی می‌باشد که قادر به تولید توصیفات قابل‌درک برای انسان، از روابط موجود در یک مجموعه داده‌ای است. ساختار تصمیم‌گیری می‌تواند به شکل تکنیک های ریاضی و محاسباتی که به توصیف، دسته‌بندی و عام سازی یک مجموعه از داده‌ها کمک می‌کنند نیز معرفی شوند.
درخت تصمیم، شیوه منحصر به فردی از ارائه یک سیستم است، که تصمیم‌گیری‌های آتی را تسهیل و سیستم را به نحو مناسبی تعریف می‌کند. با توجه به اینکه اکثر سیستم های مهندسی، اجرایی و محاسباتی را می‌توان در قالب یک سری داده (ویژگی یا ویژگی‌ها و خروجی منطبق با آن‌ها) تعریف کرد، می‌توان با استفاده از یک الگوریتم، (ایجاد درخت) ویژگی‌ها و خروجی‌ها را آنالیز کرد و سیستم را بر اساس این داده‌ها در قالب یک درخت تصمیم ارائه کرد [29]. درخت تصمیم‌گیری، ساختاری بازگشتی برای بیان یک فرآیند طبقه‌بندی متناوب می‌باشد که به وسیله مجموع‌های از صفات تشریح گردیده و یک وضعیت را به مجموع‌های گسسته از طبقات تخصیص می‌دهد [23].
هر برگ درخت تصمیم‌گیری، نماینده یک طبقه می‌باشد. درخت تصمیم روش کارآمد ویژه‌ای برای ایجاد دسته‌بندی کننده‌ها از داده‌ها است. مهم‌ترین خصوصیت درخت‌های تصمیم، قابلیت آن‌ها در شکستن فرآیند پیچیده تصمیم‌گیری به مجموع‌های از تصمیمات ساده‌تر است که به راحتی قابل تفسیر هستند [31،30].
نواحی تصمیم پیچیده سراسری (خصوصاً در فضاهایی با ابعاد زیاد) می‌توانند با اجتماع نواحی تصمیم محلی ساده‌تر در سطوح مختلف درخت تقریب زده شوند. برخلاف دسته‌بندی کننده‌های تک مرحله‌ای رایج که هر نمونه، روی تمام دسته‌ها امتحان می‌شود، در یک دسته‌بندی کننده درخت، یک نمونه روی زیرمجموعه‌های خاصی از دسته‌ها امتحان شده و محاسبات غیر لازم حذف می‌شوند. در دسته‌بندی کننده تک مرحله‌ای، فقط از زیر مجموعه‌های از صفات، برای روش بین دسته‌ها استفاده می‌شود که معمولاً با یک معیار بهینه سراسری انتخاب می‌شود. در دسته‌بندی کننده درخت، انعطاف‌پذیری انتخاب زیرمجموعه‌های مختلفی از صفات در گروه‌های داخلی مختلف درخت وجود دارد، به شکلی که زیرمجموعه انتخاب‌شده به شکل بهینه بین دسته‌های این گروه را تفکیک می‌کند. این انعطاف‌پذیری ممکن است بهبودی در کارایی را نسبت به دسته‌بندی کننده‌های تک مرحله‌ای ایجاد کند [31،23].
2-13 نقاط قوت درخت تصمیم‌گیریفهم مدل ایجادشده توسط درخت تصمیم‌گیری آسان می‌باشد. به عبارت دیگر با اینکه ممکن است الگوریتم‌هایی که درخت را ایجاد می‌کنند چندان ساده نباشد ولی فهم نتایج آن آسان می‌باشد ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[33].
درخت تصمیم‌گیری این توانایی را دارد که پیش‌بینی‌های خود را در قالب یک سری قوانین ارائه دهد.
نیاز به محاسبات خیلی پیچیده‌ای برای دسته‌بندی داده‌ها ندارد.
برای انواع مختلف داده‌ها قابل‌استفاده می‌باشد.
درخت تصمیم‌گیری نشان می‌دهد کدام فیلد یا متغیرها تأثیرات مهمی در پیش‌بینی و دسته‌بندی دارند.
سادگی در تحلیل و قابلیت تحلیل ساختار در مواقع پیچیدهتر و در حضور داده‌های ناقص نیز وجود دارد.
در صورت نیاز می‌توان به سادگی با نتایج روش‌های دیگر ترکیب‌شده و مدل را گسترش داد.
این ساختار قادر به کار کردن با مقادیر غیر عددی بوده و تعامل بهتری با اطلاعاتی با ماهیت غیر عددی دارد.
2-14 معایب درختان تصمیم در مقابل این مزیت‌ها میتوان به معایبی از جمله عدم تطابق با ویژگی‌های پیوسته در این درخت نیز اشاره نمود، این ساختار تنها قادر به کار کردن با ویژگی‌های است که مقادیر گسسته (با تعداد محدود) را در بر بگیرند. برای غلبه بر این مشکل، روشهای بسیاری پیشنهادشده تا مقادیر پیوسته به تعدادی خوشه‌های کوچک‌تر تقسیم شوند و به جای استفاده از مقادیر پیوسته هر ویژگی، مشخصه خوشه‌ای که این مقدار را در بر می‌گیرد در تصمیم‌گیری ساختار درخت تصمیم مورد استفاده قرار گیرد. برای این کار میتوان از روشهای خوشه‌بندی و یادگیری بدون ناظر استفاده نمود. همان طور که در بخشهای بعدی توضیح داده خواهد شد، در این پژوهش برای حل چنین مشکل‌هایی از الگوریتم خوشه‌بندی K-means استفاده ‌شده که در بخش مربوطه توضیح داده خواهد شد.
از دیگر مشکلات درخت تصمیم، نحوه ساختن یک درخت بهینه با کمترین میزان خطا و تا حد ممکن ساده است. فرآیند ساخت درخت، یک فرآیند واحد نمیباشد. متأسفانه، مشکل پیدا کردن کوچک‌ترین درخت تصمیم از روی یک نمونه دادهای، مسئله NP-Complete است ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[34]. به همین دلیل، اکثراً روش‌هایی بر پایه روشهای ساخت درخت غیر عقبگرد و به صورت حریصانه عمل مینمایند.
از معایب دیگر آن می‌توان به موارد زیر اشاره کرد:
در مواردی که هدف از یادگیری، تخمین تابعی با مقادیر پیوسته است مناسب نیستند.
در موارد با تعداد دسته‌های زیاد و نمونه آموزشی کم، احتمال خطا بالاست.


تولید درخت تصمیم‌گیری، هزینه محاسباتی بالا دارد.
هرس کردن درخت هزینه بالایی دارد.
در مسائلی که دسته‌های ورودی با نواحی مکعبی به خوبی جدا نشوند و دسته‌ها همپوشانی داشته باشند، خوب عمل نمی‌کنند.
در صورت همپوشانی گره‌ها تعداد گره‌های پایانی زیاد می‌شود.
در صورتی که درخت بزرگ باشد امکان است خطاها از سطحی به سطحی دیگر جمع شوند (انباشته شدن خطای لایه‌ها بر روی یکدیگر) [35].
طراحی درخت تصمیم‌گیری بهینه، دشوار است. کارایی یک درخت دسته‌بندی کننده به چگونگی طراحی خوب آن بستگی دارد.
احتمال تولید روابط نادرست وجود دارد.
بازنمایی درخت تصمیم دشوار است.
وقتی تعداد دسته‌ها زیاد است، می‌تواند باعث شود که تعداد گره‌های پایانی بیشتر از تعداد دسته‌های واقعی بوده و بنابراین زمان جستجو و فضای حافظه را افزایش می‌دهد.
این الگوریتم به حافظه زیادی نیاز دارد [35].
2-15 آنتروپیدر نظریه اطلاعات آنتروپی میزان خلوص (بی‌نظمی یا عدم خالص بودن) مجموعه‌ای از مثال‌ها را مشخص می‌کند. اگر مجموعه S شامل مثال‌های مختلف با کلاس‌های مشخص 1و 2و .. وn باشد و pi نشان‌دهنده نسبت تعداد اعضای کلاس i به کل داده‌های موجود باشد، در این صورت داریم:
EntropyS= -1log⁡(n) i-1npilog⁡(pi) (1-2)
با توجه به تعریف آنتروپی هر چقدر که نسبت کلاس‌ها به کل نمونه‌های موجود به همدیگر نزدیک‌تر باشد، آنتروپی مقدار بیشتری به خود می‌گیرد و در واقع زمانی که همه کلاس‌ها دقیقاً به یک اندازه باشند، میزان آنتروپی به بیش‌ترین مقدار خود یعنی 1 خواهد رسید:
∀i: pi= 1n ⟹ EntropyS=1 (2-2)
و وقتی که همه نمونه‌ها متعلق به یکی از کلاس‌ها باشند و باقی کلاس‌ها هیچ عضوی نداشته باشند در این صورت میزان آنتروپی به کمترین مقدار خود، یعنی صفر خواهد رسید. شکل زیر نحوه تغییر میزان آنتروپی را برای مجموعه‌ای با دو کلاس نشان می‌دهد. در این شکل، میزان فراوانی کلاس اول با P1 (که در نتیجه مقدار فراوانی کلاس دیگر برابر خواهد بود با 1- P1 ) بر روی محور افقی نمایش داده‌شده و محور عمودی آنتروپی مجموعه S را بر اساس این پراکندگی نشان می‌دهد [36]:

شکل (2-2): تغییر میزان آنتروپی را برای مجموعه‌ای با دو کلاساز روی مفهوم آنتروپی می‌توان، مفهوم بهره اطلاعاتی مجموعه نمونه S برای ویژگی A را به صورت زیر تعریف نمود:
GainS,A= EntropyS- v∈Values(A)SvS EntropySv (3-2)
که Values(A) مجموعه تمام مقادیری است که ویژگی A به خود می‌گیرد و همچنین Sv نیز نشان‌دهنده زیرمجموعه‌ای از S است که در آن‌ها ویژگی A مقدار v را به خود گرفته است. در هر مرحله از شاخه زنی درخت تصمیم (انتخاب یک ویژگی برای رأس‌های میانی)، ویژگی انتخاب خواهد شد که بهره اطلاعاتی بیشتری داشته باشد و به عبارت دیگر با انتخاب این ویژگی، میزان آنتروپی نسبت به حالت قبل از شاخه زنی بیش‌ترین کاهش را داشته باشد. الگوریتم درخت تصمیم از گره ریشه شروع به شاخه زنی و تقسیم مجموعه نمونه‌ها به زیرمجموعه‌های کوچک‌تر کرده و سپس این کار را به صورت بازگشتی بر روی زیرمجموعه‌های به وجود آمده از این شاخه زنی نیز تکرار میکند و این کار را تا جای ممکن ادامه میدهد:
در گره n، که شامل مجموعه نمونه‌های S است، ویژگی A را طوری انتخاب کن که بیش‌ترین بهره اطلاعاتی را برای مجموعه S داشته باشد، در صورتی که شاخه زنی ممکن نباشد، الگوریتم تمام شده است [36].
2-16 هرس درخت تصمیم تولیدشدهبا توجه به اینکه درخت تصمیم تولیدشده در این مرحله تا جای ممکن گسترش داده‌شده، یعنی شاخه زنی در این درخت تا جایی ادامه یافته که هر کدام از برگهای درخت شامل نمونههای آموزشی با تنها یک کلاس باشند، برگهای موجود در این درخت به شدت به تک‌تک نمونه‌های استفاده‌شده وابسته بوده و به همین درخت تولیدشده دلیل نسبت به نویز دادههای آموزشی حساسیت زیادی دارد ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[37].
درخت با داده‌های آموزشی مطابق روش قبل یاد گرفته می‌شود. سپس برای یک گره داخلی (غیر برگ n ) زیرشاخه n حذف می‌گردد. این زیرشاخه با یک برگ جایگزین می‌شود. به این برگ دسته مثال‌های اکثریت یعنی دسته‌بندی اکثر مثال‌های قرارگرفته تحت این شاخه نسبت داده می‌شود. عملکرد درخت بر روی نمونه‌های تست که در آموزش درخت از آن‌ها استفاده نکرده‌ایم بررسی می‌شود: اگر درخت هرس شده عملکرد بهتر و یا مساوی با درخت فعلی داشت از درخت هرس شده استفاده می‌شود. هرس کردن آن‌قدر ادامه می‌یابد تا هرس بیشتر، سودی نداشته باشد.
2-17 شبکه عصبی مصنوعی یکی از ابزارهای تحلیلی داده کاوی است که می‌تواند برای پیش‌بینی شاخص بهداشت و درمان مانند هزینه و استفاده از تسهیلات مناسب به کار گرفته شود. شبکه‌های عصبی شناخته‌شده برای تولید نتایج بسیار دقیق در پزشکی و هم چنین ابزاری قدرتمند برای کمک به پزشکان در تجزیه و تحلیل، مدل و ایجاد داده‌های بالینی پیچیده در طیف گسترده‌ای از برنامه‌های کاربردی می‌باشد ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[38]. این شبکه‌ها مجموعه‌ای از اتصالات ورودی و خروجی است که هر اتصال دارای وزن مختص به خود می‌باشد ADDIN EN.CITE <EndNote><Cite><Author>Aqueel Ahmed</Author><Year> 2012</Year><RecNum>2</RecNum><DisplayText>[3, 15]</DisplayText><record><rec-number>2</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">2</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Aqueel Ahmed, Shaikh Abdul Hannan</author></authors></contributors><titles><title>Data Mining Techniques to Find Out Heart Diseases: An Overview</title><secondary-title>International Journal of Innovative Technology and Exploring Engineering (IJITEE)</secondary-title></titles><periodical><full-title>International Journal of Innovative Technology and Exploring Engineering (IJITEE)</full-title></periodical><pages>18-23</pages><volume>1</volume><number>4</number><section>18</section><dates><year> 2012</year><pub-dates><date>Sep--ber 2012</date></pub-dates></dates><urls></urls></record></Cite><Cite><Author>Dan-Andrei SITAR-TĂUT</Author><Year>2010</Year><RecNum>15</RecNum><record><rec-number>15</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">15</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author><style face="normal" font="default" size="100%">Dan-Andrei SITAR-T</style><style face="normal" font="default" charset="238" size="100%">ĂUT, Adela-Viviana SITAR-TĂUT</style></author></authors></contributors><titles><title>Overview on How Data Mining Tools May Support Cardiovascular Disease&#xD;Prediction</title><secondary-title>Journal of Applied Computer Science &amp; Mathematics</secondary-title></titles><periodical><full-title>Journal of Applied Computer Science &amp; Mathematics</full-title></periodical><pages>57-62</pages><volume>no. 8 (4)</volume><section>57</section><dates><year>2010</year></dates><urls></urls></record></Cite></EndNote>[16،14]. این مدل شبیه مغز انسان است و شامل یادگیری الگوها از یک مجموعه داده‌ها برای پیش‌بینی در پزشکی می‌باشد ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[39]. شبکه‌های عصبی توانایی استنتاج معانی را از داده‌های مبهم و پیچیده را دارد ADDIN EN.CITE <EndNote><Cite><Author>Aqueel Ahmed</Author><Year> 2012</Year><RecNum>2</RecNum><DisplayText>[3]</DisplayText><record><rec-number>2</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">2</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Aqueel Ahmed, Shaikh Abdul Hannan</author></authors></contributors><titles><title>Data Mining Techniques to Find Out Heart Diseases: An Overview</title><secondary-title>International Journal of Innovative Technology and Exploring Engineering (IJITEE)</secondary-title></titles><periodical><full-title>International Journal of Innovative Technology and Exploring Engineering (IJITEE)</full-title></periodical><pages>18-23</pages><volume>1</volume><number>4</number><section>18</section><dates><year> 2012</year><pub-dates><date>Sep--ber 2012</date></pub-dates></dates><urls></urls></record></Cite></EndNote>[40] و شامل فرایندهای یادگیری، پیش‌بینی مشاهدات جدید و تعیین توالی می‌باشد. اما اشکال آن در این است که توضیحی راجع به اینکه چگونه به این نتیجه خاص رسیده است را نمی‌دهد. در حقیقت شبکه‌های عصبی مصنوعی بر آن هستند تا با ورودی‌های خاص یک خروجی خاص ایجاد کنند و بر این اساس مفهوم آموزش یا تنظیم و یادگیری شبکه عصبی مصنوعی به وجود می‌آید. شبکه‌های عصبی در زمینه پزشکی قادر به تجزیه و تحلیل نمونه‌های خون و ادرار، ردیابی سطح گلوکز در بیماران دیابتی، تعیین سطح یون در مایعات بدن و تشخیص آسیب شناختی و تشخیص بیماری قلبی شده است ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[33].
ایده اصلی این‌گونه شبکه‌ها الهام گرفته از شیوه کارکرد سیستم عصبی موجودات زنده و به خصوص مغز انسان، برای پردازش داده‌ها، و اطلاعات به منظور یادگیری و ایجاد دانش قرار دارد ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[41]. عنصر کلیدی این ایده، روشی برای محاسبه است که بر پایه اتصال به هم پیوسته چندین واحد پردازشی ساده به نام نورون ساخته می‌شود که برای حل یک مسئله با هم هماهنگ عمل می‌کنند و توسط سیناپس‎ها (ارتباطات الکترومغناطیسی) اطلاعات را بین یکدیگر منتقل میکنند و یادگیری این شبکه‌ها بر پایه این اتصالات به هم پیوسته واحدهای پردازشی ساخته می‌شود. شبکه از تعداد دلخواهی سلول یا گره یا واحد یا نرون تشکیل می‌شود که مجموعه ورودی را به خروجی ربط می‌دهند ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[36،39].
از نقاط قوت استفاده از شبکه‌های عصبی، قابلیت مدلسازی داده‌ها، با متغیرهای پیوسته و گسسته بوده و قابلیت تقریب قوی در این ساختارها است. طبق قضیه "سایبنکو"، یک شبکه پرسپترون با یک لایه مخفی و تعداد کافی نورون غیرخطی، میتواند نقش یک تقریب زننده جهانی را ایفا کند، یعنی میتواند هر تابع پیوسته بر روی هر زیر فضای بسته را تقریب زند. با این حال، یافتن وزنهای بهینه برای یک شبکه‌های عصبی مصنوعی به منظور کمینه کردن خطا بسیار پیچیده است ADDIN EN.CITE <EndNote><Cite><Author>Wasan</Author><Year>2006</Year><RecNum>12</RecNum><DisplayText>[14]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="xxseratwrwp5d2ep5s2vvealxsfed2vsetv5">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Harleen Kaur and Siri Krishan Wasan</author></authors></contributors><titles><title>Empirical Study on Applications of Data Mining Techniques in Healthcare</title><secondary-title>Journal of Computer Science 2 (2): 194-200</secondary-title></titles><periodical><full-title>Journal of Computer Science 2 (2): 194-200</full-title></periodical><pages>194-200</pages><section>194</section><dates><year>2006</year></dates><urls></urls></record></Cite></EndNote>[42]. از سوی دیگر با وجود اینکه این روش کارایی بسیار خوبی برای کار با دادههای عددی دارد ولی با داده‌های رستهای نیز مانند دادههای عددی برخورد میکند. به همین دلیل، نحوه تفسیر عددی از دادههای رستهای به عنوان دادههای عددی، میتواند در عملکرد الگوریتم تأثیرگذار باشد. از دیگر معایب شبکههای عصبی ماهیت جعبه سیاه آن است یعنی پس از انجام مرحله آموزش و برآورد وزنهای مدل، تفسیر این وزنها و استدلال درباره دادهها بر اساس این پارامترها ناممکن است. از دیگر معایب این الگوریتمها، زمان بیشتر آموزش دادن مدل نسبت به دیگر الگوریتمهای به‌کاررفته در این پژوهش میباشد [36].
یکی از معروف‌ترین انواع شبکه‌های عصبی مصنوعی، شبکه عصبی پرسپترون چند لایه می‌باشد. این شبکه‌ها، شامل چند لایه از گره‌هایی به نام پرسپترون هستند که توسط یک شبکه feed-forward کاملاً به هم پیوسته به یکدیگر متصل میشوند. نورون های همه لایه‌ها به جز لایه ورودی (که خطی هستند) به صورت نورون هایی با تابع فعال‌سازی غیرخطی مدل میشوند. از معروف‌ترین توابع فعال‌سازی مورد استفاده برای پرسپترون میتوان به موارد زیر اشاره نمود:

edit

پدرانمان مادرانمان استادانمان
تقدیم
به پاس تعبیر عظیم و انسانی شان از کلمه ایثار و از خودگذشتگان به پاس عاطفه سرشار و گرمای امیدبخش وجودشان که در این سردترین روزگاران بهترین پشتیبان است به پاس قلب های بزرگشان که فریاد رس است و سرگردانی و ترس در پناهشان به شجاعت می گراید و به پاس محبت های بی دریغشان که هرگز فروکش نمی کند
این مجموعه را به پدر و مادر عزیزم تقدیم می کنم
فهرست مطالب
left36449000عنوانصفحه
چکیده......................................................................................................................................1
مقدمه........................................................................................................................................2
فصل اول:کلیات تحقیق
۱-1. شرح مساله.........................................................................................................................5
1-1-1. تشریح ابعاد.........................................................................................................................................5
1-1-2. حدود مساله.........................................................................................................................................5
1-1-3. معرفی دقیق مسأله................................................................................................................................5
1-1-4. بیان جنبه‌های مجهول و مبهم و متغیرهای مربوط به پرسش‌های تحقیق.....................................................6
1-1-5. منظور تحقیق.......................................................................................................................................7
۱-2. اهداف..............................................................................................................................8
۱-3. سوالات تحقیق..................................................................................................................8
۱-4. جنبه نوآوری و جدید بودن تحقیق......................................................................................8
۱-5. روش کار..........................................................................................................................9
1-6. فرضیات..........................................................................................................................11
1-7. ساختار پایان نامه..............................................................................................................11
فصل دوم:ادبیات تحقیق
2-1. معرفی شبکه های حسگر بیسیم.........................................................................................13
2-2. تاریخچه شبکه های حسگر...............................................................................................14
2-3. ساختار هر گره حسگر......................................................................................................16
2-3-1. اجزاء درونی یک گره حسگر............................................................................................................17
2-3-2. محدودیت های سخت افزاری یک گره حسگر...................................................................................18
2-4. پشته پروتکلی..................................................................................................................20
2-5. مزایای شبکه های حسگر بیسیم.........................................................................................21
2-6. کاربردهای شبکه های حسگر بیسیم..................................................................................22
2-7. طراحی شبکه های حسگر بی سیم.....................................................................................26
2-8 . طبقه بندی تکنیک های خوشه بندی.................................................................................30
2-8-1. مدل شبکه.........................................................................................................................................30
2-8-2. اهداف خوشه بندی...........................................................................................................................34
2-8-3. طبقه بندی علمی ویژگی های خوشه بندی..........................................................................................37


2-9. الگوریتم ژنتیک..............................................................................................................41
2-9-1. پیش زمینه ی بیولوژیکی ژن ها و کروموزوم ها...................................................................................41
2-9-2. تولید سلول های جدید.......................................................................................................................42
2-9- 3. توضیحات پایه..................................................................................................................................42
2-9-4 . فضای جستجو..................................................................................................................................43
2-9-5 . عملگر های الگوریتم ژنتیک.............................................................................................................43
2-9-5-1.کددهی.........................................................................................................................................44
2-9-5-2 . بررسی نحوه اعمال عملگرها در انواع کددهی................................................................................46
2-10.کلونی مورچگان............................................................................................................48
فصل سوم:پیشینه ی تحقیق
3-1. الگوریتم های خوشه بندی برای شبکه ی گیرنده ی بیسیم................................................52
3-1-1. الگوریتم های زمان همگرایی متغیر...................................................................................................52
3-1-2. الگوریتم های زمان همگرایی ثابت....................................................................................................63
3-1-3 . خوشه بندی با GA...........................................................................................................................78
3-1-3-1. نمایش مسئله..............................................................................................................................78
3-1-3-2. ارزیابی سازگاری.......................................................................................................................79
3-1-3-3 . پنجره ی مقیاس گذاری.............................................................................................................80
3-2. نتیجه گیری.....................................................................................................................81
فصل چهارم: روش کار و شرح روش پیشنهادی
4-1.صورت مساله...................................................................................................................83
4-2.فرضیات...........................................................................................................................83
4-3. انتخاب سر خوشه با الگوریتم ژنتیک.................................................................................87
4-4.خوشه بندی با ACO.........................................................................................................89
4-4-1. شبه کد ACO................................................................................................................90
4-4-2. عمل ACO...................................................................................................................91
فصل پنجم: شبیه سازی و نتایج
5-1.مقدار دهی اولیه................................................................................................................94
5-2.ماتریس ها........................................................................................................................94
5-3.شکل دهی کروموزوم ها..................................................................................................97
5-4.عملیات Crossover و Mutation.....................................................................................98
5-5.خروجی اولیه CH ها و اعمال ACO برای خوشه بندی........................................................99
5-6.مقایسه خروجی LEACH و روش پیشنهادی....................................................................100
5-7.مقایسه مصرف انرژی و عمر شبکه LEACH و روش پیشنهادی.........................................104
فصل ششم: نتیجه گیری و کارهای آتی
6-1.نتیجه گیری....................................................................................................................107
6-2.کارهای آتی..................................................................................................................108
6-3.محدودیت ها.................................................................................................................109
منابع...................................................................................................................................110
چکیده انگلیسی.....................................................................................................................113
فهرست جدول ها
left43751500عنوانصفحه
3-1. الگوریتم های خوشه بندی................................................................................................76
3-2. طبقه بندی ویژگی های الگوریتم های خوشه بندی............................................................77
فهرست شکل ها
left43370500عنوانصفحه
2-1. معماری ارتباطات شبکه های حسگر بیسیم.........................................................................13
2-2. اجزاء درونی یک گره حسگر...........................................................................................18
2-3. پشته پروتکلی شبکههای حسگر........................................................................................20
2-4. نمونه کاربردهای شبکههای حسگر بیسیم........................................................................26
2-5.فضای حل کروموزوم ها...................................................................................................44
2-6.کددهی جایگشتی............................................................................................................45
2-7.کددهی ارزشی................................................................................................................45
2-8.کددهی درختی................................................................................................................46
2-9.ترکیب و جهش در کددهی دودویی................................................................................46
2-10.ترکیب دو نقطه ای.........................................................................................................47
2-11.ترکیب یکنواخت...........................................................................................................47
2-12.ترکیب حسابی...............................................................................................................47
2-13.ترکیب..........................................................................................................................48
2-14. کلونی مورچگان...........................................................................................................49
3-1. شکل نهایی خوشه بندی...................................................................................................57
3-2. مفهوم سلسله مراتب خوشه ها...........................................................................................58
3-3. ساختار شش گوشه سلولی مجازی....................................................................................60
3-4. الگوریتم FLOC.............................................................................................................65
3-5. پیشرفت الگوریتم ACE را بعد از 3 تکرار.........................................................................68
3-6. ساختار موقعیت درون خوشه ای.......................................................................................72
3-7. ترسیم دوباره از نمونه ای از سلسله مراتب ویژگی...............................................................75
3-8. نمونه ای از خوشه بندی....................................................................................................78
3-9. توزیع نسبی قبل و بعد از سنجش GA................................................................................81
4-1.روند کلی روش پیشنهادی.................................................................................................86
4-2. مراحل Genetic..............................................................................................................89
4-3. کلونی مورچگان.............................................................................................................90
4-4. یک شبه کد برای ACO..................................................................................................91
5-1. عمل Crossover با سیاست Bitmask..............................................................................98
5-2. انتخاب CH ها توسط Genetic........................................................................................99
5-3. نتایج پیاده سازی LEACH............................................................................................101
5-4. نتایج پیاده سازی Genetic – ACO...............................................................................101
5-5. زمان مرگ اولین گره.....................................................................................................102
5-6. مقایسه زمان مرگ گره ها..............................................................................................103
5-7. زمان از کار افتادن شبکه.................................................................................................103
5-8. مقایسه مصرف انرژی.....................................................................................................104
5-9. مقایسه ماندگاری SN ها و طول عمر شبکه......................................................................105
چکیده
این تحقیق به بهبود بهینه سازی طول عمر و مصرف انرژی در شبکه های حسگر بی سیم می پردازد و در نهایت ایجاد خوشه های مناسب در محیط های با تعداد حسگر زیاد. این دو هدف تأثیر عمیق بر روی صلاحیت خدمات شبکه و شکل گیری خوشه ها که یک راه حل مناسب برای دستیابی به آنها است می گذارد. برای حل مسائل بهینه سازی شبکه ی سنسوری، روشی کارآمد مبتنی بر الگوریتم های ژنتیک و کلونی مورچگان را ارائه می دهیم. ما از الگوریتم ژنتیک برای ایجاد سرخوشه هایی با هدف بهبود انرژی در خوشه بندی شبکه های حسگر بیسیم استفاده می کنیم. کلونی مورچگان نیز خوشه های با هدف نزدیکترین فواصل در محیط های پر جمعیت ارائه می کند. هدف اصلی انتقال داده های جمع آوری شده به ایستگاه پایه و ایجاد گره های منطقی به نام سرخوشه می باشد. این مطالعه به بررسی الگوریتم ژنتیک و کلونی مورچگان به عنوان یک روش پویا برای پیدا کردن موقعیت های مطلوب حسگر ها و خوشه ها است. ابزار شبیه سازی در این پایان نامه نرم افزار JAVA می باشد. در نهایت، اجرای الگوریتم پیشنهادی نشان می دهدکه بهره وری این الگوریتم در مقایسه با دیگر آثار شبیه سازی شده بهتر است.
مقدمه
فنآوری اطلاعات خیلی سریع به عنوان یک وسیله ضروری در جامعه مطرح شد. با رشد هر چه بیشتر این فن آوری ضرورت به کارگیری کامپیوتر، برای رفع نیازها، در جامعه روز به روز بیشتر احساس میشود. پیشرفتهای اخیر در کاهش هزینهها و کوچک کردن وسایل محاسباتی، همچنین استفاده از تکنولوژیهای ارتباطی بیسیم و سنسورها، زندگی روزمره بشر را ساده کرده است. شبکههای سنسور یکی از تکنولوژیهای کلیدی در آینده خواهند بود. در سال 1999 مجله تجارت هفتگی این شبکهها را یکی از مهمترین تکنولوژیهای قرن بیست و یکم معرفی کرد[2]. دستگاههای ارزان و هوشمند با چندین سنسور داخل خود که به صورت بیسیم شبکه شدهاند، امکانات بینظیری برای اندازهگیری و کنترل در صنعت، کشاورزی، شهرها و محیط زیست فراهم کردهاند. شبکه های سنسور این تکنولوژی را برای استفاده در طیف وسیعی از سیستمهای دفاعی، شناسایی و نظارت ارائه کردهاند.
شبکههای حسگر بیسیم[1] جهت جمع آوری اطلاعات در مناطقی که کاربر نمیتواند حضورداشته باشد مورد استفاده قرار می گیرند. در یک شبکه حسگر ، حسگرها به صورت جداگانه مقادیر محلی را نمونه برداری (اندازه گیری) می کنند و این اطلاعات را درصورت لزوم برای حسگرهای دیگر و در نهایت برای مشاهده گر اصلی ارسال می نمایند. عملکرد شبکه این است که گزارش پدیده هایی را که اتفاق میافتد به مشاهده گری بدهد که لازم نیست از ساختار شبکه و حسگرها به صورت جداگانه و ارتباط آنها چیزی بداند. این شبکه ها مستقل و خودگردان بوده وبدون دخالت انسان کار میکنند. معمولا تمامی گرهها همسان میباشند و عملاً با همکاری با یکدیگر، هدف کلی شبکه را برآورده می‌سازند. هدف اصلی در شبکههای حسگر بیسیم نظارت و کنترل شرایط و تغییرات جوی، فیزیکی و یا شیمیائی در محیطی با محدوده معین میباشد. پیشرفتهای اخیر در طراحی و ساخت تراشههای تجاری این امکان را به وجود آورده است که عمل پردازش سیگنال و حسکنندگی در یک تراشه انجام گردد که به این قطعات حسگرهای شبکه بیسیم گفته میشود که شامل سیستمهای میکروالکترومکانیکی مانند حسگرها، محرکها و قطعات رادیویی میباشد.
در شبکههای بیسیم حسگر فقط یک یا دو ایستگاه پایه‌ وجود دارد و تعداد زیادی نودهای حسگر در محیط پخش گردیدهاند. به علت محدودیت برد این حسگرها و انرژی باتری خیلی از نودها قادر به ارتباط مستقیم با ایستگاه پایه‌ نمی باشند. اما سریعاً با تکیه بر نودهای نظیر خود و نودهای حسگر دیگر، به ارتباط با ایستگاه پایه‌ می پردازد.
شبکه های حسگر بیسیم، نوع خاصی از شبکه های کامپیوتری هستند که برای انجام کارهای نظارتی تعبیه شده اند. این شبکه ها از تعداد زیادی (حتی هزاران) گره کوچک با قابلیت و قدرت پایین و همچنین ارزان قیمت تشکیل شده اند. این گره ها که هر کدام سنسور نامیده می شوند، می توانند اطلاعاتی را از محیط اطراف خود دریافت کرده و با انجام یکسری عملیات، اطلاعات را برای همسایگان خود ارسال کنند.
فصل اول
کلیات تحقیق
344904160218
1-1.شرح مساله
1-1-1 .تشریح ابعاد : شبکه های حسگر بیسیم، نوع خاصی از شبکه های کامپیوتری هستند که برای انجام کارهای نظارتی تعبیه شده اند. این شبکه ها از تعداد زیادی (حتی هزاران) گره کوچک با قابلیت و قدرت پایین و همچنین ارزان قیمت تشکیل شده اند. این گره ها که هر کدام سنسور نامیده می شوند، می توانند اطلاعاتی را از محیط اطراف خود دریافت کرده و با انجام یکسری عملیات، اطلاعات را برای همسایگان خود ارسال کنند. در شبکه های حسگر بیسیم پروتکل های بسیاری به موضوع مسیریابی پرداخته اند. این پروتکل ها می توانند از دید ساختار شبکه به دسته مسیریابی تخت، سلسله مراتبی و مبتنی بر مکان تقسیم شوند. در مدل تخت همه گره ها نقش یا کار مساوی دارند اما در سلسله مراتبی گره ها نقش مختلفی بازی می کنند و در مدل مبتنی بر مکان نیز از موقعیت گره های سنسور برای مسیردهی داده در شبکه استفاده می شود. انواع مختلف این پروتکل ها در اینجا مورد بررسی قرار گرفته و در مواردی با پارامترهایی با هم مقایسه شده اند.
1-1-2 .حدود مساله : در شبکه های حسگر بیسیم، تعداد زیادی گره با امکانات مخابره، پردازش، حسکردن محیط و غیره در محیطی با چهارچوب معین پراکنده شدهاند. رویداد اتفاق افتاده و یا سوالات پرسیده شده از سوی گره مرکزی HYPERLINK "http://www.ecg-pnum.ir/thesis/index.php?pages=thesis&opt=onel&i=134&l=7693" l "_ftn4" o "" و ماموریت محوله بر هر گره موجب میشود، ارتباطاتی بین گرهها برقرار شود. اطلاعات رد و بدل شده می‌تواند گزارشی از وضیعت محدوده که زیر نظر گرههای حسگر میباشد به گره مرکزی و یا درخواستی از سمت گره مرکزی به سمت گرههای حسگر باشد. گره مرکزی به عنوان درگاه ارتباطی شبکه حسگر با سایر سیستمها و شبکههای مخابراتی، در واقع گیرنده نهایی گزارش از گرههای حسگر میباشد و بعد از انجام یکسری پردازشها، اطلاعات پردازش شده را به کاربر ارسال میکند (با استفاده از یک رسانه ارتباطاتی مانند اینترنت، ماهواره و غیره). از سوی دیگر، درخواستهای کاربر نیز توسط این گره به شبکه انتقال مییابد.
شرح این ایده را به چند قسمت تقسیم کرده و بخش های هر قسمت را تشریح می کنیم.
1-1-3 .معرفی دقیق مسأله : با توجه به منطقه ای که به طور گسترده پوشش داده می شود، طول عمر فعالیت باتری حسگرها و امکان داشتن آسیب گره در طول استقرار، تعداد زیادی حسگر را در برنامه های کاربردی شبکه های حسگر بیسیم احتیاج داریم. پیش بینی شده است که صدها و یا حتی هزاران حسگر گره درگیر خواهد شد. طراحی و کاربرد چنین شبکه بزرگی به مدیریت استراتژی های معماری مقیاس پذیر نیاز دارد. علاوه بر این، حسگرها در چنین محیط های با انرژی محدود شده و باتری هایشان را نمی توانند شارژ کنند. بنابراین، طراحی الگوریتم انرژی آگاهانه یک فاکتور مهم ا برای افزایش طول عمر حسگر می شود. برنامه محوری دیگر اهدافی را طراحی می کنند، به عنوان مثال تشخیص و طبقه بندی وفاداری زیاد، همچنین بررسی می شود.
1-1-4 .بیان جنبه‌های مجهول و مبهم و متغیرهای مربوط به پرسش‌های تحقیق : عواملی چون اقتصادی بودن سیستم، تواناییهای مورد انتظار، تعداد انبوه گرهها و عملی شدن ایدهها در محیط واقعی، موجب گشته هر گره با برخی محدودیتهای سختافزاری مواجه باشد . این محدودیت‌ها عبارتند از:
هزینه پائین: سیستم نهایی از نظر اقتصادی باید مقرون به صرفه باشد. لذا چون تعداد گرهها در یک شبکه بسیار زیاد است، هر چه از هزینه هر گره کاسته شود، صرفه جویی بیشتری در سطح شبکه صورت می‌پذیرد.
حجم کوچک: گرهها به نسبت محدودهای که زیر نظر دارند بخشی را به حجم خود اختصاص میدهند. هر چه این نسبت (حجم گره به محدوده زیر نظر) کمتر باشد، عملکرد شبکه بهتر میباشد و از طرفی در اکثر موارد برای اینکه گرهها جلب توجه نکنند و یا بتوانند در برخی مکانها قرار بگیرند لازم است که حجم بسیار کوچکی داشته باشند.
انرژی مصرفی پائین: منبع تغذیه گرهها محدود میباشد و در عمل معمولاً امکان تعویض یا شارژ مجدد غیرممکن میباشد. لذا باید از انرژی موجود به بهترین نحو ممکن استفاده گردد.
نرخ بیت پائین: به خاطر وجود برخی محدودیتها (انرژی و غیره)، عملا میزان نرخ انتقال و پردازش اطلاعات در یک گره حسگر پائین است.
خودمختار بودن: هر گره بایستی از سایر گرهها مستقل باشد و بتواند عملکرد خود را طبق تشخیص و شرایط خود انجام دهد.
قابلیت تطبیق پذیری: در طول انجام نظارت بر محیط، ممکن است شرایط در هر زمانی دچار تغییرات شود. مثلا برخی از گرهها خراب گردند. لذا هر گره باید بتواند وضعیت خود را با شرایط بوجود آمده جدید تطبیق دهد.
1-1-5 .منظور تحقیق : هر سیستم طراحی شده، با توجه به ویژگیهای ذاتی خودش یکسری شرایط و موقعیتهای خاص را میطلبد و در مواقع استفاده در آن شرایط و موقعیتها، نسبت به سیستمهای مشابه خود دارای یکسری مزیتها و معایب میباشد که بایستی در نهایت با یک برآورد ضمنی و با توجه به تمام شرایط موجود، سیستمی که بهترین کارایی نسبت به هزینه را دارد، انتخاب کرد.
پرسش اصلی : آیا می توان روشی برای بهبود عمر شبکه در محیط های بزرگ و ناشناخته ارائه داد و عمر حسگر ها و شبکه را افزایش داد؟
1-2. اهداف
با توجه به سوالات تحقیق اهداف تحقیق را بیان می کنیم :
بررسی شبکه های حسگر بیسیم , الگوریتم ژنتیک و کلونی مورچگان.
ارائه روشی برای خوشه بندی شبکه های حسگر بیسیم و در نهایت بالا بردن عمر شبکه.
ارزیابی خوشه بندی شبکه های حسگر بی سیم بر اساس زمان مرگ اولین حسگر و عمر شبکه.
1-3. سوالات تحقیق
۱- الگوریتم های تکاملی مبتنی بر خوشه بندی کدامند؟
۲- چگونه می توان در شبکه های حسگر بیسیم الگوریتمی مبتنی بر کلونی مورچگان و الگوریتم ژنتیک ارائه داد تا عمر شبکه را بهبود داد؟
3- چگونه می توان روش های بهتری را اعتبار سنجی کرد؟
1-4. جنبه نوآوری و جدید بودن تحقیق
جدید بودن این تحقیق در ترکیب دو الگوریتم می باشد. این دو الگوریتم , الگوریتم ژنتیک و الگوریتم کلونی مورچگان می باشد که هر کدام دارای مزایای مربوط به خود می باشند. الگوریتم ژنتیک در محیط های با تعداد گره زیاد به خوبی کار می کند و الگوریتم کلونی مورچگان در محیط های ناشناخته کارایی بالایی دارد.
1-5. روش کار
روش کار خود را بر اساس سوالات تحقیق بیان می کنیم :
الف) تکنیک های خوشه بندی برای شبکه های حسگر بیسیم در تحقیقات می تواند به طور کلی بر اساس همپوشانی شبکه معماری و مدل عملیاتی و هدف فرآیند خوشه بندی گره ارائه گردد. در این بخش ما بر روی طبقه بندی های مختلف بحث می کنیم و طبقه بندی علمی از ویژگی های خوشه بندی را ارائه می کنیم. ما سپس از این گونه صفات، برای دسته بندی و مقایسه الگوریتم خوشه بندی استفاده می کنیم.
ب) در این تحقیق سعی بر این داریم که مصرف انرژی را در شبکه های حسگر بیسیم کاهش دهیم. ابتدا باید از یک الگوریتم مناسب برای انتخاب سر خوشه ها استفاده کنیم [1]. از الگوریتم ژنتیک برای انتخابCH ها استفاده می کنیم. هر نود معمولی از روش های جبری برای تعیین نزدیکترین سرخوشه بهره می برد.در الگوریتم ژنتیک باید تمام گره ها را به کروموزوم تبدیل کرده و کروموزوم های برگزیده را به عنوان CH انتخاب کنیم. در هنگام تولید سلول های جدید یک تلفیق توسط عمل ادغام صورت می گیرد.در این فرآیند ژن های والد، کروموزوم های جدید را شکل می دهد. این مولود های جدید جهش یافته، یعنی DNA آنها تحول یافته است. این تغییرات ممکن است همراه با خطا در کپی شدن ژن های والد صورت بگیرد. معیار مناسب بودن یک ارگانیسم، با توجه به موفقیت این ارگانیسم در ادامه ی حیات آن تعیین می شود. ما در اینجا تمام گره ها را به کروموزوم تبدیل کرده و شایسته ترین ها را بر می گزینیم. در قسمت بعدی و برای تشکیل خوشه ها از الگوریتم کلونی مورچگان استفاده می کنیم[3]. هر مورچه به سمت یکCH حرکت می کندکه به او نزدیکتر است. در واقع ما دو عمل تنظیمات و ارتباطات داریم. در مرحله ی Setup با استفاده از الگوریتم ژنتیک CH , را انتخاب می کنیم و در مرحله Communication با استفاده از الگوریتم ACO خوشه ها را تشکیل می دهیم. این چرخه در طول عمر شبکه چندین بار اجرا می شود. زیرا در هر عمل انتقال انرژی گره ها کاهش می یابد. با بازگشت به قسمت Setup باید CH جدید را با استفاده از الگوریتم ژنتیک انتخاب کرده و مجددا در قسمت Communication خوشه های جدید را بسازیم. در الگوریتم ژنتیک سعی بر این داریم که یک fitness function کارا و بهینه معرفی کنیم تا به CH هایی با بهتری برسیم. در ACO هرمورچه با توابعی که برای آن معرفی می کنیم به سمت CH با فاصله ی کمتر نسبت به خود حرکت می کند. در نهایت این ایده به افزایش عمر شبکه کمک می کند.
ج) در ادامه ی مشکلات خوشه بندی همچنان می توان با ارائه روش هایی که معیار های بهبود خوشه بندی را جزئی تر مورد بررسی قرار می دهند نتایج بهتری گرفت. در ارائه ی این الگوریتم پیشنهادی فاکتور عمر شبکه در محیط های بزرگ و ناشناخته در نظر گرفته شده است.
1-6.فرضیات
در این تحقیق نود ها همگن هستند یعنی همه ی آنها دارای خصوصیات یکسانند.
عملیات انتقال داده ها به صورت تک قطبی می باشد.
فقط یک ایستگاه پایه وجود دارد که همه ی خوشه ها اطلاعات خود را به آن می فرستند.
فرض بر این است که فضای مساله بزرگ و تعداد گره ها زیاد است.
گره ها ایستا می باشند و متحرک نیستند.
1-7. ساختار پایان نامه
در فصل دوم پایان نامه ادبیات تحقیق را بررسی می کنیم. در فصل سوم ایده ها , روش ها و الگوریتم های گذشته را در مورد شبکه های حسگر بیسیم مورد بررسی قرار می دهیم. در فصل چهار روش پیشنهادی خود را ارائه کرده و تشریح می کنیم. نتایج شبیه سازی , نتیجه گیری و کارهای آتی در دو فصل آخر مورد بررسی قرار می گیرد.
فصل دوم
ادبیات تحقیق
523034156589
2-1 .معرفی شبکه های حسگر بیسیممعماری ارتباطات شبکههای حسگر بیسیم در شکل 2-1 دیده میشود . در شبکه های حسگر بیسیم، تعداد زیادی گره با امکانات مخابره، پردازش، حسکردن محیط و غیره در محیطی با چهارچوب معین پراکنده شدهاند. رویداد اتفاق افتاده و یا سوالات پرسیده شده از سوی گره مرکزی و ماموریت محوله بر هر گره موجب میشود، ارتباطاتی بین گرهها برقرار شود. اطلاعات رد و بدل شده می‌تواند گزارشی از وضیعت محدوده که زیر نظر گرههای حسگر میباشد به گره مرکزی و یا درخواستی از سمت گره مرکزی به سمت گرههای حسگر باشد. گره مرکزی به عنوان درگاه ارتباطی شبکه حسگر با سایر سیستمها و شبکههای مخابراتی، در واقع گیرنده نهایی گزارش از گرههای حسگر میباشد و بعد از انجام یکسری پردازشها، اطلاعات پردازش شده را به کاربر ارسال میکند (با استفاده از یک رسانه ارتباطاتی مانند اینترنت، ماهواره و غیره). از سوی دیگر، درخواستهای کاربر نیز توسط این گره به شبکه انتقال مییابد.

شکل2-1: معماری ارتباطات شبکه های حسگر بیسیم
یک گره حسگر می‌تواند یکی از دو نقش تولید کننده داده‌ها و یا رله کننده داده‌های تولید شده توسط سایر گره‌ها را بر عهده بگیرد. عموماً در شبکه‌های حسگر، اغلب گره‌ها هر دو نقش را به صورت توأم ایفا می‌کنند. برپایی و طراحی ساختار و معماری ارتباطات بین گرههای شبکه نیازمند رعایت فاکتورهای مختلف و زیادی از جمله تحملپذیری خطا، مقیاس پذیری، هزینه تولید، محیط عملیات، توپولوژی شبکه حسگر، محدودیتهای سخت افزاری، ابزار و رسانه ارتباط، انرژی مصرفی و غیره میباشد.
2-2 .تاریخچه شبکه های حسگراولین نمونههای شبکه های حسگر برای کاربردهای نظامی طراحی و اجرا شدند تا نیروهای ارتشی بتوانند در یک منطقه جدید، بدون نیاز به برپا کردن تجهیزات خاص مرتبط با زیر ساخت شبکه با هم ارتباط داشته باشند. طبیعت پویا و متغیر محیط فعالیت ارتشها باعث میشود استفاده از تجهیزات شبکههای ثابت چندان مناسب به نظر نرسد. از سوی دیگر روشهای دیگر ارتباطات بیسیم در فرکانسهای بالای Mhz100 کار میکنند، پس تنها هنگامی که دید مستقیم وجود داشته باشد ارتباط برقرار است. این مشکلات به خوبی با استفاده از شبکههای حسگر برطرف میشود. زیرا ارتباط در این شبکهها چندگامه است یعنی بین مبدا و مقصد لازم نیست دید مستقیم وجود داشته باشد و یا حتی این دو در محدوده امواج یکدیگر باشند، بلکه با استفاده از تعدادی گره میانجی، ارتباط مبدا و مقصد برقرار میشود. لازم به یادآوری است که اجزای تشکیل دهنده شبکههای حسگر تنها همان گرهها هستند و نیازی به تجهیزات از پیش تعیین شده ندارند.
تاریخچه‌ی شبکه‌های حسگر به دوران جنگ سرد (اواسط دهه‌ی 1950 میلادی)[3] و سیستم نظارت صوتی باز می‌گردد. این سیستم توسط ایالات متحده و به منظور شناسائی و ردیابی زیردریائی‌های اتحاد جماهیر شوروی در بستر اقیانوس ارام شمالی تعبیه شده بود. این شبکه یک توری گسترده از هایدروفونها می‌باشد که توسط کابل به یکدیگر متصل شده و محیط اقیانوس را تحت پوشش قرار داده‌اند. این سیستم در حال حاضر توسط مؤسسه‌ی ملی NOAA به منظور نظارت بر پدیده‌های جاری در بستر اقیانوس مورد استفاده قرار می‌گیرد.
روند استفاده از شبکههای حسگر در سالهای پایانی دهه 80 و سالهای اغازین 90 توسط وزارت دفاع امریکا، DARPA و چند کشور دیگر ادامه داشت و نوآوریهایی هم توسط گروه های تحقیقاتی در دانشگاهها انجام میشد. در اواسط دهه 90 با تعریف برخی استانداردها از جمله IEEE 1999 فناوری‌های تجاری هم پا به عرصه وجود گذاشتند و گروههای مختلف تحقیقاتی فعال در زمینه ارتباطات بیسیم وارد بازار وسیع بالقوه غیرنظامی شدند. در حقیقت نمونههایی هم که اکنون کاربرد تجاری پیدا کردهاند حاصل تلاشهای انجام شده در محیطهای تحقیقاتی سالهای نخستین بوده است.
2-3 .ساختار هر گره حسگر
شبکه های سنسور بی سیم در دامنه گسترده ای از کاربردهای بالقوه استفاده می شوند همچون کنترل محیط، عملیات ارتشی، مسیریابی هدف، سیستم نظارت، کنترل حرکت وسایل نقلیه، تشخیص زلزله، سیستم های کنترل بیماری، سیستم کنترل آلودگی و غیره. این شبکه ها شامل گره حسگر هایی هستند که قادر به کنترل و پردازش داده ها از مکان های جغرافیایی خاص و ارسال موارد مشابه به مکان های دور دستی می شود که ایستگاه پایه نامیده می شود. WSN شامل ابزار الزامی منابع به صورت کوچک و ارزان است که در میان یکدیگر با استفاده از ارتباطات بی سیم چند مرکزی مرتبط می شوند. هر گره از WSN بعنوان SN نامیده می شود که حاوی یک سنسور، پردازشگر موجود، حافظه محدود شده، رادیوی کم – توان است و بصورت نرمال با باتری کار می کند. از انجا که گره حسگر بعنوان کوچکترین عنصر خودمختار یک شبکه حسگر شناخته میشود، برای طراحی الگوریتم‌ها و پروتکل‌های مناسب برای این شبکه‌ها لازم است که اجزاء و تجهیزات یک گره و محدودیتهای سختافزاری آن شناخته شود. در این بخش پس از معرفی اجزاء یک گره حسگر، مشخصات یک نمونه گره واقعی بیان میشود.
2-3-1 .اجزاء درونی یک گره حسگرهر گره حسگر به یکسری تجهیزات درونی مجهز است که وجود هر کدام، طبق وظیفه و شرایط احتمالی هر گره، ضروری میباشد. اجزاء درونی یک گره در شکل2-2 آمده است.وظایف هر یک از این اجزاء به شرح زیر می‌باشد :
حسگر: حسگر با حس محیط، میزان تغییرات پارامتر خاصی از محدوده حس خود در محیط را در قالب یک سیگنال الکتریکی ارائه میدهد.
مبدل انالوگ به دیجیتال: ممکن است سیگنال دریافتی از بخش حسگر ماهیت آنالوگ داشته باشد. لذا این بخش سیگنال مربوطه را به دیجیتال تبدیل میکند تا در بخشهای بعدی پردازش براحتی صورت گیرد.
پردازنده: پردازنده مرکزی گره میباشد. تمام کنترل روال کاری گره و همچنین عملیات محاسباتی و پردازشی بر روی اطلاعات گره در این بخش صورت میگیرد.
حافظه: جهت ذخیره سازی اطلاعات لازم برای پردازش و یا دادههای دریافت شده به طور موقت و ریز برنامههای مورد نیاز استفاده میشود.
فرستنده و گیرنده: جهت برقراری ارتباط با سایر گرهها میباشد.
منبع تغذیه: جهت فراهم سازی و تخصیص انرژی مصرفی مورد نیاز برای هر کدام از اجزاء به کار می‌رود. در هر گره قطعاً از یک باتری استفاده میشود که با توجه به شرایط خاص مورد استفاده ممکن است با نور آفتاب نیز قابل شارژ باشد، ولی اکثراً چنین نیست. درون گره نیز هر جزء به نیروی مصرفی خاصی نیاز دارد که بایستی قدرت و انرژی مصرفی کل، بطوری بین اجزاء تقسیم و کنترل شود که صرفاً موقع نیاز صرف گردد.
سیستم موقعیتیاب: در برخی از گرهها تعبیه شده است و در بسیاری نیز وجود ندارد و جهت انجام عملیات موقعیتیابی گرهها میباشد.
واحد متحرکساز: در برخی از گرهها تعبیه شده است و در بسیاری نیز وجود ندارد و جهت متحرک ساختن گره به منظور خاصی مثل چرخیدن و یا جابجایی جزئی گره است.

شکل2-2: اجزاء درونی یک گره حسگر
2-3-2. محدودیت های سخت افزاری یک گره حسگر
عواملی چون اقتصادی بودن سیستم، تواناییهای مورد انتظار، تعداد انبوه گرهها و عملی شدن ایدهها در محیط واقعی، موجب گشته هر گره با برخی محدودیتهای سختافزاری مواجه باشد . این محدودیت‌ها عبارتند از:
هزینه پائین: سیستم نهایی از نظر اقتصادی باید مقرون به صرفه باشد. لذا چون تعداد گرهها در یک شبکه بسیار زیاد است، هر چه از هزینه هر گره کاسته شود، صرفه جویی بیشتری در سطح شبکه صورت می‌پذیرد.
حجم کوچک: گرهها به نسبت محدودهای که زیر نظر دارند بخشی را به حجم خود اختصاص میدهند. هر چه این نسبت (حجم گره به محدوده زیر نظر) کمتر باشد، عملکرد شبکه بهتر میباشد و از طرفی در اکثر موارد برای اینکه گرهها جلب توجه نکنند و یا بتوانند در برخی مکانها قرار بگیرند لازم است که حجم بسیار کوچکی داشته باشند.
انرژی مصرفی پائین: منبع تغذیه گرهها محدود میباشد و در عمل معمولاً امکان تعویض یا شارژ مجدد غیرممکن میباشد. لذا باید از انرژی موجود به بهترین نحو ممکن استفاده گردد.
نرخ بیت پائین: به خاطر وجود برخی محدودیتها (انرژی و غیره)، عملا میزان نرخ انتقال و پردازش اطلاعات در یک گره حسگر پائین است.
خودمختار بودن: هر گره بایستی از سایر گرهها مستقل باشد و بتواند عملکرد خود را طبق تشخیص و شرایط خود انجام دهد.
قابلیت تطبیق پذیری: در طول انجام نظارت بر محیط، ممکن است شرایط در هر زمانی دچار تغییرات شود. مثلا برخی از گرهها خراب گردند. لذا هر گره باید بتواند وضعیت خود را با شرایط بوجود آمده جدید تطبیق دهد.
2-4 .پشته پروتکلیمطابق شکل2-3 پشته پروتکلی شبکههای حسگر از یک طرف دارای پنج لایه شامل لایه های فیزیکی، پیوند و کنترل رسانه انتقال، شبکه، انتقال و کاربرد و از طرفی دارای سه فاز مدیریت انرژی، مدیریت حرکت و مدیریت وظیفه است . وظیفه لایه فیزیکی عملیات مدولاسیون و ارسال و دریافت در سطح پایین میباشد. لایه کنترل دسترسی رسانه باید قادر باشد با حداقل تصادم به روش پخش همگانی با هر گره همسایه ارتباط برقرار کند. لایه شبکه وظیفه مسیریابی را بر عهده دارد. لایه انتقال وظیفه مدیریت جریان انتقال بستهها را در صورت نیاز کاربرد بر عهده دارد. بسته به کاری که شبکه برای آن طراحی شده انواع مختلف نرمافزارهای کاربردی میتواند روی لایه کاربرد استفاده شود و خدمات مختلفی را ارائه نماید.

شکل 2-3: پشته پروتکلی شبکههای حسگر
فاز مدیریت انرژی با دخالت در کلیه لایهها، چگونگی مصرف انرژی برای گره را تعیین می‌کند. در واقع برای کاهش مصرف انرژی به الگوریتمها و پروتکلهای انرژی آگاه نیازمندیم. مثلا اینکه یک گره پس از دریافت یک پیغام از یکی از همسایگانش، دریافت کنندهاش را خاموش کند باعث جلوگیری از دریافت دوباره پیغام و در نتیجه کاهش مصرف انرژی می‌گردد. ایده دیگری که میتواند همزمان استفاده شود این است که گرهای که به سطح پایین انرژی رسیده به همسایههایش اعلام همگانی میکند که انرژیاش در حال اتمام است و نمیتواند در مسیردهی پیغامها شرکت داشته باشد. گرههای همسایه پس از آن، پیغامها را از طریق گرههای دیگر مسیردهی خواهند کرد. فاز مدیریت حرکت، که به بکارگیری روشهای مکان آگاه در لایههای مختلف بر میگردد، جابجایی گره را تشخیص داده و ثبت میکند بنابراین رد گره متحرک دنبال و در صورت لزوم مدیریت میشود. فاز مدیریت وظیفه وظایف گرهها را زمانبندی کرده و متعادل میسازد. مثلا اگر وظیفه حس به یک ناحیه معین محول شد همه گرههای حسگر آن ناحیه لازم نیست عملیات حس را بطور همزمان انجام دهند بلکه این وظیفه میتواند بسته به کاربرد به برخی گرهها مثلا به گرههایی که قابلیت اطمینان بیشتر یا ترافیک کمتر یا انرژی بیشتر دارند محول شود.
2-5 .مزایای شبکه های حسگر بیسیم
هر سیستم طراحی شده، با توجه به ویژگیهای ذاتی خودش یکسری شرایط و موقعیتهای خاص را میطلبد و در مواقع استفاده در آن شرایط و موقعیتها، نسبت به سیستمهای مشابه خود دارای یکسری مزیتها و معایب میباشد که بایستی در نهایت با یک برآورد ضمنی و با توجه به تمام شرایط موجود، سیستمی که بهترین کارایی نسبت به هزینه را دارد، انتخاب کرد. در ذیل ابتدا مزایای شبکه های حسگر بیسیم و سپس یکسری کاربردهای چنین شبکه های لیست شده است.
طبق ساختار گرهها و شبکه و نحوه معماری ارتباطات که در بخشهای گذشته مشاهده شد، میتوان یک سری مزیتهای شبکه های حسگر بیسیم، نسبت به سایر سیستمها برای انجام کارهای مشابه، استخراج نمود و به ترتیب ذیل لیست نمود.
برپایی سریع در مواقع اضطراری و فوری
مناسب بودن در محیطهای که بایستی پارازیت و اختلال نباشد
اجتناب از قرار گرفتن در محیطهای خطرناک و غیر عاقلانه برای مطالعات مکرر
شیوه اقتصادی مقرون به صرفه برای جمع آوری اطلاعات در طولانی مدت
2-6 .کاربردهای شبکه های حسگر بیسیم
از ویژگی‌های مناسب یک تکنیک یا یک سیستم، قابلیت استفاده از ان در سناریوها و کاربردهای متعدد و مختلف می‌باشد. [2]مخصوصاً اگر یک سیستم بتواند وظیفه خود را بصورت مستقل و کامل انجام دهد و قابلیت تبادل اطلاعات با سایر سیستم‌ها از طریق پروتکل‌های استاندارد را داشته باشد. شبکههای حسگر بیسیم برای مشاهده و بررسی آماری و همینطور پیگردی یک یا چند هدف معین در محیط مدنظر میباشد. با توجه به ویژگیهای ذاتی شبکههای حسگر میتوان از انها در کاربردهای مختلف استفاده کرد. از این کاربردها می‌توان به موارد زیر اشاره کرد:
میدانهای جنگی:
همانطور که در قسمت (الف) و (ب) شکل 2-4 دیده میشود، در میدانهای جنگی میتوان جهت شناسایی و بررسی اماری تجهیزات و نیروی دشمن، کلاسبندی و پیگیری نحوه ارایش و مسیر حرکت نیروهای دشمن و یا نیروهای خودی از شبکه‌های حسگر استفاده نمود.
شناسایی محیطهای الوده:
در محیطهای مختلف امکان وجود الودگیهای مختلفی است. لذا با استفاده از چنین شبکههایی میتوان وجود الودگیهای مشخصی را در سطح محیط تحت نظر، چک کرد و حتی میزان غلظت الودگی در قسمت‌های مختلف را بررسی نمود.
نظارت بر محیط زیست:
از دیرباز انسان به دنبال کشف مجهولات و زیباییهای جهان بوده است. بسیاری از تحقیقات در زمینه محیط زیست نیازمند انجام مطالعات مکرر و متمرکز و صرف زمان زیادی جهت جمع آوری اطلاعات میباشد که معمولا از حوصله و توانایی انسان خارج میباشد. لذا می‌توان در اینگونه تحقیقات از دستگاههای دیدهبانی، تحلیلگر و ذخیره کننده نتایج استفاده کرد. ازسوی دیگر، به خاطر وجود برخی شرایط محیط زیست اکثر کارهای تحقیقاتی باید در سکوت و آرامش صورت گیرد تا وجود انسان و تجهیزات در محیط اثر منفی در عملکرد غریزهای و واقعی موجودات نداشته باشد و موجب کاهش کیفیت تحقیق نگردد. از این رو معمولا تمام سیستمهای نظارتی قابلیت کنترل از راه دور را دارند. همانطور که در قسمتهای (پ) و(ت) شکل 2-4 دیده میشود، کوچک بودن گرههای حسگر، قابلیت قرار گرفتن در هر گوشه کناری حتی لابلای برگ درختان، کسب اطلاعات در حد جزئیات زیاد، نداشتن تاثیرات مضر زیست محیطی، ذخیره اطلاعات در صورت اتفاق افتادن رخداد مدنظر و عدم تداخل با سایر سیستمهای مخابراتی میتواند دلایل مناسبی جهت توجیه استفاده از شبکههای حسگر نسبت به سایر سیستمهای مشابه در اینگونه کاربردهای نظارتی باشد. در مواردی همچون بررسی وضعیت آب و هوای جوی محیط، بررسی وضعیت ظاهری محیط بخصوص محیط سرسبز و جنگلی، بررسی رشد و نمو گیاهان و موجودات، موقعیتیابی و پیگیری موجودات معین در محیط زیست میتوان از قدرت بالای شبکههای حسگر در امر نظارت استفاده کرد.
بررسی و تحلیل وضعیت بناهای ساختمانی:
بسیاری از سازمانها و موسسات تحقیقاتی در زمینه عمران و مسکن برای انجام مطالعات و تحقیقات خود از وضعیت بناهای مدنظر در طول زمان یا در هنگام بروز حوادث طبیعی بخصوص زلزله نیازمند استفاده از تجهیزات نظارتی میباشند تا اطلاعاتی مانند میزان فشار و تحمل مصالح، وجود ترک، میزان اسیب وارده، وضعیت فرسودگی، امنیت و حفاظت ساختمان و سایر جزئیات مرتبط با هدف تحقیقات را در مورد بناهائی مثل ساختمانهای قدیمی، پلها، سدها، موزهها وغیره جمع اوری کنند (قسمت (ث) شکل2-4). با توجه به تواناییهای شبکههای حسگر میتوان مدعی شد که این سیستم بهترین و کارسازترین تکنیک در این زمینه تحقیقات میباشد.
در جادهها و بزرگراههای هوشمند:
امروزه یکی از مشکلات بزرگ شهری، کنترل وضعیت ترافیک در سطح شهر میباشد. همانطور که در قسمت (ج) شکل 2-4 دیده میشود با برپایی شبکهای از گرههای حسگر در سطح شهر و قرار دادن گرهها در بزرگراهها و خیابانهای شهر میتوان بزرگراهها و خیابانها را هوشمند ساخت و از وضعیت تراکم عبور و مرور وسایل نقلیه و یا بروز حوادث در نقاط تحت نظر گرههای حسگر، اطلاع یافت و در نهایت در کل سطح شهر وضعیت ترافیک و تصادفات را شناسایی و پیگیری نمود .
کاربردهای مختلف در زمینه پزشکی:
در زمینه بررسی و مطالعات پزشکی در مورد موجودات و یا گیاهان جهت آگاهی از وضعیت جسمانی میتوان از گرههای حسگر استفاده نمود. این استفاده می‌تواند در موارد مختلفی از جمله قرار دادن گرهها در لایههای زیر پوست برای انجام مطالعات مکرر در طی مدت نسبتاً طولانی، دستگاههای پزشکی و بخصوص در زمینه فیزیک پزشکی و غیره باشد.

شکل 2-4:  نمونه کاربردهای شبکههای حسگر بیسیم
2-7 .طراحی شبکه های حسگر بی سیمعوامل متعددی در طراحی شبکههای حسگر موثر است و موضوعات بسیاری در این زمینه مطرح است که بررسی تمام آنها در این نوشتار نمیگنجد از این رو تنها به ذکر برخی از انها بطور خلاصه اکتفا میکنیم.
1- مسیریابی : ماهیت اصلی شبکههای حسگر به این صورت است که کارهایی که انجام میدهند باید به صورت محلی باشد چرا که هر گره تنها میتواند با همسایه های خود ارتباط برقرار کند و اطلاعات کلی و سراسری از شبکه چندان در دسترس نیست (جمعاوری این اطلاعات هزینه و زمان زیادی را مصرف میکند). اطلاعات بدست امده توسط گرهها، باید با استفاده از تکنیکهای مسیریابی، به نحوی به گره مرکزی ارسال گردد.
2- تنگناهای سختافزاری : هرگره ضمن اینکه باید کل اجزاء لازم را داشته باشد باید به حد کافی کوچک، سبک و کم حجم نیز باشد. در عین حال هر گره باید انرژی مصرفی بسیار کم و قیمت تمام شده پایین داشته و با شرایط محیطی سازگار باشد. اینها همه محدودیتهایی است که کار طراحی و ساخت گره‌های حسگر را با چالش مواجه میکند. ارائه طرحهای سختافزاری سبک و کم حجم در مورد هر یک از اجزای گره بخصوص قسمت ارتباط بیسیم و حسگرها از جمله موضوعات تحقیقاتی است که جای کار بسیار دارد. پیشرفت فناوری ساخت مدارات مجتمع با فشردگی بالا و مصرف پایین، نقش بسزایی در کاهش تنگناهای سختافزاری داشته است.
3- تحملپذیری خطا و قابلیت اطمینان : هر گره ممکن است خراب شود یا در اثر رویدادهای محیطی مثل تصادف یا انفجار بکلی نابود شود یا در اثر تمام شدن منبع انرژی از کار بیفتد. منظور از تحمل‌پذیری یا قابلیت اطمینان این است که خرابی گرهها نباید عملکرد کلی شبکه را تحت تاثیر قرار دهد. در واقع میخواهیم با استفاده از اجزای غیر قابل اطمینان یک شبکه قابل اطمینان بسازیم.
4- توپولوژی : توپولوژی شبکه یکی از مفاهیم اولیه در شبکههای حسگر است که دیگر موارد نظیر مسیریابی و غیره بر روی آن تعریف میشود. ساختارهای زیادی در توپولوژی مطرح است که بر اساس اولویتهای مختلف و در شرایط متفاوت یکی بر دیگری برتری دارد. از جمله مواردی که در انتخاب یک ساختار تاثیر میگذارد میتوان به مصرف انرژی کمتر، تنک بودن ساختار، کم بودن درجه گره، تحملپذیری خطا و تداخل اشاره کرد.
5- مقیاسپذیری : شبکه باید هم از نظر تعداد گره و هم از نظر میزان پراکندگی گرهها مقیاسپذیر باشد. بعبارت دیگر شبکه حسگر از طرفی باید بتواند با تعداد صدها، هزارها و حتی میلیونها گره کار کند و از طرف دیگر، چگالی توزیع متفاوت گرهها را نیز پشتیبانی کند. در بسیاری کاربردها توزیع گرهها تصادفی صورت میگیرد و امکان توزیع با چگالی مشخص و یکنواخت وجود ندارد یا گرهها در اثر عوامل محیطی جابجا میشوند. بنابراین چگالی باید بتواند از چند عدد تا چند صد گره تغییر کند. موضوع مقیاسپذیری به روشها نیز مربوط میشود برخی روشها ممکن است مقیاسپذیر نباشند یعنی در یک چگالی با تعداد محدود از گره کار کند. در مقابل برخی روشها مقیاسپذیر هستند.
6- شرایط محیطی : طیف وسیعی از کاربردهای شبکههای حسگر مربوط به محیطهایی میشود که انسان نمیتواند در آن حضور داشته باشد. مانند محیطهای آلوده از نظر شیمیایی، میکروبی، هستهای و یا مطالعات در کف اقیانوسها و فضا و یا محیطهای نظامی به علت حضور دشمن و یا در جنگل و زیستگاه جانوران که حضور انسان باعث فرار انها میشود. در هر مورد، شرایط محیطی باید در طراحی گرهها در نظر گرفته شود مثلا در دریا و محیطهای مرطوب گره حسگر در محفظهای که رطوبت را منتقل نکند قرار می‌گیرد.
7- رسانه ارتباطی : در شبکههای حسگر ارتباط گرهها بصورت بیسیم و از طریق رسانه رادیویی، مادون قرمز، یا رسانه‌های نوری صورت میگیرد. در رسانه رادیویی که بیشتر مورد استفاده قرار میگیرد از باندهای مختلف صنعتی، علمی و پزشکی که در اکثر کشورها آزاد است استفاده میشود. تعیین فرکانس در این رسانه با توجه به برخی محدودیتهای سختافزاری، کارائی آنتن و مصرف انرژی است. به خاطر لزوم دید مستقیم بین فرستنده و گیرنده، رسانه مادون قرمز چندان مورد استفاده شبکههای حسگر نیست هرچند ساختن انها ارزان و آسان است. اخیرا، رسانه نوری به عنوان رسانه ارتباطی مورد توجه قرار گرفته است. از جمله این توجهات میتوان به استفاده از آن در ذره غبار هوشمند اشاره کرد . انتخاب رسانه ارتباطی از بین این سه رسانه (رادیویی، مادون قرمز و نوری) با توجه به محدودیتها و ویژگیهای کاربرد مورد نظر از مسائل مطرح در طراحی شبکههای حسگر است.
8- افزایش طولعمر شبکه : طولعمر گرهها بعلت محدودیت انرژی منبع تغذیه کوتاه است. علاوه بر آن در برخی مواقع، موقعیت ویژه یک گره در شبکه مشکل را تشدید میکند. مثلاً گرهای که در فاصله یک قدمی گره مرکزی قرار دارد از یک طرف بخاطر بار کاری زیاد خیلی زود انرژی خود را از دست میدهد و از طرفی از کار افتادن آن باعث قطع ارتباط گره مرکزی با کل شبکه و در نتیجه موجب از کار افتادن شبکه میشود. مشکل تخلیه زود هنگام انرژی در مورد گرههای نواحی کم تراکم در توزیع غیر یکنواخت گرهها نیز صدق میکند در اینگونه موارد داشتن یک مدیریت انرژی در داخل گرهها و ارائه راهحلهای انرژیآگاه بطوری که از گرههای بحرانی کمترین استفاده را بکند مناسب خواهد بود. با توجه به مطالب بیان شده تمام الگوریتمها و تکنیکهای مورد استفاده در شبکههای حسگر به انرژی بعنوان یک محدودیت جدی نگاه میکنند و سعی میکنند با آگاهی از سطح انرژی مصرفی عمل کنند تا کمترین انرژی مصرف گردد و در نتیجه افزایش طولعمر شبکه حسگر را به دنبال داشته باشد.
2-8. طبقه بندی تکنیک های خوشه بندی
ما بر اساس یکسری معیار ها که شرایط را برای ما تعیین می کنند می توانیم خوشه بندی های متفاوتی را به شبکه ی خود اعمال کنیم. این تکنیک ها را می توانیم طبقه بندی کنیم.
2-8-1. مدل شبکه
معماری های مختلف و طراحی اهداف / محدودیت ها برای برنامه های مختلف WSN ها بررسی شده است. در زیر برخی از پارامترهای مربوطه معماری و مشخص کردن پیامدهایشان در شبکه خوشه بندی آمده است:
• پویایی شبکه: اصولا WSN ها از سه قسمت اصلی تشکیل شده اند: گره های حسگر، ایستگاه پایه و رویدادهای نظارتی. گذشته از این چند راه اندازی که از شبکه های سیار استفاده می کند ، بسیاری از معماری های شبکه فرض می کنند که گره های حسگر ثابت هستند. گاهی اوقات حمایت از تحرک ایستگاه پایه یا CH ضروری است.
تحرک گره خوشه بندی بسیار چالش برانگیزی را از زمان عضویت گره تا تغییرات دینامیکی، اجبار خوشه بندی در طول زمان تکامل را داشته است. از سوی دیگر، اتفاقاتی که توسط یک حسگر می تواند به طور متناوب یا پیوسته انجام شود مورد نظارت قرار می گیرد. مثلاً در یک هدف برنامه شناسایی / ردیابی، رویدادی (پدیده) پویا است که نظارت درخت کاری برای پیشگیری از آتش گیری درخت یک مثال از وقایع متناوب است.
نظارت بر وقایع متناوب به شبکه اجازه کار در یک حالت واکنشی، به سادگی ایجاد ترافیک در هنگام گزارش را می دهد. رویدادهای مستمر در اکثر برنامه های کاربردی نیاز به گزارش های دوره ای و به تبع آن تولید ترافیک قابل توجهی به مسیرهای گود افتاده دارند.
اگرچه رویدادهای مستمردر اغلب خوشه های پایدار اتفاق می افتند، اما ممکن است به طور نامنظمی CH های مربوط به گره ها را در خوشه بندی پر نکند و یک چرخش نقش CH ممکن است لازم باشد اگر CH به طور تصادفی از جمعیت حسگر برداشته شود. رویداد های تناوبی از استراتژی های خوشه تطبیقی حمایت می کند اگر تعداد رویدادها به میزان قابل توجهی نوسان کند.
• پردازش داده ها در شبکه: از آنجایی که گره های حسگر ممکن است داده های حشو قابل توجهی تولید کند، بسته بندی های مشابه از گره های متعدد را می توان جمع آوری کرد به طوری که تعدادی از انتقالات کاهش می یابند. تجمع داده ها از اطلاعات منابع مختلف با استفاده از توابعی مثل (با حذف موارد تکراری)، حداقل، حداکثر و میانگین ترکیب می شوند.
برخی از این توابع می تواند تا حدی یا به طور کامل در هر گره حسگر توسط گره حسگر بازدید کنندگان برای هدایت کاهش داده های شبکه اجرا شوند. شناختی که مصرف انرژی کمتر از ارتباطات را محاسبه می کند، انرژی قابل توجهی صرفه جویی را می تواند از طریق تجمع داده ها به دست آورد. این روش برای دستیابی به صرفه جویی انرژی و بهینه سازی ترافیک در تعدادی از پروتکل مسیریابی استفاده شده است.
در بعضی از ساختارهای شبکه ای، همه توابع تجمع به گره های قدرتمند تر و تخصصی تر اختصاص داده می شوند. تجمع داده ها نیز از طریق تکنیک های پردازش سیگنال امکان پذیر است. در آن صورت، این موضوع اشارده می کند که به عنوان همجوشی داده ها که در آن یک گره با کاهش سر و صدا قادر به تولید یک سیگنال دقیق تر است با استفاده از برخی از تکنیک ها مانند پرتودهی به ترکیب سیگنال ها می پردازند.
این موضوع برای انتظار CH ها مشهود خواهد بود تا تجمع / همجوشی داده ها را انجام دهد که ممکن است انتخاب CH تنها گره تخصصی را محدود کرده و یا نیاز به محدود کردن تعداد حسگرها در هر خوشه به منظور حصول اطمینان دارد که بیش از حد سنگین نشود.
این نکته نگران کننده گاهی برای گرفتن بک آپ CH برای یک خوشه و یا چرخش نقشCH در میان حسگرها در خوشه بندی لازم است. بدیهی است، چنین طراحی انتخابی/ محدودیت بر روی نوع خوشه بندی موثر باشد.
• استقرار گره و قابلیت ها : یکی دیگر از ملاحظات به کارگیری مکانی گره است. این برنامه وابسته و تحت تاثیر نیاز و هدف خوشه بندی شبکه است. استقرار قطعی یا خود سازماندهی است. در شرایط قطعی، حسگری به صورت دستی قرار گرفته و داده ها از طریق مسیرهای از پیش تعیین شده مسیریابی می شوند. بنابراین، خوشه بندی مانند راه اندازی و نیز از پیش تعیین نمودن یا غیر ضروری است.
با این حال در سیستم خود سازماندهی، گره های حسگر به صورت تصادفی پراکنده شده موجب ایجاد زیرساخت ها به صورت تک کاره می شود. در این زیرساخت ها، ایستگاه پایه پایه یا CH از نظر بهره وری عملکرد انرژی نیز حیاتی است. هنگامی که توزیع گره ها یکسان نیست، خوشه بندی بهینه یک مسئله مبرم برای فعال کردن انرژی کارآمد عملیات شبکه است.
علاوه بر این، در برخی از نصب ها، کارکردهای متفاوت را می توان با گره های مستقر در مرتبط نمود و انتخاب CH ممکن است محدود شود. در شبکه های گره های حسگر همگن، یعنی همه دارای ظرفیت برابر از نظر محاسبات، ارتباطات و قدرت هستند، CH ها از حسگرهای مستقر برداشته می شوند.
اغلب در این مورد، CH ها با دقت کار نموده، به عنوان مثال از دریافت وظایف سنجش، به منظور جلوگیری از تخلیه ا نسبتاً سریع نرژی خود ممانعت می کند. علاوه بر این، دامنه ارتباطات و نزدیکی CH نسبت به ایستگاه پایه نیز ممکن است محدودیت ها / معضلاتی شوند که باید در نظر گرفته شود. دامنه ارتباط حسگر معمولاً محدود بوده و CH قادر به رسیدن به ایستگاه پایه نخواهد بود. حتی اگر یک گره به طور مستقیم با ایستگاه پایه ارتباط برقرار نماید، باز هم پیگیری مسیرهای چند هوپی بهتر است. بنابراین، اتصال بین CH عامل مهمی است که طرح خوشه بندی را تحت تاثیر قرار می دهد.
از سوی دیگر، از آنجایی که برخی از گره ها ممکن است برای انجام دادن کارهای خاصی طراحی شده یا دارای قابلیت های متمایز باشند شبکه گیرنده بیسیم ناهمگن ممکن است محدودیت های بیشتری را در فرآیند خوشه بندی اعمال کنند. آنگاه ممکن است برای حفظ منابع یا محدودیت انتخاب CH برای زیر مجموعه ای از این گره ها جلوگیری از چنین گره های خاصی لازم باشد.
2-8-2. اهداف خوشه بندی
اهداف الگوریتم های خوشه بندی در تحقیقات متفاوت است. غالباً هدف خوشه بندی انجام تنظیمات به منظور تسهیل در مواجهه با الزامات برنامه های کاربردی است. به عنوان مثال اگر برنامه ای به تاخیر داده ها، اتصال درون و بین خوشه ای و طول مسیر داده ها در مسیریابی حساس باشد معمولاً به عنوان معیار انتخاب CH و گروه بندی گره در نظر گرفته می شوند. بحث زیر بر اهداف عمومی خوشه بندی شبکه تاکید می کند:
• تعادل بار: حتی در توزیع حسگرها در میان خوشه ها که معمولاً یکی از اهداف نصب است CH ها پردازش داده ها یا وظایف مهم مدیریت داخل خوشه را انجام می دهند . با توجه به وظایف CH ها، موازنه بار در میان آنها بدیهی است به طوری که آنها می توانند به اهداف عملکرد مورد انتظار برسند.
تعادل بار مسئله مهم تری در شبکه گیرنده بیسیم است که در آن CH ها از حسگرهای موجود برداشته می شوند. در این شرایط، تنظیم خوشه های هم اندازه برای گسترش طول عمر شبکه با ممانعت از فرسودگی انرژی زیر مجموعه CH ها با سرعت بالا و ناکارآمدی پیش از موعد آنها بسیار مهم است. حتی توزیع حسگرها نیز می تواند به تاخیر داده های اهرم بینجامد. هنگام گردآوری دادها توسط CH ها، داشتن همین تعداد گره در خوشه ها ضروری است به طوری که گزارش داده های ترکیبی تقریباً در یک زمان برای پردازش بیشتر در ایستگاه پایه یا لایه بعدی در شبکه آماده می شود.
• تحمل خطا: در بسیاری از برنامه های کاربردی، شبکه گیرنده بیسیم در محیط های نامناسب موثر بوده و به این ترتیب گره ها معمولاً بیشتر در معرض خطر ابتلا به نقص و آسیب های فیزیکی قرار می گیرند. تحمل نقص CH به منظور جلوگیری از از دست دادن داده های مهم حسگرها معمولاً در چنین برنامه های کاربردی ضروری است. راه مشهودتر بازیابی نفص CH برای خوشه بندی مجدد شبکه می باشد.
با این حال، خوشه بندی دوباره نه تنها یک منبع را به گره ها تحمیل می کند بلکه غالباً برای عملیات جاری بسیار مخل است. بنابراین، تکنیک های تحمل خطا همزمان بدین منظور مناسب تر معاصر خواهند بود. تعیین پشتیبان CH ها قابل توجه ترین طرحی است که در تحقیقات برای بازیابی از نقص CH دنبال می شود.
انتخاب یک نسخه پشتیبان و یدکی مانند CH در طول عملیات عادی شبکه نقش های متفاوتی بازی می کند. هنگامی که CH ها دارای طیف رادیویی بلندند، CH های مجاور می توانند در حسگرهای موجود در خوشه ناقص پذیرفته شوند. چرخش نقش CH ها در میان گره های خوشه نیز می تواند ابزاری برای تحمل خطا علاوه بر مزیت توازن بار آنها باشد.
• افزایش اتصال و کاهش تاخیر: مگر در مواردی که CH ها دارای قابلیت کشش بالای ارتباطی هستند، به عنوان مثال یک پیوند ماهواره ای، اتصال بین CH یکی از ملزومات مهم بسیاری از برنامه های کاربردی است. این مساله به ویژه در زمانی که CH ها از جامعه حسگرها برداشت می شوند صدق می کند.
هدف اتصال تنها می تواند به اطمینان از دسترسی به مسیر از هر CH به ایستگاه پایه یا محدودیت بیشتر با تحمیل یک محدوده در طول مسیر منحصر شود. هنگامی که برخی از حسگرهی نقش CH را تقبل می کنند، هدف اتصال خوشه بندی شبکه را یکی از گونه های مختلف بسیاری از مجموعه مشکلات غالب اتصال می نماید.
از سوی دیگر، هنگامی که تاخیر داده ها موضوعیت داشته باشد، اتصال درون خوشه یکی از اهداف طراحی یا محدودیت می شود. تاخیر معمولاً در شرایطی که حداکثر تعداد هاب '' k'' در یک مسیر داده مجاز است عامل خواهد بود. خوشه بندی k - هاب از مجموعه مشکلات k - غالب است.
• تعداد خوشه حداقل: این هدف به خصوص زمانی رایج است که CH ها گره های از منابع تخصصی غنی می باشند. طراح شبکه اغلب دوست دارد تا حداقل تعداد این گره ها را به کار بگیرد چرا که آنها تمایل به حسگرهای گران تر و آسیب پذیرتر دارند.
برای مثال، اگر CH ها رایانه های لپ تاپ، روبات یا یک رسانه همراه باشند ذاتاً محدودیت هایی تعداد گره وجود خواهد داشت. محدودیت می تواند به دلیل پیچیدگی بکارگیری این نوع گره ها باشد مثلاً وقتی که WSN در یک منطقه جنگی یا یک جنگل کار می کند.
علاوه بر این، اندازه این گره ها به طور قابل توجهی بزرگتر از حسگرهاست که باعث می شود آنها به راحتی قابل تشخیص باشند. دید گره در بسیاری از برنامه های کاربردی شبکه گیرنده بیسیم مانند حفاظت از مرز، شناسایی نظامی و زیرساخت های امنیتی بسیار نامطلوب است.
• حداکثر طول عمر شبکه: از آنجایی که گره های حسگر محدودیت انرژی دارند طول عمر شبکه یکی از دغدغه های اصلی به ویژه برای برنامه های کاربردی شبکه گیرنده بیسیم در محیط های نامساعد است. هنگامی که CH ها در منابع غنی تر از حسگرها هستند تقلیل انرژی برای ارتباطات درون خوشه ای ضروری است.
در صورت امکان، CH ها باید نزدیک به اغلب حسگرها در خوشه های خود باشند. از سوی دیگر هنگامی که CH هاحسگرهای منظمی هستند، طول عمر آنها را می توان با محدود کردن بارشان همانگونه که پیشتر ذکر کردیم افزایش داد. خوشه بندی ترکیبی و راه اندازی مسیر نیز برای بیشینه سازی طول عمر شبکه لحاظ می شوند. خوشه بندی تطبیقی نیز انتخاب مناسبی برای دستیابی به طول عمر شبکه است.
2-8-3. طبقه بندی علمی ویژگی های خوشه بندی
در این بخش انتخاب ما برگزیدن مجموعه ای از ویژگی هایی است که می توان از آنها برای طبقه بندی و تمایز الگوریتم های خوشه بندی شبکه گیرنده بیسیم استفاده نمود. با توجه به مبحث فوق، ما می توانیم ویژگی های زیر را شناسایی کنیم:
1. خواص خوشه : غالب طرح های خوشه بندی می کوشند تا به برخی از ویژگی برای تولید خوشه ها دست یابند. چنین ویژگی هایی را می توان به ساختار داخلی خوشه یا کیفیت آن را به دیگران مرتبط دانست. موارد زیر در برگیرنده ویژگی های مربوطه اند:
• تعداد خوشه : در برخی از رویکردهای منتشر شده مجموعه ای از CH ها از پیش تعیین شده و در نتیجه تعداد خوشه ها از پیش نشانده شده است. انتخاب تصادفی CH ها از حسگرهای بکار رفته معمولاً منجر به تنوع تعداد خوشه می شود.
• ثبات : وقتی تعداد خوشه ها متفاوت است و عضویت گره در طی زمان بیشتر تکامل می یابد گفته می شود طرح خوشه تطبیقی است در غیر این صورت، از آنجا که حسگرها در میان خوشه ها تعویض نمی شوند در ثابت در نظر گرفته شده و تعداد خوشه ها در سراسر طول عمر شبکه یکسان می ماند.
• وضعیت درون خوشه ای : بعضی از روش های خوشه بندی مبتنی بر ارتباط مستقیم بین حسگر و طراحی CH هستند. با این حال، حسگر چند هاپ نسبت با اتصال CH گاهی ضروری است، به ویژه هنگامی که دامنه ارتباطات حسگر و یا تعداد CH محدود است.
• اتصال بین CH: وقتی CH قابلیت کشش بلند ارتباطی را نداشته باشند، اتصال CH ها به ایستگاه پایه مشروط خواهد بود. در این صورت، طرح خوشه بندی باید از امکان برقراری یک مسیر بین CH از هر CH به ایستگاه پایه مطمئن باشد. برخی از آثار چاپ شده فرض نمودند که CH قادر به دستیابی مستقیم به ایستگاه پایه خواهد بود.
2. قابلیت های سر خوشه : همانطور که پیشتر بحث شد الگوی شبکه بر رویکرد خوشه به ویژه قابلیت های گره و دامنه پردازش در شبکه تاثیر می گذارد. ویژگی های گره CH زیر عوامل افتراق در میان طرح های خوشه اند:
• تحرک: هنگامی که یک CH سیار است، عضویت حسگر به صورت پویا تغییر می کند و خوشه ها را باید به طور مداوم حفظ نمود. از سوی دیگر، CH ثابت به خوشه های با عملکرد پایدار تمایل دارد و مدیریت شبکه درون و بین خوشه ای را تسهیل می کند. گاهی اوقات، CH ها می توانند در فواصل محدود سفر کنند تا برای عملکرد بهتر شبکه موقعیت خود را تغییر دهند.
• نوع گره : همانطور که پیشتر اشاره شد، در برخی موارد راه اندازی یک زیر مجموعه حسگرهای بکار رفته به ضورت CH طراحی شده در حالی که در دیگر CH ها با منابع محاسباتی و ارتباطاتی بسیار بیشتری مجهز شده است.
• نقش : یک CH به سادگی می تواند به صورت یک تقویت برای ترافیک تولید شده توسط حسگرها در خوشه خود عمل کند یا تجمع / تلفیق داده های گرد آمده حسگر ها را انجام دهد. گاهی اوقات، یک CH به عنوان یک مخزن یا یک ایستگاه پایه بر اساس تشخیص پدیده یا اهداف اقداماتی انجام دهد.
3. فرآیند خوشه بندی : هماهنگی فرآیند کامل خوشه بندی و ویژگی های الگوریتم ها در میان طرح های خوشه بندی منتشر شده تفاوت قابل توجهی دارد.
ویژگی های زیر مناسب انگاشته می شوند:
• روش : زمانی که CH ها فقط گره های حسگرهای منظم هستند، خوشه بندی باید به شیوه توزیعی بدون هماهنگی انجام شود. در برخی رویکردها، یک منبع قدرتمند متمرکز گره های آفلاین را تفکیک نموده و تحت کنترل اعضای خوشه را اداره می نماید. طرح های ترکیبی نیزبه ویژه هنگامی که CH ها سرشار از منابع هستند یافت می شوند. در مورد اخیر، بین CH ها هماهنگی به شیوه توزیع انجام می شود در حالی که هر CH مجزا مسئول شکل گیری خوشه خود است.
• هدف گروه بندی گره : همانگونه که در بخش قبل بحث شد، از تشکیل خوشه چندین هدف دنبال می شود. مثال ها عبارتند از: تحمل خطا، تعادل بار، اتصال به شبکه و غیره.
• انتخاب سر خوشه : CH ها را می توان از پیش تعیین نمود یا به صورت تصادفی از مجموعه گره های موجود برداشت.
• پیچیدگی الگوریتم : بسته به هدف و روش، الگوریتم های خوشه بندی متعددی پیشنهاد شده است. نرخ پیچیدگی و همگرایی این الگوریتم ها می تواند ثابت یا وابسته به تعداد CH ها و یا حسگرها باشد.
مایلیم متذکر شویم که برخی از این ویژگی ها متقابلاً انحصاری هستند به عنوان مثال از پیش تعیین شدن یا تعداد متغیر خوشه و برخی دیگر اینگونه نیستند. برای نمونه یک فرآیند خوشه بندی ممکن است اهداف چندگانه ای داشته باشد. همچنین شایان ذکر است که خوشه بندی شبکه می تواند بر برنامه ریزی شبکه و پروتکل های لایه پیوند تاثیر بگذارد یا آنکه تحت تاثیر آنها قرار گیرد.
2-9.الگوریتم ژنتیک
الگوریتمهای ژنتیک ابزاری می باشند [5,6,7,8,9] که توسط آن ماشین می تواند مکانیزم انتخاب طبیعی را شبیه سازی نماید. این عمل با جستجو در فضای مسئله جهت یافتن جواب برتر و نه الزاما بهینه صورت می پذیرد.
الگوریتم های ژنتیک با توجه به نظریه داروین در مورد تکامل، شکل گرفتند. سپس نظریه محاسبات تکاملی ، توسط ریچنبرگ درسال 1960 معرفی شد و این نظریه توسط محققان دیگر توسعه یافت تا درسال 1975 منجربه اختراع الگوریتم های ژنتیک توسط هالند Holland ودانشجویانش شد.

–37

1-9 ابزار گرد آوری اطلاعات 7
1-10 روش تجزیه و تحلیل 8
1-11 قلمرو تحقیق8
1-12 نو آوری تحقیق9
1-13 تعاریف متغیر ها و اصطلاحات کلیدی 9
فصل دوم : ادبیات موضوع
2-1مقدمه 13
2-2فرآیند تصمیم گیری 13
2-3 انتخاب معیار و ملاک در تصمیم گیری 14
2-4طبقه بندی تصمیم ها 14
2 -5 مفاهیم کلی در تصمیم گیری چند معیاره 15
2-6 انواع روش MADM 19
2-7 معرفی اجمالی فرآیند تحلیلی شبکه ای ANP23
2-8 مقایسه روش های AHP و ANP24
2-9 گام های فرآیند تحلیل شبکه26
2-10 ابر ماتریس28
2-11 پیشینه منطق فازی29
2-12 متغیر های زبانی 30
2-13 روش های علم مدیریت فازی 31
2-14 مجموعه های فازی 34
2-15 منطق فازی چگونه به کار گرفته می شوند 35
2-16 کاربردهای منطق فازی 36
2-17 تفاوت میان نظریه احتمالات و منطق فازی37
2-18 معرفی اجمالی روش تاپسیس38
2-19 گام های تاپسیس39
2-20 تامین کننده / مقدمه 43
2-21 زنجیره تامین 45
2-22 معرفی شرکت صنعتی نیرو محرکه46
2-23 پیشینه ی تحقیق49
فصل سوم : روش شناسائی پژوهش(متدولوژی)
3-1 مقدمه53
3-2 روش تحقیق53
3-3 روش گرد آوری اطلاعات 54
3-4 جامعه آماری 56
3-5 حجم نمونه57
3-6 شاخص های مربوط به متغیر های تحقیق و سوالات مربوط به پرسشنامه58
3-7 تعیین روایی پرسشنامه 59
3-8 پایایی پرسشنامه 59
3-9 تصمیم گیری در شرایط فازی61
3-10 تکنیک SAW64
فصل چهارم : تجزیه وتحلیل داده های آماری
4-1 مقدمه 66
4-2 فاز رتبه بندی 66
فصل پنجم : نتیجه گیری وپیشنهادات
5-1– مقدمه 82
5-2– نتایج حاصل از به کار گیری تکنیک تاپسیس فازی83
5-3 ارائه پیشنهادات بر اساس یافتههای پژوهش84
5-4 محدودیت های تحقیق85
5-5 پیشنهادات برای تحقیقات آتی 85
پیوست
پرسشنامه یک88
پرسشنامه شماره دو 90
منابع115
چکیده انگلیسی119
فهرست جدول ها
عنوان صفحه
جدول 3-1 شاخص های مربوط به پرسشنامه اول 58
جدول 3-2 مقدار آلفای کرونباخ برای متغیر های پژوهش60
جدول 4-1 متغیر های زبانی برای تعیین وزن هر یک از معیارها67
جدول 4-2 ماتریس تصمیم گیری و اوزان فازی 71
جدول 4-3 ماتریس تصمیم گیری و اوزان فازی 72
جدول 4-4 ماتریس نرمالیز شده ی فازی73
جدول 4-5 مجموعه نقاط ایده آل مثبت74
جدول 4-6 مجموعه نقاز ایده آل منفی 75
جدول 4-7 ضریب نزدیکی و رتبه نهایی عوامل موثر بر انتخاب تامین کننده76
جدول 4-8 اوزان نرمالیز شده ی ابعاد 78
جدول 4-9 ماتریس اولیه عوامل – گزینه ها78
جدول 4-10ماتریس بی مقیاس شده با استفاده از روش خطی79
جدول 4-11اوزان نهایی و رتبه نهایی هر یک از تامین کنندگان 79
جدول 5-1- ضریب نزدیکی و رتبه نهایی عوامل موثر بر انتخاب تامین کننده83
جدول 5-2 نتایج حاصل از به کار گیری تکنیک SAW 83
فهرست نگاره ها
عنوان صفحه
نگاره 2-1 تفاوت روش های MADM و MCDM 19
نگاره 2-2 تقسیم بندی مدل های MADM 20
نگاره 2-3 مدل ارزیابی برای MADM 22
نگاره 2-4 مقایسه روش های ANP و AHP 25
نگاره 2-5 روش های مدیریت فازی33
نگاره 2-6 نگاشت پیوسته عضویت یک مجموعه فازی35
فصل اول
کلیات پژوهش
1-1 مقدمه
درنیمه دوم قرن بیستم پدیدار شدن و رشد سریع بنگاههای اقتصادی وشرکتها منجر به تغییر اساسی در قوانین حاکم بر تولید و بازار گردید. مدیران شرکتها دریافتند که بجز مسائل مربوط به تولیدو محصول ،به بخش های دیگرهمانند خرید مواد اولیه و همچنین مسائل مربوط به مشتری توجه ویژه ای نمایند که این امر باعث بوجود آمدن مدیریت زنجیره تامین گردید.در زنجیره تامین یکی از مسایل بسیار مهم و استراتژیک، انتخاب درست و اصولی تامین کننده 2 می باشد بطوری که این تامین کننده بتواند بیشترین و بالاترین نیازها و معیارهای شرکت را پوشش دهد. مدیران دریافتند که برای انتخاب تامین کننده استفاده از روش سنتی (بر اساس قیمت پیشنهادی) مناسب نمی باشد چرا که علاوه بر قیمت مسایل بسیاری همچون : گارانتی، عمل به تعهدات مثل زمان ومکان سفارشات ، تخفیفات کیفیت مدت زمان همکاری و....در کیفیت و کمیت تولید محصول و حتی فروش دخیل می باشند. دراین عرصه برای تحلیل و آنالیز این معیارهای متعدد و مختلف که گاها از یک جنس هم نبودند ومسایل پیچیده انتخاب وتصمیم گیری مدیران را ملزم به استفاده از تکنیکهای جدید کرد. یکی ازاین تکنیکها استفاده از مدلهای تصمیم گیری چند معیاره بود که توانست مسایل بسیاری را در انتخاب بهترین تصمیم حل نماید .
در این تحقیق مدل جدیدی از روش Topsis فازی و از روش ANP فازی برای حل این مسئله استفاده می- شود . این روش از جمله روشهای مبتنی بر اطلاعات کامل از ارجحیت تصمیم گیران است که جزئیات آن در بخش سوم پژوهش تشریح خواهد شد.
1- 2 بیان مساله :
پس از گذر فضای تولید و بازار از روشهای سنتی و قدیم و ورود به فضای مدرن و پیچیده امروزی و نا کارامد شدن تکنیکها و ابزارهای سنتی و قدیمی مدیران شرکتها برای بقای شرکتها و بنگاههای اقتصادی خود چاره ای جز استفاده از ابزارها و مدلها و راه حل های جدید برای تصمیم گیرهای بهتر خود نمی_ دیدند،چرا که در این محیط پرتلاطم بازارها و رقابتهای شدید و بودن رقبای قدرتمند در محیط حتی گاها یک تصمیم اشتباه ممکن است شرکت را از رقبا طوری عقب بندازد که شرکت نتواند آنرا جبران نماید و موجب نابودی شرکت گردد.
یکی از این روشها و تکنیکها استفاده از مدیریت تامین و یا زنجیره تامین می باشد .زنجیره تامین در واقع اهمیت داشتن و توجه به تمامی قسمتهای تولید از مواد اولیه تا مشتریان می باشد. یکی از بخشهای مهم و استراتژیک در زنجیزه تامین بخش مواد اولیه و تامین کنندگان می باشد.در دنیای امروزی در هر زمینه و صنعتی تامین کنندگان متعددی برای تامین مواد و قطعات اولیه وجود دارد که مدیران میتوانند با توجه به شرایط موجود بهترین آنها را انتخاب نماییند و ازطرف دیگر بخوبی دریافتند که دیگر روش سنتی و قدیم میسر نمی -باشد، چرا که مدیران دریافته اند که معیارهای فراوانی به غیر از قیمت مثل کیفیت، گارانتی، مدت زمان همکاری وزمان تحویل دارای اهمیت ویژه ای میباشد.
حال سوال مهمی که پیش می آید این است که مدیران چگونه و از چه راه و روشی بهترین تامین کننده را انتخاب نمایند و به عبارت دیگر : باتوجه به معیارهای متعدد موجود و تامین کنندگان فراوان روش انتخاب بهترین تامین کننده چیست؟
برای حل این مشکل را حلهای مختلفی وجود دارد که یکی از راحلها استفاده از تکنیک MADM فازی می_ باشد.
حال باتوجه به احساس نیاز به استفاده از این تکنیک در الویت بندی تامین کنندگان بر اساس معیارهای موجود و در نهایت ارایه یک راه کار مناسب برای تصمیم گیری بهتر مدیران این تحقیق انجام گردیده است.مهمترین مسئله در این تحقیق یافتن پاسخی به این سوالات است که:
آیا استفاده از روش MADMفازی موجب انتخاب بهترین تامین کننده بدون دخالت شخصی کارشناسان خواهد شد؟
1-3 اهمیت و ضرورت تحقیق:
انتخاب بهترین تامین کننده همواره یکی از دغدغه های اصلی و مهم مدیران می باشد چرا که با انتخاب درست و مناسب تامین کننده مدیران موفق خواهند شد که سود بیشتری را عاید شرکت خود نمایند . برای انتخاب بهترین تامین کننده راهکار های فروانی ارائه گردیده است که هریک از آنان دارای معایب و مزایایی می باشند . به دلیل وجود معیارهاو شاخص های متعدد در انتخاب تامین کنندگان ، که بعضا این معیارها دارای ابهام می باشند و از یک نوع نیز نمی باشند مدل تصمیم گیری چند معیاره فازی پیشنهاد می_ گردد. با توجه به آنچه که مطرح گردید الویت بندی تامین کنندگان به عنوان یک مساله تصمیم گیری چند معیاره در نظر گرفت . از مزایای این مدل میتوان به عدم یکسان سازی واحد معیارها و تجزیه و تحلیل معیارهای کمی وکیفی بطور همزمان اشاره کرد .
1-4 اهداف اساسی انجام تحقیق و سوال اصلی:
1-4-1 اهداف علمی :
انتخاب و ارایه تکنیکی که بتوان به واسطه آن بهترین تامین کننده را انتخاب کرد .
1-4-2 اهداف کاربردی :
اولویت بندی تامین کنندگان شرکت نیروی محرکه با روش MADM فازی
نتیجه این تحقیق در تمامی سازمانها ی تولیدی کاربرد خواهد داشت.
1-4-3 پرسش اصلی تحقیق:
باتوجه به معیارها و شاخص های متعدد تامین کنندگان شرکت نیرو محرکه ، با یه کار گیری روش MADM فازی چه تامین کننده هایی نسبت به سایر تامین کنندگان در الویت قرار می گیرند ؟
1-5 فرضیات تحقیق
با توجه به کاربردی بودن این تحقیق و استفاده از مدل های ریاضی(MADM ) و منطق فازی برای انتخاب تامین کنندگان فرضیه ای وجود ندارد که بخواهیم رد یا قبول کنیم .
1-6 استفاده کنندگان تحقیق
نتایج این تحقیق در شرکت های تولیدی کاربرد دارد ولی بهره ور اصلی این تحقیق شرکت نیروی محرکه باشد .
1-7 روش تحقیق
با توجه به اینکه این تحقیق نظری و کاربردی است روش تحقیق مناسب موردی و زمینه ای (case study ) می باشد . این روش تصویر جامع و گسترده در موردی ویژه ارائه می کند و پژوهشگر تمام مواردی که در زمینه ای خاص مطرح است مورد تجزیه و تحلیل قرار می دهد تلاش می شود هر چه بیشتر متغیر های ناخواسته کنترل شود و متغیر های مستقل بیشتری مورد بررسی قرارگیرد . در این روش موقعیت قبلی و فعلی در زمینه ای که مطرح است مورد بررسی قرار خواهد گرفت و اغلب بررسی های تطبیقی نیز انجام خواهد گرفت و مقایسه ای وسیع و گسترده در زمینه ای که مورد نظر است با سایر موارد و شاخص ها انجام می گردد و آنگاه پیشنهاداتی ارائه خواهد شد .
برای انجام تحقیق موردی زمینه ای اولین گام برخورد پژوهشگر با موقعیت مساله است که بر اساس آن موضوع شکل میگیرد و بر پایه موضوع نیز سوال ها ، اهداف و بیان مساله مطرح می گردد. پس از گرد آوری داده ها و پاسخ به سوالات دسترسی به اهداف اصلی و فرعی امکان پذیر می شود در این روش تحقیق به دنبال حقیقت یعنی آنچه که باید باشد کاوش می شود .
1-8 روش گردآوری اطلاعات
روش گرد آوری اطلاعات در این تحقیق تلفیقی از روش میدانی و کتابخانه ای است زیرا به نسبت نیاز از آن استفاده خواهد شد و ابزار های آن بانک های اطلاعاتی ، مجلات ، کتاب ها و اینترنت و .....است .
1-9 ابزار گردآوری اطلاعات
ابزارهای گردآوری عبارتند از :
1-9-1 مطالعه :
جهت گردآوری مفاهیم اولیه و مفروضات تئوریک
1-9-2 مشاهده و بررسی اسناد :
جهت گردآوری اطلاعات مورد نیاز در ارتباط با رابطه بین داده ها و ستاده ها .
1-9-3 مصاحبه تخصصی :
جهت استفاده از نظرات کارشناسان مربوطه با موضوع تحقیق و کسب اطلاعات مورد نیاز.
1-9-4 فیش برداری :
جهت جمع آوری اطلاعات مورد نیاز از منابع و مقالات مرتبط با موضوع تحقیق.
1- 10روش های تجزیه و تحلیل
روش تصمیم گیری با شاخص های چند گانه: در مواقعی کاربرد دارد که گزینه ها از قبل تعیین شده باشند و هدف انتخاب یکی از گزینه ها ی موجود از طریق مقایسه آنها در حضور شاخص های متعدد تاثیر گذار بر ارجحیت گزینه هاست. در بین روش های گوناگونی که در حوزه تصمیم گیری با شاخص های چند گانه وجود دارد، روش ANP برای این تحقیق انتخاب شد. روش فوق توسط ساعتی ابداع شده و تفاوت آن با روش های دیگر به بررسی روابط داخلی و بیرونی میان معیارها و شاخص ها بر می گردد . نرم افزار آن نیز Super decicion می باشد . TOPSIS روشی است که با آن می توان مساله تحلیلی در تصمیم گیری با شاخص های چندگانه را به عنوان سامانه ای هندسی در نظر گرفت که در آن m گزینه با n معیار مورد ارزیابی قرار می گیرد نرم افزار تجزیه و تحلیل آن Topsis می باشد .
1-11 قلمرو تحقیق
1-11 -1 قلمرو مکانی تحقیق:
این تحقیق در کارخانه ی شرکت صنعتی نیرو محرکه واقع در شهر صنعتی البرز در استان قزوین انجام گرفته است.
1-11 – 2 قلمرو زمانی تحقیق :
این تحقیق از اواخر مرداد 1393 تا اواسط دی ماه1393 صورت پذیرفت.
1-11- 3 قلمرو موضوعی تحقیق:
بررسی و الویت بندی تامین کنندگان و ارایه یک مدل برای انتخاب بهترین تامین کنندگان در شرکت صنعتی نیرو محرکه می باشد .
1-12 نوآوری تحقیق
با توجه به این که اندازه گیری شاخص های مرتبط با تامین کنندگان و ارتباط بین شاخص ها در تکنیک های گذشته به صورت دقیق امکان پذیر نبوده ، در این تحقیق با استفاده از تکنیک ANP و Topsis برای انتخاب تامین کنندگان با در نظر گرفتن تمامی شاخص های مربوطه و وابستگی بین آنهاسعی می شود بهترین تامین کننده انتخاب شود.
1-13 تعاریف متغیرها واصطلاحات کلیدی:
تصمیم گیری چند شاخصه ، فرایند تحلیل شبکه ای ، تئوری فازی ، مدیریت زنجیره تامین ، تامین کننده و تاپسیس
تصمیم گیری چند شاخصه(MADM):
در یک تعریف کلی تصمیم گیری چند شاخصه به تصمیمات خاصی(از نوع ترجیحی) مانند ارزیابی و اولویت گذاری ویا انتخاب از بین گزینه های موجود که باید بین چند شاخص متضاد انجام شود اطلاق می- گردد(اصغر پور 1388,191)
فرایند تحلیل شبکه ای(ANP):
یک روش تصمیم گیری چند معیاره است و زمانی کاربرد دارد که وابستگی بین گزینه ها یا معیارها دارای اهمیت باشد(اصغر پور،1389)
تئوری فازی: این تئوری برای شرایط متغیر وشرایط غیر قابل مقایسه بودن استفاده میگردد و میتواند به ابهام موجود در عبارت های زبانی نظر دهندگان کمک کند (Semih,2009)
TOPSIS
یک روش تصمیم گیری چندمعیاره و کاربردی است که آلترناتیوها را با توجه به مقادیر داده های آنها در هر معیار و وزن معیارها مورد مقایسه قرار میدهد.(پرهیزکاری، 1387)
الویت بندی
ارجحیت دادن یک گزینه و مرتب کردن آن از نظر اهمیت بیشتر مورد نظر می باشد.(آزاد 1382 )
منطق فازی
بنیاد منطق فازی بر شالوده نظریه مجموعه های فازی استوار است.این نظریه تعمیمی از نظریه کلاسیک مجموعه ها در علم ریاضیات است.در تئوری کلاسیک عضویت عناصر از یک الگوی صفر و یک و باینری تبعیت می کند.اما در تئوری فازی این مفهوم را بسط می دهد و عضویت درجه بندی شده را مطرح می نماید.
تامین کننده
کسی است که بخشی از کالا و خدمات مورد نیاز یک سازمان را جهت تولید محصول یا ارائه خدمات به مشتری تامین می کند. .(غضنفری، 1385)
زنجیره تامین
یک زنجیره تامین و تمامی فعالیتهای مرتبط با جریان کالا و تبدیل مواد از مرحله تهیه ماده اولیه تا مرحله تحویل کالای نهایی به مصرف کننده و نیز جریان اطلاعاتی و مالی مرتبط با آنها را شامل می شود. .(غضنفری، 1385)
مدیریت زنجیره تامین
شامل یکپارچه سازی فعالیتهای زنجیره تامین از طریق بهبود در روابط زنجیره برای بدست آوردن مزیت رقابتی بیشتر است.(غضنفری 1385)
فصل دوم
ادبیات موضوع
تصمیم گیری چند معیاره
2-1 مقدمه
اگر فعالیتهای مختلف مدیریت را در نظر آورید، به وضوح دیده میشود که تصمیمگیری، جوهر تمامی فعالیتهای مدیریت است. تصمیمگیری از اجزای جدایی ناپذیر مدیریت به شمار میآید و در هر وظیفه ی مدیریت به نحوی جلوهگر است. در تعیین خط مشیهای سازمان، در تدوین هدفها، طراحی سازمان، انتخاب، ارزیابی، ودر تمامی افعال و اعمال مدیریت، تصمیمگیری جزء اصلی و رکن اساسی است. مدیر همواره با مواردی مواجه است که اخذ تصمیم از جانب او ، کیفیت و چگونگی این تصمیمها که میزان توفیق و تحقق هدفهای سازمان را معین میکند. از این رو آشنایی با شیوهها و روشهای تصمیمگیری و آگاهی از تکنیکهای اخذ تصمیم برای مدیران واجد اهمیت بسیار است و با بهرهگیری از این شیوهها و ابزارهاست که توانایی مدیران در اخذ تصمیمها کارآمدتر و مؤثرتر افزایش مییابد.(صفرزاده ، 1385 )
با توجه به مقدمه ذکر شده در این فصل ابتدا فرآیند تصمیم گیری و مباحث مربوط به آن نگاشته شده است و در ادامه به معرفی روش MADM فازی پرداخته ایم .در پایان فصل پیش رو پیشینه ی تحقیق و معرفی اجمالی شرکت نیرو محرکه که جامعه آماری تحقیق از آن اتخاذ شده ، قید شده است .
2-2 فرآیند تصمیمگیری
در تعریفی بسیار ساده، تصمیمگیری عبارتست از انتخاب یک راه از میان راههای مختلف.همانطور که از این تعریف برداشت میشود، کار اصلی تصمیمگیرنده دریافت راههای ممکن و نتایج ناشی از آنها وانتخاب اصلح از میان آنها است، و اگر وی بتواند این انتخاب را به نحوی درست و مطلوب انجام دهد تصمیمهای او مؤثر و سازنده خواهند بود. تصمیمگیرنده ممکن است با توسل به قدرتهای ماوراء الطبیعه، تجربه، اشراق یا اتفاق و تصادف، تصمیمگیری کند، اما هدف اصلی در اینجا اشارهای اجمالی به شیوهها و تکنیکهایی از تصمیمگیری است که کار اخذ تصمیم علمی را برای مدیر میسر میسازد و او را در اخذ تصمیمهای سریع و صحیح یاری میدهد.(صفرزاده،1385 )
2-3 انتخاب معیار یا ملاک در تصمیم گیری
فرایند تصمیمگیری نهایتا عبارتست از یک شق از میان شقوق مختلف. حال باید ببینیم که معیار انتخاب چه باید باشد، بر اساس چه چیزی میگوییم این راه مطلوب است یا مطلوب نیست، و بر چه اساسی یک راه را بر دیگری ارجح میشماریم و آن را انتخاب میکنیم. پاسخ به این سوال در اغلب موارد روشن نیست. راه(الف) ممکن است از یک نظر خوب تلقی شود ولی از یک دید دیگر، چندان خوب نباشد. بدین جهت ما باید معیار و ملاکی در دست داشته باشیم تا کار انتخاب شده را بر اساس آن انجام دهیم.
معیارهایی که مدیران برای اخذ تصمیم و انتخاب بکار میببرند، عواملی هستند که در راه رسیدن به هدف سازمان دارای اهمیتاند. از طریق تجزیه و تحلیلهای علمی و بررسی هدفها و خط مشیهای سازمان میتوانیم این معیارها را بشناسیم و عملیات را به کمک آنها مورد سنجش قرار دهیم. به عنوان مثال، هزینه یا سود میتواند معیاری برای سنجش راههای مختلف و انتخاب یک راه از بین راههای گوناگون باشد. یکی از اساسیترین گامها در تصمیمگیری، یافتن معیار و ارزیابی راهها به وسیله آن است. (ونوس ، پرچ ، 1385)
2-4 طبقهبندی تصمیمها
طبقهبندی تصمیمها، کار مدیر و تحلیلگر را در انتخاب مدلها و معیارهای تصمیمگیری و شیوههای اخذ تصمیم ساده میسازد. طرق مختلفی برای طبقهبندی تصمیمها بکار میروند و مسائل مورد نظر در تصمیمگیری از جنبه های مختلف طبقهبندی میشوند. در اینجا به سه نوع طبقهبندی اشاره خواهد شد. اولی طبقهبندی تصمیمها از نظر میزان اطمینان به نتایج حاصل از شقوق مختلف اخذ تصمیم، و دیگری طبقهبندی تصمیمها از نظر مراحل آنها و در آخر طبقهبندی تصمیمها با توجه به فضای آن.
در این طبقهبندی میتوانیم تصمیمها را درچهار گروه قرار دهیم.
2-4-1 تصمیمگیری تحت شرایط اطمینان کامل
2-4-2 تصمیمگیری در شرایط ریسک
2-4-3 تصمیمگیری در شرایط عدم اطمینان
4-2-4 تصمیمگیری در حالت وجود رقابت
زمانی که تصمیمگیرنده با اطمینان کامل میداند که نتیجه یا نتایج حاصل از هر شق ممکن چیست و در چه شرایطی اتفاق خواهد افتاد، از نظر تصمیمگیری در شرایط اطمینان کامل قرار دارد. وقتی تصمیمگیرنده با اطمینان کامل نمیداند که نتایج حاصل از هر شق چیست ولی احتمال وقوع (شانس نسبی وقوع نتایج) آنها را میداند، او تحت شرایط ریسک و با مخاطره تصمیم میگیرد. و هنگامی که تصمیمگیرنده احتمال وقوع نتایج حاصل از شقوق ممکن را نمیداند، او در شرایط عدم اطمینان تصمیمگیری میکند. و سرانجام به هنگامی که در موضوع مورد تصمیمگیری رقبایی هم وجود داشته باشند، تصمیمگیری در شرایط تعارض انجام میپذیرد. در حقیقت، این شیوه تصمیمگیری مربوط به مواردی است که تصمیمگیرنده در یک موقعیت رقابتی قرار میگیرد. بدیهی است که اتخاذ تصمیم در این وضعیت نسبت به وضعیتهای قبلی مشکلتر است، زیرا بستگی به ایندارد که هریک از رقبا چه تصمیمی خواهند گرفت و تصمیم مزبور چه نتایجی بر وضعیت موجود میگذارد و تا چه حد عوامل را جابهجا و عوض میکند (نظیر دو شطرنج باز). در چنین حالتی تصمیمگیری به عوامل متغیر مختلفی مربوط میشود که صحنه عملیات را عوض میکند و هر تصمیمگیرنده برای تصمیمگیری صحیح باید دارای استراتژی (مجموع هدفها و برنامههای دراز مدت و اساسی) باشد. ( آذر و رجب زاده ،1387 )
2-5 مفاهیم کلی تصمیم گیری چند معیاره
آنچه در این بخش مورد توجه قرار میگیرد، موضوعات کلی تصمیمگیری چند معیاره(MCDM) است. در دو دهه اخیر توجه محققین به این مدلها در تصمیمگیریهای پیچیده بوده است. در اینگونه تصمیمگیریها چندین معیار که گاه باهم تضاد دارند. در نظر گرفته میشوند که در زندگی روزمره نیز به طور مرتب اتفاق میافتند. برای مثال، در زندگی شخصی یک فرد، در انتخاب شغل ، وجهه شغل، محل انجام کار، حقوق ودستمزد، فرصتهای پیشرفت، شرایط کاری وغیره به عنوان معیار در نظر گرفته میشوند ومیتوانند برای این فرد خیلی مهم باشند. اتومبیلی که یک فرد در نظر دارد خریداری کند، به معیارهایی مانند قیمت، مدل، ایمنی، راحتی، میزان مصرف سوخت، قابلیت اطمینان و... بستگی دارد. در زمینه مسائل سازمانی، در انتخاب استراتژی یک سازمان معیارهایی از قبیل میزان درآمد سازمان طی یک دوره، قیمت سهام سازمان، سهم بازاری، تصویر سازمان در جامعه(سرقفلی) و... میتوانند مهم باشند. در زمینه مسائل عمومی یک جامعه، برنامه توسعه منابع آبی میتواند بر اساس معیارهایی مانند هزینه، احتمال کمبود آب، انرژی(میزان استفاده مجدد از آن)، استفاده از جنگل وزمین، کیفیت آب، حفاظت از مواد غذایی و... صورت گیرد، یعنی این موارد به عنوان معیارها مد نظر قرار گیرند.
در زمینه مسائل دولتی، بخش حمل و نقل کشوری باید سیستم حمل و نقل را به گونهای طراحی کند که زمان سفر، تاخیرات، هزینه حمل و نقل و... حداقل شود. یا در صنایع نظامی انتخاب سیستم مناسب پرتاب یک موشک در نیروی هوایی برحسب معیارهایی نظیر انتخاب سرعت، دقت، قابلیت اطمینان، میزان آسیب پذیری و... سنجیده شود.موارد فوق بخشهایی مختلف از کاربرد تصمیمگیریهای چند معیاره را شامل میشوند.به طور کلی روشهای تصمیمگیری چند معیاره(MCDM) به دو دسته کلی تقسیم میشوند(اصغر پور،1389 )
2-5-1 مدلهای تصمیمگیری چند هدفه (MODM)
2-5-2 مدلهای تصمیمگیری چند شاخصه (MADM)
2-5-1 مدلهای تصمیمگیری چند هدفه
در این مدلهای تصمیمگیری چندین هدف به طور همزمان جهت بهینه شدن، مورد توجه قرار میگیرند.
مقیاس سنجش برای هر هدف ممکن است با مقیاس سنجش برای بقیه اهداف متفاوت باشد. مثلا یک هدف حداکثر کردن سود است که بر حسب واحد پول سنجش میشودو هدف دیگر حداقل استفاده از ساعات نیروی کار است که بر حسب ساعات سنجش میشود. گاهی این اهداف در یک جهت نیستند و به صورت متضاد عمل میکنند. مثلا تصمیمگیرنده از یک طرف تمایل دارد
رضایت کارکنان را افزایش دهد و از طرف دیگر میخواهد هزینههای حقوق و دستمزد را حداقل کند.
یکی از بهترین تکنیک تصمیمگیری چند هدفه برنامهریزی آرمانی است که اواین بار توسط چارلز و کوپر ارائه شده است. مدل ریاضی تصمیمگیری چند هدفه به صورت زیر است: (اصغر پور،1389 )
f1(x),f2(x),…,fn(x)} } max f(x) =
s.t
I= 1.2.3……….m
رابطه 2-1
2-5-2 مدلهای تصمیمگیری چند شاخصه
در این مدلها، انتخاب یک گزینه از بین گزینههای موجود مد نظر است. در یک تعریف کلی تصمیمگیری چند شاخصه به تصمیمات خاصی(از نوع ترجیهی) مانند ارزیابی، اولویت گذاری و یا انتخاب از بین گزینههای موجود (که گاه باید بین چند شاخص متضاد انجام میشود) اطلاق میگردد. (اصغر پور،1389 )
انواع مختلفی از مسائل MADM وجود دارند که تمامی آنها در خصوصیات زیر مشترکند:
گزینهها
در این مسائل تعدادی گزینه مشخص باید مورد بررسی قرار گرفته و در مورد آنها اولویتگذاری، انتخاب و یا رتبه بندی صورت میگیرد. تعداد گزینههای مورد نظر میتواند محدود و یا خیلی زیاد باشند. برای مثال، یک تولید کننده ی اتومبیل ممکن است فقط چند گزینه ی محدود برای انتخاب محل تولید داشته باشد، ولی یک دانشگاه درجه یک انتخاب دانشجو خود را از بین هزاران متقاضی میتواند انجام می دهد.گاهی به جای گزینه، مترادفهای آن مانند انتخاب، استراتژی، اقدام، کاندیدا و... به کار میرود.
شاخصهای چندگانه
هر مساله MADM چندین شاخص دارد که تصمیمگیرنده، باید آنها را کاملا مشخص کند. تعداد شاخصها بستگی به ماهیت مساله دارد. برای مثال،در مساله خرید اتومبیل اگر قرار به ارزیابی چند اتومبیل باشد ممکن است شاخصهای مختلف قیمت، میزان سوخت مصرفی، نحوه ضمانت، ساخت مد نظر باشند(یعنی چند شاخص محدود در نظر گرفته شدهاند)، در حالی که در یک مساله جایابی برای یک طرح کارخانه 100 شاخص و یا بیشتر میتوانند مد نظر باشند. واژه شاخص به صورت واژگان دیگری از قبیل اهداف یا معیارها قابل بیان است.
واحدهای بیمقیاس
هر شاخص نسبت به شاخص دیگر دارای مقیاس اندازهگیری متفاوت است. لذا جهت معنادار شدن محاسبات و نتایج از طریق روشهای علمی اقدام به بیمقیاس کردن دادهها میشود به گونهای که اهمیت نسبی دادهها حفظ گردد.
وزن شاخصها
تمامی روشهای MADM مستلزم وجود اطلاعاتی هستند که بر اساس اهمیت نسبی هر شاخص بدست آمده باشند. این اطلاعات معمولا دارای مقیاس ترتیبی یا اصلی هستند. وزنهای مربوط به شاخصها میتواند مستقیما توسط تصمیمگیرنده و یا بهوسیله ی روشهای علمی موجود به معیارها تخصیص داده شود. این وزنها اهمیت نسبی هر شاخص را بیان میکنند.از جنبههای مختلف بین مدلهای MADM و MODM تفاوت وجود دارد که به شرح جدول زیر بیان شدهاند. (اصغرپور ،1389)
MODM MADM MCDM
مواردمتفاوت
اهداف شاخصها معیارها
ضمنی بیان شدهاند
به طور ضعیف بیان شدهاند صریح بیان شدهاند اهداف
به طور ضعیف بیان شدهاند صریح بیان شدهاند شاخصها
کاملا مشخص غیر مشخص
(در داخل معیارها گنجانده شدهاند) محدودیتها
تعداد نا معلوم
(در نتیجه یک فرآیند معلوم میشوند) تعداد محدود، مشخص گزینهها
زیاد کم تعامل با تصمیم گیرنده
طراحی در انتخاب و ارزیابی نحوه استفاده
نگاره 2-1 (اصغر پور، 1389 (
2-6 انواع روشهای MADM
انواع روشهای تصمیمگیری MADM در شکل زیر مشخص شدهاند.بر طبق این شکل اگر هیچگونه اطلاعاتی در مورد شاخص در دسترس نباشد، بهتر است از روی تسلط استفاده شود. اگر اطلاعات موجود در مورد محیط باشد، یعنی درباره ی شاخصها اطلاعاتی موجود نباشد بلکه فضای تصمیمگیری مشخص شده باشد، استفاده از روش ماکسی مین و مینی ماکس (به ترتیب برای اطلاعات بدست آمده بر اساس دیدگاه بدبینانه و خوشبینانه) پیشنهاد میشود. اگر اطلاعات در مورد شاخص، ارائه شده باشد آنگاه اطلاعات یا در سطح استاندارد است، یعنی میزان قابل قبول شاخص مربوطه را بیان میکند و یا وزن شاخصها را بیان میکند که ممکن است با دادههای برخوردار از مقیاس ترتیبی یا اصلی، اندازهگیری شده باشد.مدلهای MADM از دیدگاه دیگر نیز قابل بررسی هستند و آن رویکرد، فنون مختلف MADM در پردازش اطلاعات بر مبنای شاخصهای ارائه شده توسط تصمیمگیرنده است.( آذر ،رجب زاده ، 1387)
اطلاعات در دسترس نیست
اطلاعات در مورد محیط
اطلاعات در مورد شاخص
تسلط
بدبینانه
خوش بینانه
ماکسی مین
مینی ماکس
در سطح استاندارد
ترتیبی
اصلی
روش رضایتبخش جامع
روش رضایتبخش خاص
روش لکسیکوگراف
روش حذف
SAW
WP
TOPSIS
ELECTRE
HRM
AHP
اطلاعات در دسترس نیست
اطلاعات در مورد محیط
اطلاعات در مورد شاخص
تسلط
بدبینانه
خوش بینانه
ماکسی مین
مینی ماکس
در سطح استاندارد
ترتیبی
اصلی
روش رضایتبخش جامع
روش رضایتبخش خاص
روش لکسیکوگراف
روش حذف
SAW
WP
TOPSIS
ELECTRE
HRM
AHP

نگاره 2-2 (تقسیم بندی مدل های MADM )
در این ارتباط، دادههای MADM به دو بخش کلی تقسیم میشوند.
2-6-1 مدلهای جبرانی
2- 6-2 مدلهای غیر جبرانی
آن دسته از مدلهای MADM را شامل میشوند که در آنها تبادل بین شاخصها صورت میگیرد. بدین معنی که تغییر در یک شاخص، توسط تغییری مخالف (در جهت عکس) در شاخص یا شاخصهای دیگر، جبران میشود.
روش جبرانی، روشهایی مانند میانگین وزنی ساده، TOPSIS، ELECTRE، تخصیص خطی، AHP و... است. این روشها مطابق شکل زیر، دستهبندی شدهاند. (اصغر پور،1389 )
2-6-2 مدلهای غیر جبرانی
مدلهایی از MADM را شامل میشوند که در آنها تبادل بین شاخصها صورت نمیگیرد. بدین معنی که نقطه ضعف موجود در یک شاخص، توسط مزیت موجود در شاخص دیگر، جبران نمیشود بلکه هر شاخص، جدا از دیگر شاخصها مبنای ارزیابی گزینههای رقیب قرار میگیرد. مزیت مهم این مدلها، سادگی آنهاست که با رفتار تصمیمگیرنده و محدود بودن اطلاعات او مطابقت دارد. روش غیر جبرانی، شامل روشهایی مانند روش تسلط، لکسیکوگراف، حذف، ماکسیمین، مینی ماکس، رضایت بخش خاص و شمول است. (اصغر پور،1389 )
2625725340360مدل های ارزیابی برای MADM
00مدل های ارزیابی برای MADM
36264847550150040163751188720مدل های جبرانی
00مدل های جبرانی
13601701221740مدل های غیر جبرانی
00مدل های غیر جبرانی
1930401868805متد تسلط
00متد تسلط
1930402343150لکسیکوگراف
00لکسیکوگراف
1930405255260متد پرموتاسیون
00متد پرموتاسیون
1930404603750رضایت بخش عام
00رضایت بخش عام
1930402893695متد حذف
00متد حذف
1930403463290ماکسی - مین
00ماکسی - مین
1930404017645رضایت بخش خاص
00رضایت بخش خاص
20707353927475مجموعه وزین
رده ای
00مجموعه وزین
رده ای
20707353114040ساده وزین با تعامل متقابل
00ساده وزین با تعامل متقابل
20707352440940مجموعه ساده وزین
00مجموعه ساده وزین
35553654347210MDS
00MDS
35553653745865LINAMP
00LINAMP
35877503114040MRS
00MRS
35553652505075TOPSIS
00TOPSIS
47980603167380ELECTRE
00ELECTRE
47980602543810تخصیص خطی
00تخصیص خطی
19589751868805 زیر گروه نمره گذاری
00 زیر گروه نمره گذاری
36925251835785زیر گروه سازشی
00زیر گروه سازشی
49784001868805زیر گروه هم آهنگ
00زیر گروه هم آهنگ
1958975996950002625725173164400170751415906750014789152066289001478915305815900147891535826690014789154241799001478915477583400147891525438090026161991747520005635624174752000442214015386050032854902409825003298190240982500329819027419300032981903278505003298190392684000329819045046890046164502343150004626610234315000462661034632890046266102740659004231640221234000545084022434550018516602391410001861185239140900254634922517100018618204176395001861820342963400186182026562040047872659975850019494509969500060223392228215001478915546988900-2171700431736500
نگاره 2-3 (اصغر پور،1389 )
2-7 معرفی اجمالی فرآیند تحلیل شبکه‌ای(ANP)
ANP نظریه‌ی جدیدی است کهAHP را برای پرداختن به مسائل اداری وابستگی و باز خورد در یک مدل توسعه داده و به این منظور از رهیافت ابر ماتریس استفاده می‌کند. اگر چه هر دو فرآیند اولویت مقیاس‌های نسبی را با انجام مقایسات زوجی به دست می‌آورند ولی تفاوتى‌هایی میان آنها وجود دارد. درAHP چهار شرط(معکوس،همگنی ، وابستگی و انتظارات)وجود داشت که کلیه‌ی محاسبات و قوانین این تکنیک بر اساس این شروط بود.در فرآیند تحلیل شبکه‌ای،شرط سوم سلسله مراتبی نقض می‌شود زیرا که در یک سلسله مراتب بایستی وابستگی‌ها به صورت خطی از بالا به پایین و یا بالعکس باشد و چنانچه وابستگی دو طرفه باشد(یعنی وزن معیارها به وزن گزینه‌هاو وزن گزینه‌ها به وزن معیارها وابسته باشد)،مسأله دیگر از حالت سلسله مراتبی خارج شده و تشکیل یک شبکه یا سیستم غیرخطی یا یک سیستم بازخورد را می‌دهد.در این حالت برای محاسبه‌ی وزن عناصر،نمی‌توان از قوانین و فرمولهای سلسله مراتبی استفاده نمود بلکه می‌بایست برای محاسبه‌ی وزن از تئوری‌ شبکه‌ها کمک گرفت.
AHP و ANP دو مفهوم مختلف هستند که توسط آقای ساعتی معرفی شدند. ایشان ابتدا AHP را توسعه داد که با استفاده از آن بتواند با مسائل مختلف چند معیاره با دو رویکرد کمی و کیفی برخورد کند. از نظر رویکرد کیفی،AHP این امکان را به محقق می‌دهد که اهداف کلان را به اهداف جزء تقسیم نموده و این تقسیم بندی را تا رسیدن به گزینه‌ها ادامه دهد. از نظر رویکرد کمی،این روش با لحاظ کردن مقایسات زوجی،امکان محاسبه‌ی وزن گزینه‌ها را میسر می‌سازد. برای انجام مقایسه‌ی زوجی نیز، مقیاس‌های 9 نقطه ای در نظر گرفته شده است.این مقیاس با در نظر گرفتن اعداد1تا9 به ترتیب اهمیت،تصمیم گیرنده را در فرآیند مقایسه کمک می‌کند(عدد یک برای ارجحیت یکسان و عدد9 برای نمایش بیشترین ارجحیت).
با این وجود،مدلAHP با توجه به اصل سوم خود،شرط سلسله مراتبی را به صورت یک طرفه و فقط از بالا به پایین و یا بر عکس دارا می‌باشد.این اصل باعث می‌شود که نتوان مسائلی را که رابطه‌ی متقابل بین گزینه‌ها و معیارها وجود دارد تحلیل و بررسی نمود.به علت وجود این شکاف،تکنیکANP توسط ساعتی توسعه داده شد.بنا به تعریف آقای ساعتی،ANP مدل کلی و عمومی و کامل‌تری از AHPاست که اجازه‌ی تحلیل مسائل مختلف را با داشتن رابطه‌ی متقابل بین عناصر می‌دهد(ساعتی ، 2001 ) . این ارتباط متقابل را گاهی سیستم‌های بازخورد نیز می‌نامند. ایشان برای محاسبه‌ی وزن این دسته از مسائل،روشی تحت عنوان ابر ماتریس را توسعه داد(ساعتی 1996) ابر ماتریس، اثر وزن‌های عناصر مرتبط با هم را با در نظر گرفتن یک ماتریس،با شرکت همه‌ی گزینه‌ها و عناصر تعدیل می‌کند.
2-8 مقایسه روش های AHP و ANP
تئوری تصمیم گیری مشهورتر یعنیAHP ،یک نوع خاص ازANP است و هر دو از مقایسه‌ی زوجی بین عناصر و معیارها در یک صفت یا خاصیت مشترک برای تعیین وزن و اولویت هر عنصر در موضوع تصمیم گیری استفاده می‌کنند. اگرچه بسیاری از مسائل تصمیم گیری بهتر است باANP مورد مطالعه قرار گیرند لکن پیشنهاد می‌شود ، موضوعات مورد مطالعه‌ای که دارای وابستگی‌های متقابل یا سیستم بازخورد نیستند،از طریق مدل AHP مطالعه شوند.هر یک از دو تکنیک مفاهیمی را به کار می‌برند که لیست نمودن آنها برای ارائه‌ی یک شناخت کلی از هر دو مدل می‌تواند مفید واقع شود .
(ساختار شبکه) ( ساختار سلسله مراتب )
554990139700 هدف
00 هدف
101346056642000320294063500هدف
00هدف
336359578867000
W21 w21
354330243840معیارها
00معیارها
287909080645معیارها
00معیارها
468884014414500W22
102362027368500366268011112500W32 w32
211455297815گزینه ها
00گزینه ها
2747645204470گزینه ها
00گزینه ها

Wh=000w21000w320 Wh=000w21w2200w320نگاره 2-4مقایسه روش AHP وANP
با توجه به مفاهیم فوق،تفاوت‌هایی را می‌توان میان دو تکنیک تشخیص داد که برخی از آنها عبارتند از:
●ANP با مجاز شمردن وابستگی،ازAHP که فقط شامل حالت استقلال است،فراتر می رود. از این رویAHP به عنوان حالت خاصی ازANP به شمار می‌رود.
● ساختار شبکه‌ای ANP ،به محقق این امکان را می‌دهد که هر مسأله ی تصمیم گیری را بدون نگرانی از اینکه چه چیزی اول می‌آید و چه چیزی بعداً ، طراحی نماید.
● ANP یک ساختار غیر خطی است در حالیکه یک سلسله مراتب، با یک هدف در بالاترین سطح، و گزینه‌ها در سطح زیرین،ساختار خطی دارد . (ساعتی ، 1999)
2-9 گام های فرایند تحلیل شبکه
برای طراحی یک مدل شبکه‌ای ، مراحلی در نظر گرفته شده است که محقق را قادر خواهند ساخت مدل مورد نظر خود را با کمک نرم افزار طراحی نماید.اگرچه برخی از این مراحل شبیه تکنیکAHP است لکن شرح مختصر آن برای حفظ تمامیت الگو ضروری می‌باشد.
1. تعریف هدف مسأله‌ی تصمیم
2. تشخیص لزوم وجود هر یک از عناصر استراتژیک: منظور این است که محقق،عناصر استراتژیک مورد نیاز خود را برای طراحی شبکه‌ی مورد نظر تشخیص دهد. ممکن است هر چهار عنصر یا یکی از آنها انتخاب شده و یا هیچ یک از آنها مورد نیاز نباشد.
3.ایجاد سلسله مراتب کنترل برای هر یک از عناصر: هر یک از عناصر استراتژیک دارای یک زیر شبکه است که این زیر شبکه،خودش نیز می‌تواند زیر شبکه‌ی دیگری داشته باشد.لذا لازم است محقق برای هر یک از عناصر چهارگانه،زیر شبکه‌ای تعریف نماید.این زیر شبکه، می‌تواند به دو صورت طراحی شود.
شبکه‌ی تصمیم: در حالتی است که زیر شبکه‌ی مورد نظر، آخرین لایه‌ی شبکه بوده و خوشه‌ی گزینه‌ها در آن قرار داشته باشد. در این حالت کل مدل دارای دو لایه است که لایه‌ی اول با وجود عناصر استراتژیک،لایه‌ی اصلی و لایه‌ی دوم با حضور خوشه‌ی گزینه‌ها ،لایه‌ی تصمیم نامیده می‌شود.
شبکه‌ی کنترل : در حالتی است که زیر شبکه‌ی مورد نظر،آخرین لایه‌ی شبکه نبوده و خوشه‌ی گزینه‌ها(که می بایست در آخرین لایه‌ی شبکه قرارداده شود)در این لایه وجود ندارد.در این لایه،خوشه‌ها و عناصری وجود دارند که خود آنها دارای زیر شبکه می‌باشند و خوشه‌ی گزینه‌ها در آن زیر شبکه‌ها قراردارد. لایه‌هایی از شبکه‌،که واسط بین لایه‌ی اصلی و لایه‌ی تصمیم هستند،لایه‌ی کنترل نامیده می‌شوند. باید توجه داشت که یک شبکه‌ می‌تواند یک لایه‌ی اصلی،یک لایه ی تصمیم و تعداد ی لایه‌ی کنترل داشته باشد.
4. برقراری ارتباط مورد نیاز میان عناصر مورد نظر: برای پیشگیری از اشتباه،ابتدا برای هر خوشه، جدولی با سه ستون طراحی نموده و نام آن را در ستون وسط قرار می‌دهند. سپس خوشه‌های موثر را در سمت چپ،و خوشه‌های متأثر را در ستون سمت راست، در یک سطر می‌آورند. همچنین می‌توان به هریک از این جداول، سطرهایی اضافه نمود و نام عناصر مرتبط به هم را در آن‌ها قرار داد.
5. انجام مقایسه‌های زوجی میان عناصر مرتبط: مقایسات زوجی در خصوص هر یک از عناصر داخل خوشه‌ها ،بر حسب تأثیر آن بر روی هر عنصر در خوشه‌ی دیگر و یا عناصری در خوشه‌ی خودش انجام می‌گیرد. هنگام مقایسه‌ی عناصر در هر یک از زیر شبکه‌های عناصر هزینه‌ها و تهدیدات بایستی سؤال مقایسه به صورت مثبت مطرح شود به این ترتیب که، کدامیک از دو عنصر مورد مقایسه بر حسب معیار مورد نظر، دارای بیشترین هزینه یا بیشترین تهدید می‌باشند؟در این حالت عنصر پرهزینه یا تهدیدزا ارجحیت بیشتری به خود اختصاص خواهد داد.نرم افزار به گونه‌ای طراحی شده است که در سنتز نهایی خود از تقسیم(حاصل ضرب منافع و فرصت‌ها)بر(حاصل ضرب مخارج و ریسک‌ها)استفاده می‌ نماید (ساعتی ، 1999). در این حالت اعداد بزرگتر برای عناصر هزینه و ریسک مطلوبیت کمتری را در نتیجه‌ی نهایی منجر خواهد شد. همچنین ممکن است،افراد برای چهارچوب بندی سوالات،هنگام انجام مقایسه‌های زوجی،یا تأثیر عوامل و یا تأثر آنها را مدنظر قرار دهند. آقای ساعتی معتقد است که در هر مدل، باید از یک نوع سوال برای مقایسه‌های زوجی استفاده نمود.(ساعتی 2004) برای هر نمونه سه عنصرC, B, A را در نظر بگیرید که قرار است دو به دو با هم بر اساس معیارX مقایسه شوند. در مقایسه‌ی اول، سؤال می‌شود که کدامیک از عناصرB,A بیشترین تأثیر را بر معیارX دارند؟و در مقایسه‌ی دوم، سؤال می‌شود که کدامیک از عناصرA,C بیشترین تأثر را از معیارX می‌پذیرند؟به عقیده‌ی آقای ساعتی این گونه طرح سؤال در یک مدل، ممکن است بر نتایج قضاوت‌ها تأثیر منفی بگذارد لذا بهتر است در یک مدل، همواره یکی از سؤالات فوق برای مقایسه‌ی زوجی مورد استفاده قرار گیرد.
6. انجام مقایسه‌های زوجی میان خوشه‌های مؤثر بر یکدیگر: از جدول موجود در بند چهارم می‌توان انواع و تعداد مقایسه‌ها را به دست آورد.در اینجا سؤال اصلی این است که یک خوشه با توجه به عناصر خود چه تأثیری بر خوشه‌های دیگر گذاشته و یا از آنها متأثر خواهد شد.
7. محاسبه‌ی اولویت‌های محدودِ ابرماتریس تصادفی: این محاسبه توسط برنامه انجام شده و در این مرحله ابر ماتریس محدود به دست می آید.
8. ایجاد یک مدل رتبه بندی برای تعیین اولویت های عناصر: در حالت معمول، تئوریANP ارجحیت یکسانی برای هر یک از چهار عنصر استراتژیک قائل است. ولی در صورتی که محقق بخواهد ارجحیت های مختلفی برای هر یک از آنها در نظر بگیرد، بایستی یک مدل رتبه بندی و معیارهای مورد نظر خود را ایجاد و بر اساس آن، هر یک از عناصر استراتژیک را ارزیابی و رتبه بندی نماید.
9. سنتز گزینه‌ها در سطح معیارهای کنترل با استفاده از وزن هر یک از عناصر.
10. راهبری تحلیل حساسیت بر روی نتایج نهایی.
2-10 ابرماتریس
آقای ساعتی بنیاد تئوریکANP را بر اساس ابزار قدرتمندی به نام ابرماتریس،برای سیستم هایی با وابستگی متقابل و بازخورد بنیان نهاد.ابر ماتریس،ماتریس جزء بندی شده‌ای است که در آن هر زیر ماتریس از مجموعه‌ای از روابط میان دو خوشه تشکیل می‌شود(ساعتی 2004) ،ابر ماتریس یک ماتریس دو در دوی عناصر در عناصر است. لذا برای هر عنصر،یک ابر ماتریس تشکیل می‌شود که بردارهای حق تقدم که از مقایسه‌ی زوجی حاصل شده‌اند،در ستون مناسبی به عنوان زیر ستون ظاهر می‌شوند. آقای ساعتی فرمول ابرماتریس خود را به صورت زیر بیان نموده است.
سیستم تصمیم گیری موجود با ساختار غیر سلسله مراتبی را به N زیر مجموعه تقسیم نمائید. فرض کنید کهنشان دهنده‌ی تعداد عناصر زیر مجموعه‌ی و بودهبیانگر وزن عنصرKام از زیر مجموعه‌یi ام در مقایسه با عنصر اول از زیر مجموعه‌یi ام باشد،آنگاه ماتریس مقایسات از عناصر زیر گروهi ام در رابطه با عناصر موجود در زیر گروهi ام به قرار زیر است:
3143250124460رابطه 2-2
00رابطه 2-2

و سرانجام ماتریس نهایی برای مقایسات از کلیه‌ی زیر مجموعه‌ها با هر یک از اعضای زیرمجموعه‌های دیگر که به ابرماتریس معروف است،به قرار زیر خواهد بود.
3057525553720رابطه2-3
020000رابطه2-3

و در پایان ،ارجحیت نهایی برای هر عنصر از هر زیر گروه ، بر اساس فرآیند مارکوف به صورت زیر به دست می‌آید. (ساعتی ، 2004)
184785089535رابطه 2-4
020000رابطه 2-4

منطق فازی
2-11 پیشینه منطق فازی
تئوری مجموعه های فازی و منطق فازی را پرفسور لطفی زاده در رساله ای به نام مجموعه های فازی ، اطلاعات و کنترل در سال 1965 معرفی نمود. هدف اولیه او در آن زمان ، توسعه مدلی کار آمدتر برای توصیف فرآیند پردازش زبان های طبیعی بود . او مفاهیم و اصطلاحاتی همچون مجموعه های فازی ، رویدادهای فازی ، اعداد فازی و فازی سازی را وارد علوم ریاضیات و مهندسی نمود. از آن زمان تا کنون ، پرفسور لطفی زاده به دلیل معرفی نظریه بدیع و سودمند منطق فازی و تلاش هایش در این زمینه ، به کسب جوایز بین المللی متعددی شده است . پس از معرفی منطق فازی به دنیای علم، در ابتدا مقاومت های بسیاری در برابر این نظریه صورت گرفت . بخشی از این مقاومت ها، چنان که ذکر شد ، ناشی از برداشت های نادرست از منطق فازی و کارایی آن بود. جالب این که، منطق فازی در سال های نخست تولدش بیشتر در دنیای مشرق زمین، به ویژه کشور ژاپن با استقبال رو به رو شد ، اما استیلای اندیشه کلاسیک صفر و یک در کشور های مغرب زمین ، اجازه رشد اندکی به این نظریه داد. با این حال به تدریج که این علم کاربردهایی پیدا کرد و وسایل الکترونیکی و دیجیتالی جدیدی وارد بازار شدند که بر اساس منطق فازی کار می کردند، مخالفت ها نیز اندک اندک کاهش یافتند.
در ژاپن استقبال از منطق فازی ، عمدتاً به کاربرد آن در رباتیک و هوش مصنوعی مربوط می شود . موضوعی که یکی از نیروهای اصلی پیش برنده این علم طی چهل سال گذشته بوده است . در حقیقت می توان گفت بخش بزرگی از تاریخچه دانش هوش مصنوعی با تاریخچه های منطق فازی همراه و هم داستان است. (آذر ، 1387)
2-12 متغیرهای زبانی
در زبان طبیعی و استدلال انسانی اغلب از متغیرهایی استفاده می شود که مقادیر آنها نا دقیق و مبهم است مثلاً برای متغیر وزن مقادیری مثل" کم وزن"،"سنگین وزن"و"خیلی سنگین وزن"و برای متغیر درستی مقادیری مثل " کاملاً درست"،"درست"، "تقریباً درست"و" تقریباً نادرست"،" نادرست"،" کاملاً نادرست" در نظر گرفته می شود. مقادیر متغیرهای زبانی کلمات یا جملاتی هستند که در زبان طبیعی وجود دارند و به طور کلی با استفاده از قیدها می توان مقادیر آنها را شکل داد .
متغیر زبانی متغیری است که مقادیرش کلمات و جملات یک زبان طبیعی و یا مصنوعی باشد. برای مثال سن یک فرد را در نظر بگیرید اگر سن این فرد را با اعدادی مثل100...1،2،3 نشان دهیم متغیر سن یک متغیر معمولی است اما اگر مقادیری را که سن اختیار می کند با کلماتی مثل نونهالی ، نوجوانی ، خیلی جوان ، جوان ، مسن ، پیر نشان دهیم متغیر سن یک متغیرزبانی است. (پرهیزکار، 1387)
2-13 روشهای علم مدیریت فازی
روش های علم مدیریت کلاسیک برگرفته از ریاضیات قطعی و منطق دو ارزشی و چند ارزشی است که خواهان داده های دقیق و کمی هستند در این روشها داده های مبهم و بیان احساسات آدمی ) متغیرهای زبانی ( جایی در مدلسازی ندارند. که این امر نیز به نوبه خود موجب عدم انعطاف پذیری و عدم دقت در مدلهای ریاضی می شود . امروزه علم مدیریت فازی با استفاده ازتئوری سیستمهای فازی می تواند رویکردی نوین برای حل مشکل و پا سخ به ابهامات مطرح شده در سیستم های مدیریتی باشد. تئوری سیستم های فازی با به کارگیری تئوری منطق فاز و اندازه های فازی می تواند پارامترهایی از قبیل دانش، تجربه ، قضاوت و تصمیم گیری انسان را وارد مدل نموده ، و ضمن ایجاد انعطاف پذیری در مدل تصویری خاکستری از جهان خاکستری ارائه نماید. روشن است نتایج چنین مدلهایی به دلیل لحاظ کردن شرایط واقعی در مدل ، دقیق تر و کاربردی تر خواهد بود.
تئوری سیستمهای فازی بر مبنای فرآیند کلی پردازش اطلاعات در مغز عمل می کند. فرآیند کلی پردازش اطلاعات در مغز شامل مراحل زیر است :
( تصمیم → ارزیابی → قضاوت → تفکر → شناخت → بازیابی اطلاعات)
در مرحله بازیابی اطلاعات به دلیل محدود بودن ظرفیت اطلاعاتی و زمانی ذهن ، فقط اطلاعات مهم مورد بازیابی قرار می گیرد تا بتوان آنها را پردازش کرده و اهدافمان را در آنجا متمرکز کنیم . در مرحله شناخت محتوای اطلاعات بازیابی شده مورد شناسایی قرار می گیرد . سپس در مراحل تفکر و قضاوت از ترکیب و تطابق اطلاعات بازیابی شده و دانش و مهارتهایی که در ذهنمان است در ارتباط با ارائه پیشنهاد برای تصمیم گیری و حل مساله فکر می کنیم و گزینه هایی ارائه می دهیم. در مرحله ارزیابی گزینه های مختلف را بر اساس میزان تحقق اهداف )در صورت انتخاب هر یک از گزینه ها( مورد ارزیابی قرار می دهیم و در مرحله آخر رضایت بخش ترین گزینه را انتخاب کرده و تصمیم می گیریم.
با به کارگیری تئوری سیستمهای فازی روشهای علم مدیریت کلاسیک به محیط فازی گسترش می یابد و می توان از آن در سیستمهای متعدد مدیریتی از جمله تصمیم گیری ، سیاست گذاری، برنامه ریزی و مدلسازی استفاده کرد. علم مدیریت فازی در برابر موقعیتهای پویای اقتصادی و اجتماعی به طور انعطاف پذیری پاسخگو است . همچنین علم مدیریت فازی قادر است مدلهایی ایجاد کند که تقریبا همانند انسان اطلاعات کیفی را به صورت هوشمند پردازش نماید . بدین ترتیب سیستم های مدیریت انعطاف بیشتری پیدا می کنند و اداره سازمانهای بزگ و پیچیده در محیطهای متغیر، امکان پذیر می شود . به طور کلی مشخصه های علم مدیریت فازی را می توان به صورت زیر بیان کرد.
1) ضرایب و شرایط واقعی محدودیتها که به صورت شهودی توسط برنامه ریزان تعیین می گردند را می توان به آسانی و با انعطاف پذیری به وسیله توابع عضویت نشان داد و جواب این مسائل را به طرق ریاضی یافت .
2) دانش و مهارت مورد نیاز سیستمهای مدیریت را می توان به زبان طبیعی از خبرگان اخذ کرد و با استفاده از استنتاج فازی مدلها و برنامه های ر ایانه ای را به آسانی ایجاد کرد . در این موارد زبان طبیعی اغلب از صفات و قیودی مثل"خیلی" ، "کم" ،"مقداری"و"تقریباً" استفاده می کند که می توان آنها را با توابع عضویت نشان داد و در رایانه وارد کرد.
3) به جای محدود کردن جوابهای یک مساله به یک عدد می توان چند پاسخ محتمل ارائه کرد و ازآنجا که حد پایین و بالای پاسخ ها قابل اخذ است با اضافه کردن نظر خبرگان مدیران وکارشناسان می توان راه حلهای کاربردی تری ارائه نمود چرا که در بسیاری از گزینه های ارائه شده توسط روش های علم مدیریت کلاسیک به جهت محدود بودن به یک عدد اغلب مورد استفاده قرار نمی گیرد و تصمیمات اخذ شده توسط مدیران جدا از راه حل های ارائه شده می باشد.
روش های علم مدیریت فازی مطابق با سیستمهای متعدد مدیریت در نگاره2-5 نشان داده شده است.
عملیات روش
گردآوری داده و تجربه پایگاه داده فازی ، پایگاه دانش فازی
برنامه ریزی ایجاد مدل مدلهای ساختاری فازی


مدلهای رگرسیونی فازی
روش پردازش گروه داده ها به صورت فازی (GMDH)
تجزیه و تحلیل وارزیابی نظریه توصیف ویژگیهای شئء به صورت فازی
انتگرال فازی
AHP فازی
بهینه سازی وتصمیم گیری
برنامه ریزی ریاضی فازی
برنامه ریزی چند هدفی فازی
تصمیم گیری چند معیاره فازی
تصمیم گیری آماری فازی

مدیریت اداری