پیشنهاد چارچوبی جهت تشخیص علل تاثیرگذار و درصد تاثیر آنها در سود و زیان بیمه با داده کاوی
هدف از این پایاننامه پیشنهاد چارچوبی جهت تشخیص علل تاثیرگذار و درصد تاثیر آنها در سود و زیان بیمه با داده کاوی در شرکت سهامی بیمه ایران می باشد |
دسته بندی | رشته فناوری اطلاعات (IT) |
فرمت فایل | doc |
حجم فایل | 1305 کیلو بایت |
تعداد صفحات فایل | 114 |
دانلود پایاننامه كارشناسی ارشد مهندسی فناوری اطلاعات
پیشنهاد چارچوبی جهت تشخیص علل تاثیرگذار و درصد تاثیر آنها در سود و زیان بیمه با داده کاوی
(مطالعه موردی: شرکت سهامی بیمه ایران)
چکیده
بررسی اطلاعات بیمه های اتومبیل نشان داده عواملی چون نوع استفاده خودرو، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، مبلغ حق بیمه، میزان تعهدات بیمه نامه، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه، تاخیردرتمدید بیمه نامه، در سود و زیان شرکت های بیمه تاثیر داشته اند.
هدف این پایان نامه شناخت عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکت های بیمه با استفاده از روش داده کاوی و سپس انتخاب الگوریتمی که بهترین میزان دقت پیش بینی برای تشخیص این عوامل را داشته اند می باشد.نتیجه حاصل از این پژوهش نشان می دهد که روشهای داده کاوی با استفاده از الگوریتم های دسته بندی با دقت بالای 91% و الگوریتم های درخت تصمیم با دقت بالای 96% و الگوریتم های خوشه بندی با ایجاد خوشه های قابل قبول قادر به ارائه مدلی برای تشخیص عوامل اثرگذار و تعیین میزان اثر آنها در سود و زیان بیمه نامه شخص ثالث خودرو خواهند بود.
کلیدواژگان:
داده کاوی
سود و زیان
بیمه شخص ثالث خودرو
مقدمه
شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد. از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد. پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006].
عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند. بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است.
با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد. امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند. داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است.
فهرست مطالب
فصل اول: کلیات
1-1تعریف داده کاوی3
1-2تعریف بیمه4
1-3هدف پایان نامه4
1-4مراحل انجام تحقیق4
1-5ساختار پایان نامه5
فصل دوم: ادبیات موضوع و تحقیقات پیشین
2-1داده کاوی و یادگیری ماشین7
2-2ابزارها و تکنیک های داده کاوی8
2-3روشهای داده کاوی9
2-3-1روشهای توصیف داده ها10
2-3-2روشهای تجزیه و تحلیل وابستگی 10
2-3-3روشهای دسته بندی و پیشگویی10
2-3-4درخت تصمیم11
2-3-5شبکه عصبی12
2-3-6استدلال مبتنی بر حافظه12
2-3-7ماشین های بردار پشتیبانی13
2-3-8روشهای خوشه بندی 13
2-3-9روش K-Means13
2-3-10شبکه کوهنن14
2-3-11روش دو گام14
2-3-12روشهای تجزیه و تحلیل نویز14
2-4دسته های نامتعادل]صنیعی آباده 1391[.15
2-4-1راهکار مبتنی بر معیار15
2-4-2راهکار مبتنی بر نمونه برداری15
2-5پیشینه تحقیق16
2-6خلاصه فصل19
فصل سوم: شرح پژوهش
3-1انتخاب نرم افزار21
3-1-1Rapidminer21
3-1-2مقایسه RapidMiner با سایر نرم افزار های مشابه21
3-2داده ها25
3-2-1انتخاب داده25
3-2-2فیلدهای مجموعه داده صدور25
3-2-3کاهش ابعاد25
3-2-4فیلدهای مجموعه داده خسارت29
3-2-5پاکسازی داده ها29
3-2-6رسیدگی به داده های از دست رفته29
3-2-7کشف داده دور افتاده30
3-2-8انبوهش داده32
3-2-9ایجاد ویژگی دسته32
3-2-10تبدیل داده32
3-2-11انتقال داده به محیط داده کاوی32
3-2-12انواع داده تعیین شده33
3-2-13عملیات انتخاب ویژگیهای موثرتر34
3-3نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی34
3-4ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی36
3-5معیارهای ارزیابی الگوریتمهای دسته بندی37
3-6ماتریس درهم ریختگی37
3-7معیار AUC38
3-8روشهای ارزیابی الگوریتم های دسته بندی39
3-8-1روش Holdout39
3-8-2روش Random Subsampling39
3-8-3روش Cross-Validation40
3-8-4روش Bootstrap40
3-9الگوریتمهای دسته بندی41
3-9-1الگوریتم KNN42
3-9-2الگوریتم Naïve Bayes42
3-9-3الگوریتم Neural Network43
3-9-4الگوریتم SVM خطی45
3-9-5الگوریتم رگرسیون لجستیک46
3-9-6الگوریتم Meta Decision Tree47
3-9-7الگوریتم درخت Wj4849
3-9-8الگوریتم درخت Random forest51
3-10معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی)54
3-10-1الگوریتم FPgrowth55
3-10-2الگوریتم Weka Apriori55
3-11معیارهای ارزیابی الگوریتمهای خوشه بندی55
3-12الگوریتم های خوشه بندی57
3-12-1الگوریتم K-Means57
3-12-2الگوریتم Kohonen60
3-12-3الگوریتم دوگامی64
فصل چهارم: ارزیابی و نتیجه گیری
4-1مقایسه نتایج69
4-2الگوریتمهای دسته بندی69
4-3الگوریتم های دسته بندی درخت تصمیم70
4-4الگوریتم های خوشه بندی79
4-5الگوریتم های قواعد تلازمی(مبتنی بر قانون)81
4-6پیشنهادات به شرکت های بیمه81
4-7پیشنهادات جهت ادامه کار83
منابع و مأخذ
فهرست منابع فارسی84
فهرست منابع انگلیسی85
فهرست جدولها
جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی24
جدول شماره 3-2: فیلدهای اولیه داده های صدور26
جدول شماره 3-3: فیلدهای نهایی داده های صدور27
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها28
جدول 3-5: فیلدهای استخراج شده از داده های خسارت28
جدول 3-6: نتایج نمودار boxplot31
جدول 3-7: انواع داده استفاده شده33
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف37
جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted Records)38
جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth55
جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori55
جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means57
اجرا برای 9 خوشه در الگوریتم K-Means60
جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی69
جدول 4-1: مقایسه الگوریتم های دسته بند70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم70
جدول 4-3: ماتریس آشفتگی قانون شماره 171
جدول 4-4: ماتریس آشفتگی قانون شماره 272
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج73
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز76
جدول 4-12: ماتریس آشفتگی قانون شماره 476
جدول 4-13: ماتریس آشفتگی قانون شماره 577
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب78
جدول 4-16: ماتریس آشفتگی قانون شماره778
جدول 4-17: ماتریس آشفتگی قانون شماره879
جدول 4-18: مقایسه الگوریتم های خوشه بندی79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori81
فهرست شکلها
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی42
شکل 3-8: نمودار AUC الگوریتم KNN42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree49
شکل 3-17 : نمودار radial الگوریتم Meta Decision Tree49
شکل 3-18: نمودار AUC الگوریتم Wj4850
شکل 3-19 : نمودار tree الگوریتم Wj4851
شکل 3-20 : نمودار AUC الگوریتم Random forest52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest53
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه57
شکل 3-24 : Predictor Importance for K-Means58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
K-Means59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-60
شکل 3-27 : Predictor Importance for Kohonen61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
Kohonen62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen63
شکل 3-31 : Predictor Importance for دوگامی64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در
الگوریتم دوگامی65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت75