فهرست:
فصل اول: مقدمه
1-1 تعریف داده کاوی.. 3
1-2 تعریف بیمه. 4
1-3 هدف پایان نامه. 4
1-4 مراحل انجام تحقیق.. 4
1-5 ساختار پایان نامه. 5
فصل دوم: ادبیات موضوع و تحقیقات پیشین
2-1 داده کاوی و یادگیری ماشین.. 7
2-2 ابزارها و تکنیک های داده کاوی.. 8
2-3 روشهای داده کاوی.. 9
2-3-1 روشهای توصیف داده ها 10
2-3-2 روشهای تجزیه و تحلیل وابستگی 10
2-3-3 روشهای دسته بندی و پیشگویی.. 10
2-3-4 درخت تصمیم. 11
2-3-5 شبکه عصبی.. 12
2-3-6 استدلال مبتنی بر حافظه. 12
2-3-7 ماشین های بردار پشتیبانی.. 13
2-3-8 روشهای خوشه بندی 13
2-3-9 روش K-Means 13
2-3-10 شبکه کوهنن.. 14
2-3-11 روش دو گام. 14
2-3-12 روشهای تجزیه و تحلیل نویز. 14
2-4 دسته های نامتعادل]صنیعی آباده 1391[. 15
2-4-1 راهکار مبتنی بر معیار 15
2-4-2 راهکار مبتنی بر نمونه برداری.. 15
2-5 پیشینه تحقیق.. 16
2-6 خلاصه فصل. 19
فصل سوم: شرح پژوهش
3-1 انتخاب نرم افزار 21
3-1-1 Rapidminer 21
3-1-2 مقایسه RapidMiner با سایر نرم افزار های مشابه. 21
3-2 داده ها 25
3-2-1 انتخاب داده 25
3-2-2 فیلدهای مجموعه داده صدور 25
3-2-3 کاهش ابعاد. 25
3-2-4 فیلدهای مجموعه داده خسارت.. 29
3-2-5 پاکسازی داده ها 29
3-2-6 رسیدگی به داده های از دست رفته. 29
3-2-7 کشف داده دور افتاده 30
3-2-8 انبوهش داده 32
3-2-9 ایجاد ویژگی دسته. 32
3-2-10 تبدیل داده 32
3-2-11 انتقال داده به محیط داده کاوی.. 32
3-2-12 انواع داده تعیین شده 33
3-2-13 عملیات انتخاب ویژگیهای موثرتر. 34
3-3 نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی.. 34
3-4 ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی.. 36
3-5 معیارهای ارزیابی الگوریتمهای دسته بندی.. 37
3-6 ماتریس درهم ریختگی.. 37
3-7 معیار AUC. 38
3-8 روشهای ارزیابی الگوریتم های دسته بندی.. 39
3-8-1 روش Holdout 39
3-8-2 روش Random Subsampling. 39
3-8-3 روش Cross-Validation. 40
3-8-4 روش Bootstrap. 40
3-9 الگوریتمهای دسته بندی.. 41
3-9-1 الگوریتم KNN.. 42
3-9-2 الگوریتم Naïve Bayes 42
3-9-3 الگوریتم Neural Network. 43
3-9-4 الگوریتم SVM خطی.. 45
3-9-5 الگوریتم رگرسیون لجستیک.. 46
3-9-6 الگوریتم Meta Decision Tree. 47
3-9-7 الگوریتم درخت Wj48. 49
3-9-8 الگوریتم درخت Random forest 51
3-10 معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی) 54
3-10-1 الگوریتم FPgrowth. 55
3-10-2 الگوریتم Weka Apriori 55
3-11 معیارهای ارزیابی الگوریتمهای خوشه بندی.. 55
3-12 الگوریتم های خوشه بندی.. 57
3-12-1 الگوریتم K-Means 57
3-12-2 الگوریتم Kohonen. 60
3-12-3 الگوریتم دوگامی.. 64
فصل چهارم: ارزیابی و نتیجه گیری
4-1 مقایسه نتایج. 69
4-2 الگوریتمهای دسته بندی.. 69
4-3 الگوریتم های دسته بندی درخت تصمیم. 70
4-4 الگوریتم های خوشه بندی.. 79
4-5 الگوریتم های قواعد تلازمی(مبتنی بر قانون) 81
4-6 پیشنهادات به شرکت های بیمه. 81
4-7 پیشنهادات جهت ادامه کار 83
منابع و مأخذ
فهرست منابع فارسی.. 84
فهرست منابع انگلیسی.. 85
منبع:
منابع فارسی
]ایزدپرست1389[ سید محمود ایزدپرست، (1389)، "ارائه چارچوبی برای پیش بینی خسارت مشتریان بیمه بدنه اتومبیل با استفاده از راهکار داده کاوی" ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
]رستخیز پایدار 1389[ ندا رستخیز پایدار، (1389)، "بخش بندی مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) "، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
]صنیعی آباده 1391[ صنیعی آباده محمد، (1391)، "داده کاوی کاربردی"، چاپ اول، نشرنیازدانش، تهران-ایران
]عنبری 1389[ الهام عنبری، (1389)، "طبقه بندی ریسک بیمه گذاران در رشته بیمه بدنه اتومبیل با استفاده از داده کاوی"، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
] فولادی نیا و همکاران 1392 [ فولادی نیا بابک، کرمی زاده فرامرز، دستغیبی فرد غلامحسین، سامی اشکان، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، هفتمین کنفرانس داده کاوی ایران، 19 و 20 آذر، تهران
]فولادی نیا 1392[ فولادی نیا بابک، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، پابان نامه کارشناسی ارشد، دانشکده آموزشهای الکترونیکی، دانشگاه شیراز
]مورکی علیآباد1390[ سمانه مورکی علیآباد ، (1390)، "طبقهبندی مشتریان صنعت بیمه با هدف شناسایی مشتریان بالقوه با استفاده از تکنیکهای دادهکاوی (مورد مطالعه: بیمهگذاران بیمه آتشسوزی شرکت بیمه کارآفرین "( ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir"
منابع انگلیسی
[Allahyari Soeini et. al 2012] Allahyari Soeini R and Vahidy Rodpysh K (2012), “Applying Data Mining to Insurance Customer Churn Management”, “Third International Conference, ICICA 2012, Chengde, China, September 14-16, 2012. Proceedings, Part I (Communications in Computer and Information Science)
[Alpaydin 2010] Alpaydin E. (2010), “Introduction to Machine Learning”, The MIT Press Cambridge, Massachusetts London, England.
[Bolton & Hand 2002] Bolton R. J. & Hand D. J. (2002), “Statistical fraud detection: a review”, Statistical Science, vol. 17, no. 3, pp. 235–55.
[Brockett et. al 1998]Brockett P. L. Xia X. & Derrig R. A. (1998), “Using kohonen”s selforganizing feature map to uncover automobile bodily injury claims fraud”, The J. of Risk and Insurance, Vol. 65, No. 2, pp. 245-74.
[Derrig et. al 2006] Derrig, R. , Johnston, D. & Sprinkel, E. (2006), “Auto Insurance Fraud: Measurements and Efforts to Combat It”, Risk Management and Insurance Review, Vol 9(2), pp.109 – 130.
[Derrig & Ostazewski 1995] Derrig R. A. & Ostazewski K. M. (1995), “Fuzzy techniques of pattern recognition in risk and claim classification”, The J. of Risk and Insurance, Vol. 62, No. 3, pp. 447-82.
[Gupta 2006] Gupta, G. K. (2006), ” Introduction to Data Mining with case studies”. Prentice Hall of India, New Delhi.
[Han and Kamber 2001] Han J. and Kamber K, Data Mining: Concepts and Techniques, San Francisco, Morgan Kaufmann Publishers, 2001.
[Jiawei Han, 2010] Jiawei Han, Micheline Kamber, and Jian Pei(2010), ”Data Mining, Concepts and Techniques”, 3rd ed, University of Illinois at Urbana-Champaign &
Simon Fraser University.
[Koh & Geravis 2010] Koh H. C. and Geravis G. (2010), ”Fraud Detection Using Data Mining Techniques:Applications In The Motor Insurance Industry”, Journal of Proceedings of Business And Information, Volume 7, No 1, pp. 49.
[Kumar and Verna 2012] Kumar R. AND Verma R. (2012), “ Classification Algorithms for Data Mining: A Survey, International Journal of Innovations in Engineering and Technology (IJIET), Vol. 1, Issue 2, August 2012.
[Lin & Yeh 2012]Lin Kuo-Chung and Yeh Ching-Long (2012), “Use of Data Mining Techniques to Detect Medical Fraud in Health Insurance”, International Journal of Engineering and Technology Innovation, vol. 2, no. 2, pp. 42-53.
[Liu et. al 2012 ]Liu Jenn-Long, Chen Chien-Liang and Yang Hsing-Hui (2012), “Efficient Evolutionary Data Mining Algorithms Applied to the Insurance Fraud Prediction”, International Journal of Machine Learning and Computing, Vol. 2, No. 3, pp. 308-314.
[Osmar 1999] Osmar, R. Zaïane (1999), “Principles of Knowledge Discovery in Databases”, University of Alberta.
[Patil et. al 2012 ] Patil S. P. , Patil U. M. and Borse S. (2012), “ The novel approach for improving apriori algorithm for mining association rule”, World Journal of Science and Technology 2012, 2(3):75-78, Proceedings of “National Conference on Emerging Trends in Computer Technology (NCETCT-2012), Held at R. C. Patel Institute of Technology, Shirpur, Dist. Dhule, Maharashtra, India.
[Phua et. al 2004]Phua C. , Alahakoon D. & Lee V. (2004), “Minority report in fraud detection: classification of skewed data”, Sigkdd Explorations, vol. 6, no. 1, pp. 50-9.
[Pradhan et. al 2011 ] Pradhan R. , Pathak K. K. and Singh V. P. (2011), “ Application of Neural Network in Prediction of Financial Viability”, International Journal of Soft Computing and Engineering (IJSCE), ISSN: 2231-2307, Volume-1, Issue-2, May 2011.
[Ramamohan et. al 2012 ] Ramamohan Y. , Vasantharao K. , Chakravarti C. K. , Ratnam A. S. K (2012), “ A Study of Data Mining Tools in Knowledge Discovery Process”, International Journal of Soft Computing and Engineering (IJSCE), Volume-2, Issue-3, July 2012.
[Ristianini and Shawe 2000] Ristianini N, Shawe-Taylor J. “An introduction to support vector machines and other kernel-based learning methods”, Cambridge, UK:Cambridge University Press; 2000.
[Sirikulvadhana 2002] Sirikulvadhana, Supatcharee (2002), “Data Mining as a Financial Auditing Tool”, M. Sc. Thesis in Accounting Swedish School of Economics and Business Administration.
[Tan et al 2006] Pang-Ning Tan, Michael Steinbach and Vipin Kumar, “Introduction to Data Mining”, Addison Wesley, 2006.
[Wilson 2003] Wilson, H. J (2003), “An analytical approach to detecting insurance fraud using logistic regression”, Journal of Finance and Accountancy, Vol. 1, pp. 1-15.
[Wilson and Martinez 1997] Wilson D. Randall and Martinez Tony R “Improved Heterogeneous Distance Functions”, Journal of Artificial Intelligence Research, Volume 6, pages 1-34.
[Xindong et al 2007] XindongWu , Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J, McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2007) . “Top 10 Algorithms in data mining”, Survey paper. Springer–Verlag London Limited.