فهرست:
چکیده................................................................................................................................................................1
فصل اول(کلیات)...............................................................................................................................................2
مقدمه...................................................................................................................................................3
بیان مسئله و اهمیت آن........................................................................................................................4
اهمیت و ضرورت انجام تحقیق............................................................................................................6
ساختار پایان نامه.................................................................................................................................7
فصل دوم(مبانی و مفاهیم پایه).............................................................................................................8
2-1 مقدمه.......................................................................................................................................................9
2-2 وبکاوی................................................................................................................................................10
2-3 تکامل تاریخی از وبکاوی....................................................................................................................11
2-4 مشکلات کاربران در استفاده ازوب.......................................................................................................13
2-5 شباهت ها و تفاوت های وبکاوی و داده کاوی...................................................................................14
2-6 الگوریتم های وبکاوی........................................................................................................................15
2-7 دسته بندی وبکاوی...........................................................................................................................16
2-7-1 محتوا کاوی وب.........................................................................................................................17
2-7-1-1 دیدگاه های محتوا کاوی وب............................................................................................17
2-7-1-2 دادههای محتوا کاوی وب.............................................................................................. 17
2-7-1-3 رویکردها و تکنیک های محتواکاوی وب.......................................................................18
2-7-1-4 انواع محتواکاوی وب…………………………………………………………….. 19
2-7-2 ساختارکاوی وب........................................................................................................................20
2-7-2-1 دسته های ساختار کاوی وب بر اساس نوع داده ساختاری................................................21
2-7-2-2 مدل های بازنمایی ساختار وب.........................................................................................21
2-7-2-3 کاربردهای ساختارکاوی وب........................................................................................... 23
2-7-3 کاربردکاوی وب.........................................................................................................................25
2-7-3-1 فازهای کاربرد کاوی وب.................................................................................................25
2-7-3-2 انواع دادههای کاربردکاوی................................................................................................26
2-7-3-3 کاربردهای کاربردکاوی وب..............................................................................................28
2-8 کاربردهای وبکاوی...........................................................................................................................29
2-9 چالش های وب کاوی.........................................................................................................................30
2-10 موتور جستجو...................................................................................................................................31
2- 11 تاریخچه موتورهای جستجو..............................................................................................................31
2-12 موتورهای جستجو را از لحاظ پشتیبانی های مالی و نیروی انسانی.....................................................32
2-12-1 موتورهای جستجوی آزمایشی.................................................................................................32
2-12-2 موتورهای جستجوی تجاری...................................................................................................33
2-13 معماری کلی موتورهای جستجو و کارکرد آنها.................................................................................33
2-13-1 درون کاو(خزنده )..................................................................................................................34
2-13-2 کنترل درون کاو......................................................................................................................35
2-13-3 انباره ی صفحات....................................................................................................................35
2-13-4 ماجول شاخص دهی..............................................................................................................35
2-13-5 ماجول ………....……….…….……………...………………..Collection Analysis36
2-13-6 Utility Index.....................................................................................................................36
2-13-7 موتور پرسوجو..................................................................................................................36
2-13-8 ماجول رتبه بندی..................................................................................................................37
2-14 اهمیت موتورهای جستجو...............................................................................................................37
2-15 مشکلات موتورهای جستجو در ارائه نتایج......................................................................................37
2-16 بهینه سازی موتور جستجو..............................................................................................................38
2-17 هدف SEO.....................................................................................................................................39
2-18 مزیت بهینه سازی وب سایت برای موتورهای جستجو..................................................................39
2-19 فرآیند بهینه سازی موتورهای جستجو...........................................................................................40
2-20 نتیجه گیری....................................................................................................................................41
فصل سوم(شخصی سازی موتورهای جستجو)...........................................................................................42
3-1 مقدمه...............................................................................................................................................43
3-2 علت شخصیسازی موتور جستجو..................................................................................................43
تعریف شخصیسازی.................................................................................................................44
مراحل شخصیسازی...................................................................................................................44
3-4-1 شناخت کاربر........................................................................................................................45
3-4-1-1 روشهای کمک به کاربران در جستجو در وب............................................................45
3-4-1-1-1 خوشهبندی کد آماده- وب.................................................................................45
3-4-1-1-2 شخصیسازی فهرست رتبهبندی شده- مسطح از نتایج پرسوجو......................46
3-4-1-2 راه حل های مشکل خوشهبندی کد آماده وب......…………..........………………47
3-4-1-2-1 خوشه بندی مسطح..............................................................................................47
3-4-1-2-1-1 کلمات تنها و خوشه بندی مسطح................................................................47
3-4-1-2-1-2 جملات و خوشه بندی مسطح.....................................................................47
3-4-1-2-2 خوشهبندی سلسله مراتبی....................................................................................48
3-4-1-2-2-1 کلمات تنها و خوشهبندی سلسله مراتبی..................................................48
3-4-1-2-2-2 جملات و خوشهبندی سلسله مراتبی........................................................48
3-4-1-3 معرفی اسنکت ..........................................................................................................50
3-4-1-4 شرح معماری اسنکت................................................................................................... 51
3-4-1-4-1 انتخاب جمله و رتبهبندی....................................................................................52
3-4-1-4-2 خوشه بندی سلسله مراتبی...............................................................................55
3-4-1-4-3 شخصیسازی نتایج جستجو.............................................................................57
3-4-1-5 مرور اسناد سلسله مراتب برای استخراج اطلاعات......................................................59
3-4-1-6 مرور اسناد سلسله مراتب برای انتخاب نتایج..............................................................59
3-4-1-7 اصلاح پرسوجو.........................................................................................................59
3-4-1-8 رتبهبندی شخصیسازی شده.......................................................................................61
3-4-1-9 واسطه شخصیسازی شده وب...................................................................................62
3-4-1-10 نتایج تجربی .............................................................................................................63
3-5-1-10-1 پیمایش های کاربران……..……......….…….…………………………..64
3-4-1-10-2 مجموعه داده اسنکت و شواهد حکایتی……........…..………….…………65
3-4-1-10 -3 ارزیابی اسنکت……….……………….……………………………… 66
3-4-1-10 -3 - 1 مزایای استفاده از DMOZ.... ………….......……..…………….....67
3-4-1-10 -3 -2 مزایای استفاده از شاخص محکم متن…………….………….……67
3-4-1-10 -3 -3 مزایای استفاده از موتورهای چندگانه……...………….….………..68
3-4-1-10 -3 -4 مزایای استفاده از جملات فاصله دار به عنوان برچسبهای پوشه……69
3-4-1-10 -3 -5 تعداد کدهای آماده وب موجود در پوشهها………...……….….….70
3-4-2 مدل سازی کاربر………….…………...……..……………………………………...71
3-4-2-1 مدل سازی صریح کاربر………………..……..….……………………………..71
3-4-2-2 مدل سازی ضمنی کاربر………….……………...…………….…...….……..…72
3-4-2-2-1 Caption Nemo........…...….……....……………….…………………...74
3-4-2-2 -1-1 فضاهای جستجوی شخصی……...….…………………………….75
3-4-2-2 -1-1-1 مدل شخصی بازیابی………….…...………..……..………….. 76
3-4-2-2 -1-1-2 سبک ارائه شخصی………....…………....……….……..……. 76
3-4-2-2 -1-1-3 موضوع مورد نظر شخصی……………..……….………………77
3-4-2-2 -1-2 پیاده سازی سیستم……..…..………….………………………….79
3-4-2-2 -1-2 -1 رتبهبندی..…...…………....……………………………….81
3-4-2-2 -1-2-2 طبقهبندی سلسله مراتبی صفحات وب بازیابی شده....…....……83
3-4-2-2 -1-3 مطالعه کاربر…….……..……..…………....…….……………… 86
3-4-2-2 -1-3 -1 آزمایش..….…….………......……………….…………......86
3-4-2-2 -1-3 -2 آزمایش 2……………………………………………......87
3-4-2-2 -3 شخصیسازی الگوریتم رتبهبندی صفحه….…………………..………...88
3-4-2-2 -4 الگوریتم LTIL. ………...…….…………………………….……......89
3-4-2-2 -5 روش IA. …………..….…………………………….………….......89
3-4-3 اجرای سیستم شخصیسازی………………....….…………………………….……91
3-4-3-1 روش قطعی……….………...…………………………….………………….91
3-4-3-2 روش فازی………....……….…………………………….………………….91
3-4-3-3 شخصیسازی موتورهای جستجو با استفاده از شبکه های مفهومی فازی و ابزارهای داده کاوی……………………..……………………………………………………………..91
3-4-3-3 -1 پیش زمینه……………………....…………….……….....……………….91
3-5-3-3 -2 روش پیشنهادی………………...…………….…………….….………….95
3-4-3-3 -3 ارزیابی سیستم و بررسی نتایج بهدست آمده….…..……………..…………..97
3-5 نتیجه گیری…….……….…..………....………………………….…………………… 100
فصل چهارم(مدل پیشنهادی برای شخصیسازی موتورجستجوونتایج بدست آمده از آزمایش ها).....101
4-1 مقدمه………....….………….…………………………….……………………………102
4-2 شرح آزمایشها و تجزیه مسئله. ……...………………….…………………………….…..102
4-3 نتیجه گیری………....…….….…….…………………………….……………………..154
فصل پنجم(رابط کاربری موتور جستجو)………..…………....….………………………………155
5-1 مقدمه……..…...…………….…………………………….……………………………156
5-2 رابط کاربری موتور جستجوی شخصیسازی شده PSEFiL ….………………………….....156
5-3 اهمیت موتور جستجوی شخصیسازی شده PSEFiL ………..…………………………... 159
5-4 نتیجه گیری....................................................................................................................................159
فصل ششم(نتیجه گیری) …………………………….………………….........……………….160
6-1 مقدمه………………………….…………………………….………………………….161
6-2 مروری بر فصول گذشته…………………….…..…….....…………………….………….161
6-3 موتور جستجوی پیشنهادی شخصیسازی شده PSEFiL ……….………………….……….161
6-4 نتیجه گیری……………..……….….…………………………….……………………. 164
6-5 پیشنهادات و مطالعات آتی……………..……….….…………………………….………..164
مقالات مستخرج از پایان نامه………......………......….…………………………….………….. 165
فهرست منابع………………..……….……………………………...………………………… 166
چکیده انگلیسی……..………………….………………..…………….………………....…..…172
منبع:
منابع فارسی
[1]ارزانیان، ب، مرادی دولت آبادی، پ، اخلاقیان، ف،1388، " شخصی سازی موتورهای جستجو با استفاده از شبکه های مفهومی فازی وابزارهای داده کاوی"، سومین کنفرانس داده کاوی،ص1تا6.
[2] بستان، ش، قاسم زاده، م،1392،"مروری برالگوریتم های شخصیسازی موتور جستجو با بکارگیری علایق کاربران"،موسسه آموزش عالی خاوران،ص1تا7.
[3] صنیعی آباده، م، محمودی، س، طاهر پرور، م،1391، "داده کاوی کاربردی"، انتشارات نیاز دانش، فصل اول، ص 19تا 42.
[4] کمیجانی، ا، 1381، "ساختار نمایه سازی در موتورهای کاوش وب"، پژوهشنامه پردازش و مدیریت اطلاعات، دوره ١٧، شماره ٣ و ٤، ص 44.
[5] ملکیان، ا، 1358 ،" اصول مهندسی اینترنت"، انتشارات نص، ص 482 تا 487
[6] یعقوبی، م، محمدزاده، م،1390، "مروری بر شخصیسازی نتایج موتور جستجو با روشهای هوشمند"، اولین همایش منطقه ای رویکردهای نوین در مهندسی کامپیوتر و فناوری اطلاعات، ص 1تا6.
منابع انگلیسی
[7] Ahmadi-Abkenari, F, Selamat, A, 2013, “Advantages of Employing LogRank Web Page Importance Metric in Domain Specific Web Search Engines”, JDCTA: International Journal of Digital Content Technology and its Applications,Vol. 7, No. 9, pp: 425-432.
[8] Ahmadi-Abkenari, F, Selamat, A, 2012, “An Architecture for a Focused Trend Parallel Web Crawler with the Application of Clickstream Analysis”, International Journal of Information Sciences, Elsevier, Vol. 184, pp: 266-281.
[9] Ahmadi-Abkenari, F, Selamat, A, 2012, “LogRank: A Clickstream-based Web Page Importance Metric for Web Crawlers”,JDCTA: International Journal of Digital Content Technology and its Applications,Vol. 6, No.1,pp: 200-207.
[10] Arasu, A, Cho, J, Garcia,M.H, Paepcke, A, Raghavan, S, 2001, “Searching the Web”, ACM Transactions on Internet Technology, Vol. 1, No. 1, pp: 2–43.
[11] Alhalabi, W, Kubat, M, Tapia, M, 2006,”Search Engine Personalization Tool Using Linear Vector Algorithm”, Proceedings of the 4th Saudi Technical Conference and Exhibition, pp: 336-344.
[12] Anwar, T, Abulaish, M, Alghathbar, K, 2001, ” Web content mining for alias identification: A first step towards suspect tracking”, ISI: Intelligence and Security Informatics , IEEE, pp:195 – 197.
[13] Attardi, G, Gulli, A, Sebastiani, F, 1999, ” Theseus:categorization by context”, en Proceedings of WWW8, pp:136-137.
[14] Baeza-Yates, R, Boldi, P, 2010, ”Advanced Techniques in Web Intelligence”, Studies in Computational Intelligence, Vol. 311, pp: 113-142.
[15] Bharat, K, Broder, A,1998, ” A technique for measuring the relative size and overlap of public web search engines”, In Proceedings of WWW7, pp:379-388.
[16] Broder, A, 2002,” A taxonomy of Web search”, SIGIR Forum, 36(2), pp: 3-10.
[17] Chen, H, Dumais, T, 2000, ” Bringing order to the web: automatically categorizing search results”, In SIGCHI-00, pp: 145–152.
[18] Chen, J, Chen, H, Guo J, 2010, ”Study on Method of Web Content Mining for Non-XML Documents” Information Computing and Applications Commuications in Computer and Information Science,springer, vol106, pp:236-243.
[19] Chirita, P. A, Olmedilla, D, Nejdl, W, 2004 , ” PROS: A personalized ranking platform for web search”, In: 3rd International Conference Adaptive Hypermedia and Adaptive Web-Based Systems ... Science, Eindhoven, The Netherlands, Springer , pp: 34–43.
[20] Di, D, Tian, L, Yan, B, Liyuan, W, Yanhui, L, 2010,” Study on SEO monitoring Based keywords & linls, Computer Science and Information Technology (ICCSIT), IEEE, vol.5, pp:450-453.
[21] Ferragina, P, Gullì, A, 2005, ”A Personalized Search Engine Based on Web Snippet Hierarchical Clustering”, Proceedings of the World Wide Web Conference ,WWW, The Tokio, The Japan, pp:801-810.
[22] Giannotti, F, Nanni, M, Pedreschi, D, 2003, ” Webcat:Automatic categorization of web search results”, In SEBD03, PP:507-518.
[23] Grabmeier, J, Rudolph, A, 2002, ” Techniques of cluster algorithms in data mining”, In Data Mining and Knowledge Discovery, volume 6(4), pp: 303–360.
[24]Gravano, L, Chang, K, Garcia, H, Molina, Paepcke, A, 1997, “STARTS: Stanford Proposal for Internet Meta-searching”, Proc. ACM SIGMOD Conference, PP:207-218.
[25]Guandong, Xu, Zhang, Y, Li, L, 2011, “Web Mining and Social Networking”, Web Information Systems Engineering and Internet Technologies, Book Series, Vol.6, pp: 71-87.
[26] Halkidi, M, Batistakis, Y, Vazirgiannis, M,2001,” On clustering validation techniques”, In JIIS, Vol. 17, pp:107-145.
[27] Hang, X, Liu, J.N.K, Ren, Y, Dai, H, 2005, ” An Incremental FP-Growth Web Content Mining and Its Application in Preference Identification”, Knowledge-Based Intelligent Information and Engineering Systems
Lecture Notes in Computer Science, springer, vol.3683, pp:121-127.
[28] Haveliwala, T, 2002, ” Topic-sensitive pagerank”, In WWW12, pp:271–279.
[28] Hearst, M. A, Pedersen, J. O, 1996, ” Reexamining the cluster hypothesis: Scatter/gather on retrieval results”, in Proceedings of the ... SIGIR Conference on Research and Development in Information Retrieval, pp 76-84.
[29] Husin, H.S, Thom, J.A, Zhang, X, 2013, “News Recommendation Based on Web Usage and Web Content Mining”, Data Engineering Workshops (ICDEW), IEEE 29th, pp: 326 – 329
[30]Jeh, G, Widom, J, 2003, ” Scaling personalized Web search”, In WWW13, pp: 271-279.
[31] Jiang, Z, Joshi, A, Krishnapuram , R, Yi L,2005, ” Retriever:Improving web search engine results using clustering”, In Managing Business with Electronic Commerce 02, pp: 106–113.
[32] Johnson, F, Kumar, S, 2013, ”Web Content Mining Using Genetic Algorithm”, Advances in Computing, Communication and Control Communications in Computer and Information Science, Springer, vol.361, pp: 82-93.
[33] Kim, K.J, Cho, S.B, 2005, ” Personalized mining of web documents using link structures and fuzzy concept networks”, Elsevier, Applied Soft Computing 7 , pp: 398–410.
[34] Kleinberg, J,1999, ”Authoritative sources in a hyperlinked Environment”, In JASM, pp: 604–632.
[35] Kummamuru, K, Lotlikar, R, Roy, S, Singal, K, Krishnapuram , R, 2004, ”A hierarchical monothetic document clustering algorithm for summarization and browsing search results”, In WWW13, pp:9-10.
[36] Lam, S, 2001, “The Overview of Web Search Engines”, Department of Computer Science University of waterloo, available at https://cs.uwaterloo.ca/~tozsu/courses/cs748t/surveys/sunny.pdf, PP:1-23.
[37] Lawrie D. J ,Croft W. B, 2003, “Generating Hierarchical. Summaries for Web Searches”, In Proceedings of the 26th international ACM SIGIR Conference , pp:457-458.
[38] Li-Hsing, H, Jui-Chen, H, Meng-Huang, L, Hui-Yi, H,2010,” The application of search engine optimization for internet marketing: An example of the motel websites “, Computer and Automation Engineering (ICCAE),IEEE, VOL.1,PP:380-383.
[39] Liu, B, Mobasher, B, Nasraoui, O, 2011, ”Web Data Mining Data-Centric Systems and Applications”, pp: 527-603.
[40] Maarek, Y. S, Fagin, R, Ben-Shaul, I. Z, Pelleg, D, 2000, ”Ephemeral document clustering for web Applications, Technical Report RJ 10186, IBM Research, pp:83-101 .
[41] Markov, Larose, 2007, “Data Mining The Web”, Wiley Publication, Chapter 6,7,8, pp:143-188.
[42] Meila, M, 2002, ” Comparing clusterings”, In Technical Report 418, University of Washington, pp:2566–2572.
[43] Mostafa, J, 2005, ”Seeking better web searches”,Scientific American, February, Vol. 292 (1), pp: 27.
[44] Nyein, S.S ,2011, ”Mining contents in Web page using cosine similarity”, Computer Research and Development (ICCRD), IEEE, VOL.2, pp: 472 – 475.
[45] Osinski, S, Weiss, D, 2004, ” Conceptual clustering using lingo algorithm: Evaluation on open directory project data”, in Soft Computing, ... IIS: IIPWM'04 Conference, Zakopane, Poland, pp: 369-378.
[46] Pol, K , Airoli, Patil, N, Patankar, S , Das, C,2008, ” A Survey on Web Content Mining and Extraction of Structured and Semistructured Data”, Emerging Trends in Engineering and Technology(ICETET), IEEE, pp: 543 – 546.
[47] Prakash, K.B, Rangaswamy, M.A.D, Raman, A.R, 2010, ” Text studies towards multi-lingual content mining for web communication”, TISC:Trendz in Information Sciences & Computing , IEEE, pp: 28 – 31.
[48] Salton, G, McGill, M,1983, ”Introduction to Modern Information Retrieval”, McGraw Hill, pp: 329-354.
[49] Seymour, T, Frantsvog, D ,Kumar S, 2011, “History Of Search Engines”, International Journal of Management & Information Systems, Vol. 15, No. 4, pp: 47-58.
[50] Sharma, K, Shrivastava, G, Kumar, V, 2011, “ Web Mining: Today and Tomorrow”, 3rd International Conference of Electronics Computer Technology (ICECT), Vol.1, pp: 399 – 403.
[51] Song, H.B, Cho, M.T, Kim, Y.C, Hong, S.J, 2011, ”Web Contents Mining System for Real-Time Monitoring of Opinion Information”, Communication and Networking Communications in Computer and Information Science.springer, vol266, pp: 43-56.
[52] Souldatos, S, Dalamagas, T , Sellis, T,2006, “Captain Nemo: A Meta-Search Enginewith Personalized Hierarchical Search Space”, INFORMATICA, LJUBLJANA, vol. 30, pp:173-182.
[53] Srikantaiah, K.C, Suraj M, Venugopal, K.R, Iyengar S.S, Patnaik, L. M, 2012,
” Similarity Based Web Data Extraction and Integration System for Web Content Mining”, Advances in Communication, Network, and Computing Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering.springer, vol.108, pp:269-274.
[54] Srivastava, J, Cooley, R, Deshpande, M, Tan, P.N, 2000,” Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data”, SIGKDD Explorations, vol. I, no. 2, pp: 12-23.
[55] Tarakeswar, K , Kavitha, D, 2011, “ Search Engines:A Study”,JCA:Journal of Computer Applications, ISSN: 0974-1925, Vol. IV, Issue 1, pp: 29-33.
[56] Teevan, J, Dumais, S.T , Horvitz, E, 2005, “Personalizing Search via Automated Analysis of Interests and Activities”, Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval , SIGIR 05, ACM Press, pp:449-456.
[57] Wang, Y, Kitsuregawa, M,2002, ” On combining link and contents information for web page clustering”, In DEXA02, pp:902-913.
[58] Wu, X, Zhu, X, Wu,G.Q , Ding, W,2013, “Data mining with big data”, Knowledge and Data Engineering, IEEE Transactions on , VoL.26, pp:97-107.
[59] Wu, Y, Chen, X, 2003, ” Extracting features from web search returned hits for hierarchical classification”, In IKE03, PP: 67-241.
[60] Xu, G, Zhang, Y, Li L,2011, ” Web Content Mining. Web Mining and Social Networking” , Web Information Systems Engineering and Internet Technologies Book Series, vol.6, pp: 71-87.
[61] Yu, et al, 2012, “Application of Closed Gap-Constrained Sequential Pattern Mining in Web Log Data”, Advances in Control and Communication, Vol. 137, Springer Berlin Heidelberg, pp: 649-656.
[62] Zamir, O, Etzioni, O, 1999, ” Grouper: a dynamic clustering interface to Web search results”, In WWW8, pp:1361–1374 .
[63] Zhang, D, Du, H, He, Y, 2013, ” A Design of Association Rule Mining System Based on the Web Text”, Proceedings of the Sixth International Conference on Management Science and Engineering Management Lecture Notes in Electrical Engineering, vol.185, pp: 237-244.
[64] Zhang, H, Ma, Y, Zhang,Q, Xie, P, Bao,Z ,2009.”Personalized Intelligent Search Engine Based on Web Data Mining”, International Workshop on Information Security and Application (IWISA), ISBN 978-952-5726-06-0,PP:1-2.
[65]Glover, E.G, Lawrence, s, Birmingham, w.p, Giles,1999,”Architecture of a metasearch engine that supports user information needs”, Proceeding of the eight international conference on Information Knowledge management,Kansas City, MO,USA,PP:210-216.