فهرست:
چکیده 1
فصل اول: کلیات... 2
1-1 مقدمه. 3
1-2 بیان مسأله. 4
1-3 اهمیت و ضرورت انجام تحقیق.. 5
1-4 ساختار پایان نامه. 6
فصل دوم: مبانی و مفاهیم پایه 7
2-1 مقدمه. 8
2-2 انواع موتورهای جستجو. 13
2-2-1 موتورهای کلید واژه ای.. 13
2-2-2 موتورهای جستجو بر اساس فهرست راهنمای موضوعی.. 13
2-2-3 موتورهای جستجوی مبتنی بر خزنده 15
2-2-3-1 تفاوت موتورهای دایرکتوری با موتورهای مبتنی بر خزنده 16
2-2-4 موتورهای جستجوی ترکیبی.. 16
2-2-5 موتورهای جستجوی متا 17
2-2-5-1 فهرستی از موتورهای جستجو. 17
2-2-5-2 جستجوی متوالی.. 17
2-2-5-3 جستجوی هم زمان. 17
2-2-6 موتورهای جستجوی هوشمند. 18
2-2-7 موتورهای جستجوگر مبتنی بر هزینه. 18
2-3 معماری موتورهای جستجو. 20
2-4 اجزای معماری موتورهای جستجو. 22
2-5 استراتژی های روزآمد سازی مخزن. 27
2-5-1 روش دسته ای یا خزنده دائمی.. 27
2-5-2 جستجوهای نسبی یا کامل.. 32
2-6 دو نمایه اصلی واحد نمایه ساز. 28
2-7 یک مثال از نحوه عملکرد موتور جستجو. 31
2-8 مراحل کار موتورهای جستجو.................................................................................................. 31
2-8-1 پیش پردازش دادها 31
2-8-2 الویت بندی نتایج.. 32
2-9 برچسب ها 33
2-9-1 برچسب های توصیفی متن.. 33
2-9-2- بر چسب alt tag. 33
2-10 فایل robots.txt 34
2-11 موقعیت و مسافت... 34
2-12 مشکلات خزنده 35
2-13 روشهای بهینه سازی موتورهای جستجو. 35
2-13-1 شاخص گذاری.. 35
2-13-2 جلوگیری از خزش و استاندارد خروج روبات ها 35
2-13-3 افزایش اهمیت... 36
2-14 الگوریتم های رتبه بندی.. 37
2-14-1 پارامتر های رتبه دهی.. 37
2-14-2 وزن دهی به کلمات... 37
2-14-3 ارزیابی کلمات کلیدی.. 37
2-14-4 پارامتر های وزن دهی.. 38
2-14-5 بازیابی تحمل پذیر. 38
2-14-6 الگوریتم کلی غلط یابی املایی در موتور های جستجو. 38
2-14-7 غلط یابی املایی.. 39
2-14-8 الگوریتم فاصله ویرایشی.. 39
2-14-9 الگوریتم مجاورت کی-گرم. 40
2-14-10 غلط یابی حساس به متن.. 40
2-14-11 مفهوم ربط.. 41
2-14-11-1 ربط از نظر کاربر. 42
2-14-11-2 ربط از نظر سیستم بازیابی.. 42
2-14-12 نظر خواهی از کاربر در رتبه بندی.. 43
2-14-13 موتورهای جستجوی اصلی.. 43
2-14-13-1 Google. 43
2-14-13-2 Excite. 44
2-14-13-3 Altavista. 44
2-14-13-4 Yahoo. 44
2-14-13-5 Fast 44
2-14-13-6 Lycos 44
2-14-14 موتورهای جستجوی خبری.. 45
2-14-15 متا کراولر. 46
2-14-16 موتورهای جستجوی منفعتی.. 48
2-14-17 موتورهای جستجوی لیست پرداخت... 49
2-14-18 موتورهای جستجوی اختصاصی.. 49
2-14-19 جستجوی پاسخ.. 50
2-14-20 موتورهای جستجوی کودکان. 51
2-14-21 موتورهای جستجوی منطقه ای.. 51
2-15 نتیجه گیری.. 52
فصل سوم: معماری خزنده وب و استراتژی های خزش... 53
3-1 مقدمه. 54
3-2 معماری خزنده های وب... 54
3-3 انتخاب صفحه. 56
3-4 اهمیت صفحه. 57
3-5 چالش های اجرای یک خزنده 57
3-5-1 انتخاب صفحات برای دانلود. 57
3-5-1 انتخاب صفحات برای دانلود. 57
3-6 پیچیدگی های فرآیند خزیدن. 58
3-6-1 استراتژی های سنجش انتخاب صفحات... 58
3-6-1-1 معیار مبتنی بر گرایشات کاربران. 58
3-6-1-2 معیار مبتنی بر شهرت صفحات... 58
3-6-1-3 معیار مبتنی بر محل قرار گرفتن صفحات... 58
3-7 چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب... 59
3-7-1 خزش و توقف.......................................................................................................... 59
3-7-2 خزش و توقف مبتنی بر مقدار آستانه........................................................................... 59
3-8 استراتژی های روزآمدسازی صفحات... 60
3-8-1 سیاست روزآمد سازی یکپارچه. 60
3-8-2 سیاست روزآمد سازی نسبی.. 60
3-9 به حداقل رساندن بار روی وب سایت های بازدید شده 60
3-10 موازی سازی روند خزنده 60
3-11 ساختار وب... 61
3-12 استراتژی های خزش... 62
3-12-1 جستجوی ناآگاهانه. 62
3-12-1-1 حرکت اول عمق.. 62
3-12-1-2 حرکت اول سطح.. 63
3-12-1-3 جستجو با هزینه یکنواخت... 65
3-12-2 جستجوی آگاهانه یا اکتشافی.. 66
3-12-2-1 حرکت بهترین-شروع. 67
3-12-2-2 جستجوی * A.. 69
3-12-3 جستجوی محلی.. 69
3-12-3-1 جستجوی تپه نوردی.. 70
3-12-3-2 جستجوی پرتو محلی.. 70
3-12-3-3 جستجوی شبیه سازی حرارت... 71
3-12-3-4 الگوریتم آستانه پذیرش... 72
3-12-3-2 جستجوی پرتو محلی.. 70
3-13 نتیجه گیری.. 73
فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق.. 74
4-1 مقدمه. 75
4-2 مرحله اول: بررسی روش اول سطح.. 75
4-3 مرحله دوم: بررسی روش اول عمق.. 80
4-4 مرحله سوم: بررسی روش ترکیبی.. 86
4-4-1 ترکیب اول: پیمایش اولین سطح به صورت BFS. 86
4-4-2 ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS. 86
4-4-3 ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS. 86
4-5 مرحله چهارم: بررسی روش بهترین-شروع. 86
4-6 مرحله پنجم: بررسی روش تپه نوردی.. 87
4-7 نتایج تجربی بدست آمده 88
4-8 تعداد صفحات دانلود شده برای هر پرس و جو. 90
4-9 نتیجه گیری.. 91
فصل پنجم: نتیجه گیری و ارائه پیشنهادات... 97
5-1 نتیجه گیری و جمع بندی نهایی.. 93
5-2 پیشنهادات و کارهای آینده 100
منابع. 101
منبع:
منابع فارسی
ارسطوپور، ش، 1385، "خزنده و ساختواره وب" ، مجله کتابداری و اطلاع رسانی، جلد 9، شماره 2، ص 15-4.
اسماعیلی، م. توکلی، هاشمی مجد، س، 1392، "خزندگان وب"، آزمایشگاه تخصصی آپا در زمینه امنیت فناوری اطلاعات و ارتباطات، شماره سند: APA_FUM_W_WEB_0111، ص 28-5.
انوری، ش، 1390، "بررسی موتورهای جستجوگر و مقایسه الگوریتم Pag Rank با الگوریتم “HITS اولین همایش سیستمهای هوشمند کامپیوتری و کاربردهای آنها. ص 7-2.
منابع لاتین
Ahmadi-Abkenari, F and Selamat, A, 2012, “An Architecture for a Focused Trend Parallel Web Crawler with the Application of Clickstream Analysis”, International Journal of Information Sciences, Elsevier, Vol. 184, pp: 266-281.
Ahmadi-Abkenari, F and Selamat, A, 2013, “Advantages of Employing LogRank Web Page Importance Metric in Domain Specific Web Search Engines”, JDCTA: International Journal of Digital Content Technology and its Applications, Vol. 7, No. 9, pp: 425-432.
Ahmadi-Abkenari, F, and Selamat, A. 2012, “LogRank: A Clickstream-based Web Page Importance Metric for Web Crawlers”, International Journal of Digital Content Technology and its Applications(JDCTA), Vol. 6, No.1, pp: 200-207.
Arasu, A, Cho, J, Garcia-Molina, H, Paepcke, A and Raghavan, S, 2001, “Searching the Web”, ACM Transactions on Internet Technology, Vol. 1, No. 1, pp: 2–43.
Baeza-Yates, R, Castillo, C, Marin, M and Rodriguez, A, 2005, “Crawling a country: Better strategies than breadth-first for Web page ordering”, In Proceedings of the 14th international conference on World Wide Web/ Industrial and Practical Experience Track, Chiba, Japan, ACM Press, pp: 864– 872.
Baeza-Yates, R, Carlos, C and Jean, F.S, 2004, “Web Dynamics, Structure, and Page Quality”, In Mark Levene and Alex Poulovassilis (editors), Web Dynamics Springer Verlag, pp: 93-109.
Brin, S and Page, L, 1998, “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, International Journal of Computer Networks, vol. 30, Issue. 1-7, pp: 107-117.
Brandman, Onn, Cho, J and Garcia-Molina,H, 2000, “Crawler Friendly Servers”, In Proceedings of the Workshop on Performance and Architecture of Web Servers (PAWS), Santa Clara, California, Vol. 28, Issue. 2, pp: 9-14.
Castillo, C, “Effective Web Crawling”,Vol. 39, No. 1, N, SIGIR Forum, ACM Press, pp.9-38.
Castillo, C, Marin, M, R, Andrea and Baeza-Yates, Ricardo, 2004, “Scheduling Algorithms for Web Crawling”, In Latin American Web Conference (Web Media/LA-WEB), pp:10-17.
Chakrabarti, s , Joshi, M.M, Punera, K. and Pennock, D.M, ٢٠٠٢, "The Structure of Broad Topics On the Web". Proceedings of the 11th World Wide Web Conference, New York: ACM
Cho, J, 2002, “Parallel Crawlers”, 11th international conference on World Wide Web, ACM Press, New York, ISBN:1-58113-449-5, pp: 124-135.
Cho, J, Garcia-M, H and Lawrence, 1998, “Efficient Crawling through URL Ordering Page”, In Proceedings of the 7th World-Wide Web Conference, pp: 161-171.
Cho, J, Garcia-Molina, H, 2000, “The Evolution of the Web and Implications for an Incremental Crawler”, 26th International Conference on Very Large Data Bases, Cairo, Egypt, pp: 200-209.
Cho, J, Garcia-Molina, H, 2003, “Estimating Frequency of Change”, In ACM International Conference on Management of Data , Vol. 9, No. 3, pp: 256-290.
Cho, J, Garcia-Molina, H, 2000, “Synchronizing a database to Improve Freshness”, In ACM International Conference on Management of Data ,USA, pp: 117–128.
Cho, J, 2001, “Crawling the web: Discovery and aintenance of large-scale web data, chapter 2, Page Selection”, (P.HD), stanford university, pp: 7-26.
Cothey, Viv, 2004, “Web-Crawling Reliability ”, Journal of the American Society for Information Science and Technology, Vol. 55, Issue. 14, pp: 1228–1238.
Coenen, S.A.M,2012, “Motion Planning for Mobile Robots- A Guide, chapter 5, search algorithms”, Eindhoven University of Technology Department of Mechanical Engineering Control Systems Technology, pp: 43-49.
Gupta, A, Singh, K. B and Singh, R. K, 2013, “Study of WEB CRAWLING Polices”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), ISSN: 2278-3075, Vol. 2, Issue. 6, pp: 65-67.
Hafri,Y and Djeraba, C, 2004, “High performance Crawling system”, In Proceedings of the 6th ACM SIGMM Int, Workshop on Multimedia Information Retrieval, pp: 299–306.
Hoffmann, J, 2000, “A heuristic for Domain Independent Planning, and its Use in an Enforced Hill-Climbing Algorithm”, 12th International Symposium on Methodologies for Intelligent Systems (ISMIS-00), Berlin, Springer, pp: 216–227.
Jensen, R.M, 2008, “Efficient AI: Uninformed Search, chapter 3”, IT University of Copenhagen, available at http://www.itu.dk/courses/IAIP/F2011/2/slides2.pdf.
Janbandhu, R, Dahiwale, p and Raghuwanshi, M.M, 2014, “Analysis of Web Crawling Algorithms”, International Journal on Recent and Innovation Trends in Computing and Communication(IJRITCC), ISSN: 2321-8169, Vol. 2 Issue. 3, pp: 488 – 492
Jiang, Q and Zhang, Y,2007, “Site Rank-Based Crawling Ordering Strategy for Search Engines”, IEEE 7th International Conference on Computer and Information Technology, Aizu-Wakamatsu, Japan, pp: 259-263.
Korf, R.E, 1985, “Depth-first iterative-deepening: An optimal admissible tree search”, Elsevier Science Publishers, Vol. 27, No. 1, pp: 97-109.
Kendall, G, 2014, “AI method: Simulated Annealin”, Training & Courses, Lecture Courses, University of Nottingham, pp: 1-8.
Khurana, D and Kumar, S, “Web Crawler: A Review”, International Journal of Computer Science & Management Studies(IJCSMS), ISSN: 2231 –5268, Vol. 12, Issue. 1, pp: 401-405.
Kumar, G, Duhan, N and Sharma, A.K. 2011, “Page Ranking Based on Number of Visits of Links of Web Page”, International Conference on Computer & Communication Technology (ICCCT), IEEE, pp: 11-14.
Liu, B, 2007, “Web Data Mining, Chapter 8, Web crawling”. ISBN: 3-540-37881-2, Springer Press, pp: 273-320.
Lam,S, 2001, “The Overview of Web Search Engines”, Department of Computer Science University of waterloo, available at https://cs.uwaterloo.ca/~tozsu/courses/cs748t/surveys/sunny.pdf.
Menczer, F and Srinivasan, P, 2004, “Topical Web Crawlers: Evaluating Adaptive Algorithms”, ACM Transactions on Internet Technology, Vol. 4, No. 4, pp: 378–419.
Menczer, F, Pant, G, Ruiz, M, and Srinivasan, P, 2001, “Evaluating topic-driven Web Crawlers”, In Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, D.H, Kraft, W.B, Croft, D. J, Harper and J.Zobel, Eds, ACM Press, New York, NY, pp: 241–249.
Markopoulou, A, Kurant M and Thiran, P, 2010, “On the bias of BFS (Breadth First Search)”, International Teletraffic Congress(ITC 22), Amsterdam, The Netherlands, pp: 1-8.
Najork, M, Wiener, J.L, 2001, “Breadth-First Search Crawling Yields High-Quality Pages”, In WWW’01, 10th International World Wide Web Conference, pp: 114-118.
Nath, R and Chopra, Khyati, 2013, “Web Crawlers: Taxonomy, Issues & Challenges”, International Journal of Advanced Research in Computer Science and Software Engineering(IJARCSSE)”, ISSN: 2277 128X , Vol. 3, Issue. 4, pp: 944-948.
Naumann, F, 2011, “ Search Engines, Chapter 3:Crawls and Feeds”, Hasso Plattner Institute, IT System Engineering, Universitate Potsdam, pp: 46-64.
Nilsson, nils.j, 2009, “Artificial Intelligence: A new synthesis, chapter 8: uniformed search”, Elsevier, pp: 129-137.
Nilsson, nils.j, 2009, “Artificial Intelligence: A new synthesis, chapter 9: Heurestic Search”, Elsevier, pp: 139-154.
Ntoulas, l, Cho, Junghoo, Olston, C, 2004, “What’s New on the Web? The Evolution of the Web from a Search Engine Perspective”, In Proceedings of the 13th International Conference on World Wide Web, New York, USA, pp: 1-12.
Olston,Ch, and Najork, M, 2010, “Web Crawling’. Foundations and Trends in Information Retrieval”, Vol. 4, No. 3, pp: 175–246.
Pant, G and Menczer, F, 2003, “Topical Crawling for Business Intelligence”, In Proc. 7th European Conference on Research and Advanced Technology for Digital Libraries (ECDL), Norway. Pp:233-244
Pant, G, Srinivasan, P and Menczer, F, 2004, “Exploration versus Exploitation in Topic driven Crawlers”, ACM Transactions on Internet Technology, Vol. V, No. N, pp:1-38.
Pant, G, Srinivasan, P and Menczer, F, 2004, “Crawling the Web”, Web Dynamics, Springer- verlog, pp: 153-178.
Pinkerton, B, 2000, “WebCrawler: Finding What People Want, Chapter 4, The Crawler” (P.HD), University of Washington, pp: 30-40.
Pinkerton, B, 2000, “Web Crawler: Finding What People Want, Chapter 3, An Overview of WebCrawler” (P.HD), University of Washington, pp: 24-29.
Pinkerton, B, 2000, “Web Crawler: Finding What People Want, Chapter 2, Background and Related Work” (P.HD), University of Washington, pp: 8-23.
Pundhir, s and Rafiq , M. Q, 2011, “Performance Evaluation of Web Crawler”, International Journal of Computer Applications® (IJCA)/ International Conference on Emerging Technology Trends (ICETT), Kollam Kerala, pp 43-46.
Reid, M and Korf, R.E, 1998, “Complexity Analysis of Admissible Heuristic Search”, American Association for Artificial Intelligence (AAAI-98), pp: 1-6.
Seymour, T, Frantsvog, D and Kumar, S, 2011, “History Of Search Engines”, International Journal of Management & Information Systems, Vol. 15, No. 4, pp: 47-58.
Stern, R, Kulberis T and Felner, A, 2010, “Using Lookaheads with Optimal Best-First Search”, Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). pp: 185-90.
Sun, Y, 2008, “A Comprehensive Study of the Regulation and Behavior of Web Crawlers” (P.HD), The Pennsylvania State University, pp: 1-18.
Tarakeswar , K., Kavitha, D, 2011, “ Search Engines:A Study”, Journal of Computer Applications (JCA), ISSN: 0974-1925, Vol. IV, Issue 1, pp: 29-33.
Tyagi, N and Sharma, S, 2012, “Weighted Page Rank Algorithm Based on Number of Visits of Links of Web Page”, International Journal of Soft Computing and Engineering (IJSCE) , ISSN. 2231-2307, Vol. 2, Issue. 3, PP: 441-446.
Xindong, W, Vipin, K and Quinlan , J.R, 2008, “Top 10 algorithms in data mining”, Journal Knowledge and Information Systems archive, Vol. 14, Issue. 1, pp: 1-37.
Yadav ,D, Sharma, A.K and Gupta, J.P, “Change Detection in Web pages”, IEEE Proceeding of 10th International Conference on IT, ISBN: 0-7695-3068-0, Rourkela (India), pp: 265-270.
Zhengh, SH, Dmitriev, P and Giles, C, 2009, “Graph based Crawler Seed Selection”, 18th international conference on World wide web, USA, ISBN: 978-1-60558-487-4, pp: 1089-1090.
Udapure, T.V, Kale, R.D and Dharmik, R.C,2014, “Study of Web Crawler and its Different Types”, IOSR Journal of Computer Engineering (IOSR-JCE), ISSN: 2278-8727, Vol. 16, Issue. 1, pp: 1-5.
Vinod, A, Mayer, A, Nissimb, K, Pinkas, B and K. Reiter, M,1999, “Onthesecurityofpay-per-click and other Web advertising schemes”, Published by Elsevier Science B.V, pp: 13-22.