فهرست:
مقدمه. 2
1-1 توضیح مسئله. 5
1-2 راه حلها 6
1-3 مشکلات موجود در پیادهسازی الگوریتم.. 6
1-4 ساختار پایاننامه. 7
پیشینهی تحقیق.. 9
2-1 تشخیص پلاگاریسم.. 9
2-2 ابعاد تشخیص پلاگاریسم.. 12
2-2-1 روش مبتنی بر گرامر. 12
2-2-2 روشهای مبتنی بر معنا 13
2-2-3 روشهای ترکیبی.. 14
2-2-4 روش تشخیص پلاگاریسم خارجی.. 14
2-3 روشهای محاسبه میزان شباهت گرافها 15
2-3-1 روش بزرگترین زیرگراف مشترک - کوچکترین سوپرگراف مشترک... 15
2-3-2 روش مبتنی بر جستجوی فضای حالت... 17
2-3-3 روشهای احتمالی.. 18
3-1 تشخیص پلاگاریسم.. 23
3-1-1 تطبیق n گرام. 23
3-1-2 وزندهی عبارت... 23
3-1-3 تعمیم عبارت... 24
3-2 گرافهای وابستگی.. 25
3-2-1 وابستگیها 26
3-3 فاصله ویرایش گراف... 26
3-3-1 عملیات ویرایش.... 26
3-3-2 مسئلهی انتساب... 27
3-3-3 ماتریس هزینه. 28
3-3-4 الگوریتمهای انتساب... 29
4-1 معماری.. 32
4-2 پیشپردازش متن.. 32
4-2-1 پیدا کردن جملات... 33
4-2-2 ریشهیابی کلمات... 34
4-2-3 تشکیل گراف وابستگی.. 40
4-3 استخراج کاندیدا 44
4-3-1 شاخصگذاری جمله. 45
4-3-2 استخراج جملات کاندیدا 45
4-4 تحلیل جزئیات... 45
4-4-1 الگوریتم فاصله ویرایش دو گراف... 48
4-4-2 تشخیص پلاگاریسم مبتنی بر GEDارائه شده در این پروژه 49
5-1 تشخیص پلاگاریسم جابجایی کلمات و تغییر ساختار جملات... 55
5-1-1 تغییرات ساختاری 10 درصدی.. 56
5-1-2 تغییرات ساختاری 50 درصدی.. 57
5-2-2 تغییرات ساختاری 100 درصدی.. 59
5-2 تشخیص پلاگاریسم معنایی.. 60
5-2-1 تغییرات معنایی 10 درصدی.. 60
نتیجه گیری و پیشنهادات... 64
مراجع.. 67
منبع:
Fankhauser, S., K. Riesen, and H. Bunke. Speeding up graph edit distance computation through fast bipartite matching. Graph-Based Representations in Pattern Recognition, (2011)
Suchomel, S., J. Kasprzak, and M. Brandejs (2012). Three way search engine queries with multi-feature document comparison for plagiarism detection. See Forneretal. (2012).
Grman, J. and R. Ravas Improved implementation for _nding text similarities in large sets of data - notebook for PAN at clef 2011. See Petras et al. (2011).
Asim M. El Tahir Ali, Hussam M. Dahwa Abdulla, and V´aclav Sn´aˇsel Overview and Comparison of Plagiarism Detection Tools , Dateso 2011, pp. 161{172, ISBN 978-80-248-2391-1.
A. S. Bin-Habtoor and M. A. Zaher “A Survey on Plagiarism Detection Systems ”, International Journal of Computer Theory and Engineering Vol. 4, No. 2, April 2012
Sindhu.L, Bindu Baby Thomas, Sumam Mary Idicula A Study of Plagiarism Detection Tools and Technologies, IJART, Vol. 1 Issue 1, 2011,64-70.
Schleimer, S., Wilkerson, D. and Aiken, A. (2003) Winnowing: Local Algorithms for Document Fingerprinting. SIGMOD 2003, San Diego, 9-12 June 2003, 76-85.
J.A. Malcolm and P.C.R. Lane, Tackling the PAN’09 External Plagiarism Detection Corpus with a Desktop Plagiarism Detector, 3rd PANWORKS-HOP. UNCOVERING PLAGIARISM, AUTHORSHIP AND SOCIAL SOFTWARE MISUSE, 2009, p. 29.
C. Basile, G. Cristadoro, D. Benedetto, E. Caglioti, and M. Degli Es-posti, A plagiarism detection procedure in three steps: selection, matches and” squares”, 3rd pan workshop. Uncovering plagiarism, authorship and social software misuse, 2009, p. 19.
Adam Shenker Horste Bunke, Mark Last and Abraham Kandle Graph Theoretic Techniqes For Web Content Mining, Published by World Scientific Publishing, USA 2005
Ahmed Hamza Osman, Naomie Salim and Mohammed Salem Binwahlan, Plagiarism Detection Using Graph-Based Representation, Journal Of Computing, Volume 2, Issue 4, Issn 2151-9617 , April 2010.
H. Bunke, On a relation between graph edit distance and maximum common subgraph, Pattern Recognition Letters (1997)
H. Bunke and K. Shearer, A graph distance metric based on the maximal common subgraph, Pattern Recognition Letters, Vol.!19, 1998
J.!T. L. Wang, K. Zhang, and G.-W. Chirn, Algorithms for Approximate Graph Matching, Information Sciences, Vol. 82, 1995
R. C. Wilson and E. R. Hancock, Structural Matching by Discrete Relaxation, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, No. 6, June 1997
R. Myers, R. C. Wilson, and E. R. Hancock, Bayesian Graph Edit Distance, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vo .!22, No. 6, June 2000
Papineni, K., S. Roukos, T. Ward, and W. Zhu (2002). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics, pp. Association for Computational Linguistics.
Stamatatos, E.. Plagiarism detection using stopword n-grams. Journal of the American Society for Information Science and Technology(2011)
Jones, K.. A statistical interpretation of term speci_city and its application in retrieval. Journal of documentation (1972)
Marcus, M., M. Marcinkiewicz, and B. Santorini Building a large annotated corpus of english: The penn treebank. Computational linguistics(1993).
Riesen, K. and H. Bunke Approximate graph edit distance computation by means of bipartite graph matching. Image and Vision Computing (2009).
Porter, M. F. An algorithm for suffix stripping. Program, pp. 130- 137. (1980).
Megerdoomian, K .(2004). Finite-state morphological analysis of Persian. In Proceedings of the Workshop on Computational Approaches to Arabic Script-based Languages, University of Geneva, Iran.
Sheykhzadegan, J. and M. Bijankhan (2006). The Speech databases of Persian language. In Proceedings of the 2nd Workshop on Persian Language and Computing, the University of Tehran, Tehran, Iran, pp. 247-261.
Taghva, Beckley and Sadeh. A stemming algo-rithm for the Farsi language. IEEE ITCC, pp. 158 - 162. 2005.
Anvari, H. & Ahmadi Givi, H. (2006). Persian Language Grammar (2nd Ed.). Tehran: Fatemi Publication.
A. A. Sharifloo, and M. Shamsfard, “A Bottom up Approach to Persian Stemming”, Proceedings of the Third International Joint Conference on Natural Language Processing, 2008.
نرمالساز متون فارسی، سید مجید غفوری، سعید راحتی، محمدرضا پهلوان نژاد، علی عظیمی زاده، دانشگاه فردوسی مشهد، دانشگاه آزاد اسلامی مشهد