پايان نامه چارچوبي جديد براي تشخيصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسي

تحقیق و پروژه و پایان نامه و مقاله دانشجویی

پايان نامه چارچوبي جديد براي تشخيصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسي یکی از پایان نامه و تحقیق های جامع و کامل و دارای منابع معتبر می باشد این پایان نامه دارای 141 صفحه به صورت فایل ورد و قابل ویرایش می باشد که جهت دریافت و دانلود متن کامل پايان نامه چارچوبي جديد براي تشخيصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسي بر روی گزینه خرید انتهای ایمیل کلیک نمائید پس از وارد نمودن اطلاعات مربوطه و پرداخت قادر به دانلود متن کامل پایان نامه مربوطه می باشد همچنین لینک پایان نامه همان لحظه به ایمیل شما ارسال می گردد.

فهرست مطالب

فصل ۱: آشنایی با تشخیص مرجع مشترک۱
1-۱. مقدمه و بیان مسئله 1
1-2. بررسی ارتباطات هم‏مرجعی 6
1-2-1. هم‏مرجع در مقابل پیشایند 9
1-۲-1-۱. ارتباط هم‏مرجع. ۱0
1-۲-1-2. ارتباط پیشایندی 11
1-۲-۲. تحلیل پیشایند 16
1-۲-۳. تحلیل مرجع مشترک 16
1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی ۱7
1-3.جمع‏بندی 20
فصل 2 : بخش اول 21
2-1-۱. پیشینه تشخیص مرجع مشترک 21
2-1-۲. روش‏های زبان‏شناسی 22
2-1-۲-1. فاکتورهای حذف کننده 23
2-1-۳-۲-۱. تطبیق جنس و عدد 23
2-1-۳-۲-۱. تطبیق معنایی 24
2-1-۲-۲. فاکتورهای امتیاز دهنده 24
2-1-۳-۲-۱. مشابهت نحوی 24
2-1-۳-۲-۱. مشابهت معنایی 25
2-1-۳-۲-۱. بارز بودن 25
2-1-۳. روش‏های یادگیری ماشین 27
2-1-۳-۱. ویژگی‏ها 28
2-1-۳-۲. مدل‏های جفت اشاره 28
2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی 32
2-1-۳-۲-۱-1. درخت تصمیم 33
2-1-۳-۲-۲.افراز 35
2-1-۳-۲-۲-۱.درختِ بل 36
2-1-۳-۲-۲-۲. افراز گراف 38
2-1-۳-۳. روش‏های مبتنی بر پیکره 40
2-1-۳-۴. روش‏های جایگزین 44
2-1-۳-۴-۱. روش هم‏آموزی 44
2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول 46
2-1-۳-۴-۳. رتبه‏بندی 47
2-1-۳-۴-۴. فیلدهای تصادفی شرطی 49
2-1-۳-۴-۵. خوشه‏بندی 51
2-1-۴. جمع‏بندی 56
فصل 2: بخش دوم 57
2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع 58
2-2-۲. پیکره بیژن‏خان 59
2-2-۳. پیکره لوتوس 60
2-2-۴.شیوه‏های نشانه‏گذاری پیکره لوتوس 62
2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها 62
2-2-۴-۱-۱. موجودیت شخص 64
2-2-۴-۱-۲. موجودیت سازمان 64
2-2-۴-۱-۳. موجودیت مکان 66
2-2-۴-۱-۴. موجودیت سیاسی 66
2-2-۴-۲.کلاس هر موجودیت 68
2-2-۴-۲-۱.غیر ارجاعی 69
2-2-۴-۲-۲.ارجاعی 69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی 69
2-2-۴-۲-۲-۲.ارجاعی خاص 70
2-2-۴-۲-۲-۳.ارجاعی عمومی 70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده 70
2-2-۴-۳.انواع اشاره/سطوح اشاره 71
2-2-۴-۳-۱.اشاره ساده 72
2-2-۴-۳-۱-۱.محدوده اشاره 72
2-2-۴-۳-۱-۲. هسته اشاره 72
2-2-۴-۳-۱-۳.انواع اشاره ساده 72
2-2-۴-۳-۲.ساختارهای پیچیده 74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل 75
2-2-۵.جمع‏بندی 75
فصل 3: الگوریتم¬های پیشنهادی 76
3-۱. رده بندی دودویی 76
3-1-1.جدا کننده‏های خطی 77
3-1-1-1 پرسپترون 78
3-1-1-2 ماشین بردار پشتیبان 80
3-1-1-3 درخت تصمیم 85
3-۲.خوشه‏بندی 88
3-2-1 .الگوریتم‏های افراز بسته‏ای 89
3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا 90
3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی 93
3-3.جمع‏بندی 96
فصل 4: سیستم ارزیابی 97
4-۱.مقدمه 97
4-۲.سیستم شناسایی اشاره لوتوس 98
4-2-1 .بانک اطلاعاتی 98
4-2-2.سیستم شناسایی اشاره 102
4-3.تشخیص اشاره‏های هم مرجع 103
4-3-1 ویژگی‏ها 104
4-3-2.الگوریتم یادگیری 105
4-3-3.معیار ارزیابی 107
4-3-4.نتیجه ارزیابی 110
4-3-4-1.نتایج بدست آمده 110
4-3-4-.2چالش‏ها و تحلیل خطا 112
4-4.جمع‏بندی 115
فصل 5 :نتیجه گیری و پیشنهادها 116
5-۱.نتیجه‏گیری 116
5-2.پیشنهادها 118
فصل .6 منابع 121

 فهرست منابع:

    الف) منابع فارسی

1.       قادریان میثم،” بهبود مدل کاربر در وبسایت بصورت خودکار با استفاده از معنا شناسی با مفاهیم خاص دامنه”، پایان‏نامه کارشناسی ارشد، 1387.
2.       شهرابی جمال، شجاعی علی، “داده کاوی پیشرفته: مفاهیم و الگوریتم ها”، تهران، جهاد دانشگاهی، 1388

    ب) منابع انگليسی

3.      A. Blum and T. Mitchell, “combining labeled and unlabeled data with containing”, Proceedings of COLT, 1998, pages 92–100.
4.      A. Culotta, M.Wick,. and A. McCallum, “First-Order Probabilistic Models for Coreference Resolution”, Proceedings of NAACL HLT 2007, pages 81–88.
5.      A. Haghighi and D. Klein,“Unsupervised coreference resolution in a nonparametric bayesian model.” In Proceedings of the Association for ComputaDItional Linguistics, 2007.
6.      A. Haghighi, D. Klein, “An Entity –Level Approach To IE “.
7.      A. McCallum and B.Wellner,“Conditional models of identity uncertainty with application to proper noun Coreference”, proceedings of Neural Information Processing Systems 2004, (NIPS).
8.      ACE (Automatic Content Extraction), “English Annotation Guidelines for Entities”, Version 6.06 2008.06.13.
9.      ACE (Automatic Content Extraction),“Arabic Annotation Guidelines for Entities Version 6.0 2006.06.15”.
10.  B. Grosz, A. Joshi,. and S. Weinstein,“providing a unified account of definite noun phrases in discourse”, Proceedings of ACL ’83 1983,, pages 44-50.
11.  B. H. Partee, “Opacity, coreference, and pronouns”. In D. Davidson and G. Harman,eds., Semantics for Natural Language, pages 415–441. Dordrecht, Holland: D.Reidel. 1972.
12.  Bansal, M and Klein,D , “Coreference Semantics From Web Features”, Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 389–398,Jeju, Republic of Korea, 8-14 July 2012.
13.  C.Aone and S.W.Bennett, “Applying Machin Learning to Anaphora Resolution”.
14.  C.Aone and S.W.Bennett, “Evaluating automated and manual acquisition of anaphora resolution strategies”. In Proceedings of the 33rd Annual Meeting of the Association for  omputational Linguistics, Cambridge, Mass., 26–30 June, pages 122–129,1995.
15.  C.Cardie and K. Wagstaff, “Noun phrase Coreference as clustering”, Proceedings of the 1999 joint SIGDAT Conference on Empirical Methods
16.  C. jie, M. strobe , “evaluation metric for end to end Coreference resolution systems”, 2010.
17.  C. Muller, S. Rapp, and M. Strube,“Applying co-training to reference resolution”, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL) 2001,pages 352–359.
18.  C. Nicolae and G. Nicola, BESTCUT, “A Graph Algorithm for Coreference Resolution”, Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, pages 275–283.
19.  C. Sidner,”Towards a Computational Theory of Definite Anaphora Comprehension in English Discourse“, PhD thesis, Massachusetts Institute of Technology, 1979.
20.  Cai J , Mujdricza-Maydt E  and Strube M , “Unrestrited Coreference Resolution via Global HyperGraph Partitioning”, Proceedings of the 15th Conference on Computational Natural Language Learning, Shared Task, pages 56–60, Portland, Oregon, 23-24 June 2011.
21.  D.P. Bertsekas,A. Nedec and A.E.O. Daglar,”convex analysis and optimization”, Athena,SCI entific,2003
22.  Chen, Weipeng , Zhang, M , Qin, B ,” Coreference Resolution System using Maximum Entropy Classifier”, Proceedings of the 15th Conference on Computational Natural Language Learning: Shared Task, pages 127–130,Portland, Oregon, 23-24 June 2011.
23.  Ch. Raymond, W. Wang, “Named Entity Recognition Using Hybrid Machine Learning Approach“, Proceeding for the 5th conference on Cognitive Information (ICCI’106), 2006.
24.  Chinchor, Nancy A. “Overview of MUC-7/MET-2”. In Proceedings of the Seventh Message Understanding Conference (MUC-7). 894.02/related projects/muc/ proceedings/muc 7 toc.html, 1998.
25.  D. Bean, and E. Riloff, “Unsupervised learning of contextual role knowledge for Coreference resolution”, Proceedings of HLT-NAACL,2004, pages 297–304.
26.  D. Hal and D. Marcu,” A large-scale exploration of effective global features for a joint entity detection and tracking model”. In Proceedings of the Human Language Technology Conference and the 2005 Conference on Empirical Methods in Natural Language Processing, Vancouver, B.C., Canada, 6–8 October, pages 97– 104.
27.  D. Jurafsky , Ch. Manning, “Natural Language Processing“, Stanford university free course, spring 2012,  Web,https,//class.coursera.org/nlp/wiki/view?page=lectureslides OR http,//spark-public.s3.amazonaws.com/nlp/slides/intro.pdf.
28.  D. Zelenko, C. Aone and A.Richardella, “Kernel methods for relation extraction”, Journal of Machine Learning Research. 2003.
29.  E. Bengston and D. Roth,”Understanding the value of features for coreference resolution”. In EMNLP, 2008.
30.  E. Sapena, L. Padro and J. Turmo,”RelaxCor: Aglobal Relaxation Labeling Approach to Coreference Resolution” , Proceedings of the 5th International Workshop on Semantic Evaluation, ACL 2010, pages 88–91, Uppsala, Sweden, 15-16 July 2010.
31.  E.k.Jamson,“Machine learning and anaphora resolution: decision trees” Ling 884: seminar on Generationg and interpretiong Referring Expressions ,2008.
32.  Feyzbakhsh, M., Sadraei, R., and Ghassem-Sani, Gh, “Unsupervised Morphology of Persian Words, Proceedings of CSICC’2008.
33.  Fisher, F., Soderland, S., Mccarthy, J., Feng, F. and Lehnert, W, “Description of the umass system as used for muc-6”, Proceedings of the Sixth Message Understanding Conference (MUC-6), pages 127-140, 1995.
34.  G. Hirst,“Anaphora in natural language understanding: A survey”, Lecture Notes in Computer Science, Vol. ۱۱۹, Springer-Verlag Berlin Heidelberg New York, ۱۹۸۱.
35.  G. Ngai, and C. Wang,” A Knowledge-Based Approach for Unsupervised Chinese Coreference Resolution”, Computational Linguistics and Chinese Language Processing ,Vol. 12, No. 4, December 2007, pp. 459-484
36.  Gentile, C,” A new approximate maximal margin classification algorithm”,Journal of Machine Learning Research (JMLR), pages 213-242, 2001.
37.  H. Lee, Y.Peirsman, A Chang, N.Chambers, M. Surdeanu, and D. Jurafsky, “Stanford’s multi-pass sieve coreference resolution system at the conll-2011 shared task”. In Proceedings of the Fifteenth Conference on Computational Natural Language Learning, Shared Task, pages 28–34, 2011.
38.  H. Ji, and R. Grishman, “improving name tagging by reference resolution and relation detection”, Proceedings of ACL2005, pages 411-418, 2005.
39.  H. Kobdani. and H. Schutze,”SUCRE: A Modular System for Coreference Resolution”,Proceedings of the 5th International Workshop on Semantic Evaluation, ACL 2010, pages 92–95,Uppsala, Sweden, 15-16 July 2010.
40.  H. Kobdani, H. Schutze, M. Schiehlen, H. Kamp,”Bootsrapping Coreference Resolution Using Word Association”, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 783–792, Portland, Oregon, June 19-24, 2011.
41.  H. Lee, Y.Peirsman, A Chang, N.Chambers, M. Surdeanu, and D. Jurafsky, “Stanford’s multi-pass sieve coreference resolution system at the conll-2011 shared task”. In Proceedings of the Fifteenth Conference on Computational Natural Language Learning, Shared Task, pages 28–34, 2011.
42.  H. Poon and P. Domingos, “Joint unsupervised coreference resolution with markov logic”. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2008.
43.  H.Clark., “Bridging“In Proc. of the Conference on Theoretical Issues in Natural Language Processing, pages 169–174, 1975.
44.  Haghighi and D. Klein, “Coreference resolution in a modular, entity-centered model”. In HLT-NAACL, 2010.
45.  Haghighi and D. Klein, ”Simple Coreference resolution with rich syntactic and semantic features”. In EMNLP, 2009.
46.  Hoste,”optimization issue in machine learning of Coreference resolution”, PhD thesis, University of Antwerp, 2005.
47.  Hummel and S. W. Zuckerm, “On the foundations of relaxation labeling processes”. pages 585–605, 1987.
48.  I. Zitouni and R. Florian, “Mention Detection Crossing the Language Barrier”, Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 600–609, Honolulu, October 2008.
49.  I.Zitouni ,J. Sorensen,X. Lou,R.Florian,”The Impact of Morphological Stemming on Arabic Mention Detection and Coreference Resolution”, Proceedings of the ACL Workshop on Computational Approaches to Semitic Languages, pages 63–70, Ann Arbor, June 2005. c2005 Association for Computational Linguistics.
50.  J. Tetreault, “Empirical evaluations of pronoun resolution” PhD thesis, University of Rochester, 2005. Cited on page(s).
51.  J. Cai and M. Strube, “End-to-End Coreference Resolution via Hypergraph Partitioning” Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), pages 143–151, Beijing, August 2010
52.  J. McCarthy, and W. Lehnert,”Using decision trees for Coreference resolution”, Proceedings of the Fourteenth International Conference on Artificial Intelligence1995, pages 1050-1055.
53.  J.K. Kummerfeld, M. Bansal, D. Burkett and D. Klein, “Mention Detection, Heuristics for the Onto Notes annotations”, 2010.
54.  J.R. Quinlan,”C4.5”,program of matchine learning,CA,1993
55.  K. Toutanova, D. Klein., C.D Manning and Y. Singer, “Feature-rich part of speech tagging with a cyclic dependency network”, Proceedings of HLTNAAC, 2003.
56.  K. Wagstaff,“Intelligent Clustering with Instance-Level Constraints”, PhD thesis, Cornell University, 2002.
57.  K.C GRIEST, “AN ANALYSIS OF FEATURES USED TO TRAIN ENTITY MENTION  ETECTION AND COREFERENCE RESOLUTION CLASSIFIERS”, University of Colorado, Boulder, 2000.
58.  K.V. Deemter and R. Kibble, “On coreferring: coreference in MUC and related annotation schemes”. Computational Linguistics, 2000. 26(4):629–637.
59.  L. Hirschman and N. Chinchor,“Muc-۷ coreference task de_nition. Version “۳, Proceedings of the Seventh Message Understanding Conference (MUC-۷),۱۹۹۸.
60.  M Strube,. and U Hahn,”Functional centering-grounding referential coherence in information structure“, Computational Linguistics 25(3), pages 309-344, 1999.
61.  M. A. K. Halliday, and R. Hasan,” Cohesion in English. London: Longman”.1976.
62.  M. Recasens., A. Marti  and  M. Taule, “ where anaphora and coreference meet”. Annotation in the Spanish CESS-ECE corpus” ,2006.
63.  M. Stede, “Discourse Processing”, Synthesis lectueres On Human language Tecnology  2011.
64.  M. Stoer,. and F. Wagne, “A simple min cut algorithm”, Proceedings of the 1994 European Symposiumon Algorithms, pages141–147.
65.  M. Strube, S. Rapp, and C. Müller, “The influence of minimum edit distance on  reference resolution”. In Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing, pages 312-319. 2002.
66.  M.Ichardson and P.Domingos, “Markov logic networks. Machine Learning”, 2006,62 pages 107–136.
67.  McCarthy, J, “A Trainable Approach to Coreference Resolution for Information Extraction”, PhD thesis, Department of Computer Science, University of Massachusetts, Amherst MA, 1996.

چکيده :

پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصه‏سازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هم‏مرجع را بررسی نماید، کمک شایانی به انجامِ موفقیت‏آمیز این وظایف خواهد نمود. روش‏های تشخیص مرجع‏ مشترک را می‏توان به دو دسته‏ی روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم نمود. روش‏های زبان‏شناسی بیشتر به اطلاعات زبان‏شناسی نیاز دارند، البته مشکل این روش‏ها این است که پر خطا و طولانی می‏باشند. از طرف دیگر روش‏های یادگیری ماشین کمتر به اطلاعات زبان‏شناسی نیاز دارند و نتایج حاصل از آنها قابل اعتماد‏تر است. در این پایان‏نامه  تلاش می‏کنیم تا فرآیند تشخیص مرجع‏مشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره‏ها، عبارت‏های هم‏مرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه‏گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیش‏بینی عبارت‏های اسمی هم‏‏مرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکره‏ای با نشانه‏هایی شامل محدوده‏ی اشاره، نوع اشاره، هسته‏ی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه می‏کنیم، این پیکره می‏تواند به عنوان اولین پیکره دارای نشانه‏های اشاره و هم‏مرجعی، مبنای کار بسیاری از پژوهش‏های مربوط به شناسایی و کشف اشاره و تحلیل هم‏مرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویت‏های میان اشاره‏ها، سیستمی ارائه می‏کنیم که اشاره‏های موجود در متن را شناسایی کرده و سپس نمونه‏های مثبت و منفی را از پیکره لوتوس استخراج می‏کند. در نهایت نیز با استفاده از الگوریتم‏های یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه‏های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان می‏دهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.

کلمات کليدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی

فصل اول

 ۱-۱.مقدمه و بيان مسئله

امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبيعي[1]»شاخه‏اي از علم «هوش مصنوعي[2]» است كه به ماشيني كردن فرآيند زبان شناسي سنتي می‏پردازد. به این ترتیب با استفاده از رايانه می‏توان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[

در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون[3]، برچسب‏گذاری ادات سخن[4]، تعیین و ابهام‏زدایی از معانی واژگان[5] و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامي اين حوزه‏هاي جزئي بايد حل شوند تا در نهايت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و يا آنها را بسازد.

وظایف زبان طبیعی را می‏توان به ریز کاربردها[6] و کلان کاربردها[7] افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازش‏هایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیت‏های نامدار[8] و … ) و یا در سطح کل متن (تشخیص هرزنامه[9]، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربرد‏ها نیز مانند استخراج اطلاعات[10]، تشخیص مرجع مشترک[11] و ماشین ترجمه[12] در سطح بینابین قرار گرفته‏اند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگی‏های معنایی متون، انواع متفاوتی از ویژگی‏های سطح پایین‏تر (مانند ویژگی‏های لغوی[13] و نحوی[14]) نیز لازم است، اما به لطف سیستم‏های جدید که تا حد زیادی به روش‏های آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی‏‏‏ ویژگی‏های سطح پایین‏تر نیازی نیست. علت اینکه روش‏های یادگیری ماشین توانسته‏اند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم می‏آورد که برای بسیاری از کاربرد‏ها کافی بوده و می‏‏‏‏تواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روش‏های آماری محدود است و هرگز نمی‏توانند درک کاملی از محتوای معانی یک متن را فراهم آورند.

از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستم‏‏هایی که واژگان و جملات درست را از غلط تشخیص می‏دهند، به طور گسترده‏ای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوه‏های تجزیه کردن[15] به صحتی برابر با ۹۰%، و شناسایی موجودیت‏های نامدار به صحت ۹۱% رسیده اند. [78,55,38[.

بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب می‏شود، که مجموعه‏اي از تکنیک‏های رده‏بندي[16]، خوشه‏بندی[17] و قوانين وابستگي[18] است و خروجی استخراج اطلاعات شامل، شناسايي موجوديت‏ها[19] ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديت‏ها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، مي‏باشد.[71[ در نهایت مي‏توان گفت كه خلاصه سازي، بازيابي اطلاعات[20]، داده‏كاوي[21]، پرسش و پاسخ[22] و درك زبان[23] از جمله كاربردهاي اين سيستم هستند.

تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارت‏های اسمی‏‏‏ که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین می‏گردند. هدف نهایی این پایان‏نامه شناسایی اشاره‏ های هم مرجع شامل ضمیر و اسم اشاره در متون پارسی می‏باشد. برای تحقق این هدف نیاز به انجام پیش پردازش‏هایی بر روی متون خام می‏باشد تا داده‏های مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره[24] به عنوان یک پیش پردازش می‏تواند در کنار سایر پیمانه‏های پیش پردازشی مانند تجزیه‏گر، شناسایی موجودیت‏های نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]

به هر ترتیب شناسایی عبارت‏های اسمی‏‏‏ هم‏مرجع از مهمترین زیر وظایف استخراج اطلاعات می‏باشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستم‏های مرتبط با آن خواهد شد.

واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژول‏هایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل می‏شود. روش‏های موجود در این حوزه، به دو دسته روش‏های زبان‏شناسی[25] و روش‏های یادگیری ماشین[26] تقسیم می‏‏‏شوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی‏‏، مراجع کاندیدا تعیین می‏‏‏شود و سپس با به کارگیری مجموعه‏ای از قواعد زبان‏شناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی می‏‏‏شوند و در‏نهایت کاندیدایی به عنوان مرجع برگزیده مي‏‏‏شود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبان‏شناسی مورد نیاز، فرآیندی زمان‏بر، پرهزینه و پر خطاست. البته با پیدایش پیکره‏های[27] زبان‏شناسی و موفقیت روش‏های یادگیری ماشین در سایر حوزه‏ها، روش‏های زبان‏شناسی جای خود را به روش‏های یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبان‏شناسی پیچیده و سطح بالای روش‏های زبان‏شناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبان‏شناسی نیز می‏توان به نتایج خوب و قابل توجهی دست یافت.

از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می‏‏‏ کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارت‏های اسمی‏‏‏ که به موجودیت[28] ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشاره‏هایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارت‏های اسمی‏‏‏ تحت عنوان اشاره[29] و در قالب چهار گروه اصلی ضمایر[30]، اسامی‏‏‏ خاص[31]، اسامی‏‏‏ عام[32] و غیر اشاره‏ها[33] قرار می‏گیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص می‏‏‏‌کند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]مي‏‏‏توان گفت که فرآیند کشف اشاره، توسعه یافته‏ی فرآیند شناسایی موجودیت‏های نامدار می‏باشد که علاوه بر شناسایی اسامی‏‏‏ خاص، به شناسایی اسامی‏‏‏ عام و ضمایر نیز می‏پردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیند‏های شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزه‏ی این پایان‏نامه است، ما عبارت‏های اسمی‏‏‏ را در قالب انواع اشاره‏های گفته شده در پیکره‏ای تحت عنوان لوتوس برچسب‏گذاری می‏نمائیم و نتيجه‏ي آن را برای تحلیل مرجع مشترک به کار خواهیم برد.

چارچوب کلی این پایان‏نامه به این صورت می‏باشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط ميان دو عبارت اسمی‏‏‏ و به خصوص ارتباط‏های هم‏مرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روش‏های ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار می‏دهیم و در بخش دوم آن، به نحوه ایجاد پیکره‏ای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتم‏های مناسب برای این پایان‏نامه را معرفی می نمائیم. سيستم پیشهنادی براي شناسايي اشاره‏هاي ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتم‏های یادشده را مورد ارزیابی قرار می‏دهیم. در نهايت در فصل پنجم نیز به نتيجه گيري و پيشنهاد كارهاي آتي در ادامه‏ي اين پژوهش خواهيم پرداخت.

1-2.بررسی ارتباط هم‏مرجعی

یکی از ‏ویژگی‏های خاص گفتمان این است که می‏توان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارت‏ها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی‏(بنیان‏گذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارت‏ها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب می‏شود که زنجیره‏ها‏ی بالقوه‏ای از تمام عبارت‏های اسمی‏که به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیان‏گذار منطق فازی که به شخص پرفسور زاده اشاره دارند).

یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیره‏ها در متن است که در فرآیند تحلیل مرجع‏مشترک انجام می‏پذیرد. برای شروع، مثال ۱ را در نظر بگیرید[34]:

مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشه‏ی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.

اگر فرض کنیم که پیمانه‏های نشانه‏گذاری تا کشف اشاره به عنوان پیش پردازش‏هایی بر روی متن اجرا شوند، با اجرای این پیمانه‏ها، انواع عبارت‏های اسمی‏موجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانه‏گذاری می‏شوند. سپس با اجرای پیمانه تشخیص مرجع‏مشترک، ارتباطات میان این عبارت‏ها و اطلاعات نهفته در مورد موجودیت‏های شرکت کننده در متن آشکار می‏شود. به عنوان نمونه، می‏دانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره می‏کنند.

استفاده از اصطلاح موجودیت در تحلیل مرجع‏مشترک، این سؤال را مطرح می‏کند که چه چیزهایی موجودیت محسوب می‏شوند؟ تاکنون گروه‏بندی‏های متعددی برای انواع موجودیت‏ها ارائه شده است، به عنوان نمونه[35]ACE، یک تقسيم بندي هفت موجودیتی برای انواع موجودیت‏ها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیت‏ها و یا گاهي اوقات برخی از آن‏ها را مورد مطالعه و بررسی قرار می‏دهند.

یکی از ‏ویژگی‏های تحلیل مرجع‏مشترک این است که علاوه بر انواع موجودیت‏های رایج، مي‏توانیم در حوزه‏ها‏ی متفاوت از تعاریف پیش فرض خود نیز برای موجودیت‏ها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجع‏مشترک در متون پزشکی پرداخته و بررسی موجودیت‏هایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.

با توجه به آنچه تا‏کنون گفته شد، انتظار می‏رود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجع‏مشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص    (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی می‏کند در نظر گرفته نمی‏شود، چون منظور از «یک پژوهشگر» می‏تواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند مي‏تواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.

همان طور که مشاهده شد، تحلیل مرجع‏مشترک و تحلیل پیشایند دو مفهوم نزدیک به هم می‏باشند به طوری که عموماً به موازات تحلیل مرجع‏مشترک، با تحلیل پیشایند روبرو می‏شویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر می‏پندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمی‏و ایجاد ابهام در تحلیل متن می‏گردد.در این بخش، هدف ما بررسی هرکدام از این فرآیند‏ها‏ و مطالعه برخی از شباهت‏ها‏ و تفاوت‏ها‏ی میان این دو فرآیند می‏باشد.

[1] معادل پارسی عبارت  انگليسي Natural Language processing

[2] معادل پارسی عبارت انگليسي Artificial Intelligence

[3]  معادل پارسی عبارت انگليسي Text classification

[4] معادل پارسی عبارت انگليسي Part of speech tagging

[5] معادل پارسی عبارت انگليسي Word sense disambiguation

[6] معادل پارسی عبارت انگلیسی Micro-task

[7] معادل پارسی عبارت انگلیسی Macro-task

[8] معادل پارسی عبارت انگيسي Named Entity Recognizers(NER)

[9] معادل پارسی عبارت انگيسي Spam Detection

[10] معادل پارسی عبارت انگيسي Information Extraction(IE)

[11] معادل پارسی عبارت انگيسي Coreference Resolution(CR)

[12] معادل پارسی عبارت انگيسي Machin Translation(MT)

[13] معادل پارسی واژه انگيسي Lexical

[14] معادل پارسی واژه انگيسي Syntactical

[15] معادل پارسی واژه انگيسي Parsing

[16] معادل پارسی واژه انگيسي Classification

[17] معادل پارسی واژه انگليسي  Clustering

[18] معادل پارسی عبارت انگليسي Association pules

[19]  معادل پارسی واژه انگليسي Entity

[20] معادل پارسی عبارت انگليسي Information Retrieval(IR)

[21] معادل پارسی عبارت اانگليسي Data Mining

[22]  معادل پارسی عبارت انگليسي question/Answering

[23] معادل پارسی عبارت  انگليسي Text understanding

[24] معادل پارسی عبارت  انگليسي Mention Detection

[25] معادل پارسی واژه  انگليسي linguist

[26] معادل پارسی عبارت  انگليسي Machin Learning(ML)

[27] معادل پارسی واژه  انگليسي Corpus

[28] معادل پارسی واژه انگليسي Entitiy

[29] هرآنچه كه به موجوديت خاص درمتن ارجاع داده شده است

[30] معادل پارسی واژه انگليسي Pronominal

[31] معادل پارسی عبارت  انگليسي Proper Name

[32] معادل پارسی واژه  انگليسي Nominal

[33] معادل پارسی عبارت  انگليسي Out of Mention

[34] در این فصل دو نوع اندیس برای هر عبارت اسمی در نظر گرفته‏ایم، اندیس شماره برای تشخیص مرجع مشترک می باشد، یه عنوان مثال، سیستم آبیاری گلاب و این سیستم هر دو به یک موجودیت اشاره دارند و اندیس این موجودیت 1 می باشد. همچنین اندیس Ant نشان‏گر مقدم و اندیس Ana  نشان‏گر تالی است که برای بررسی ارتباط پبشایندی در نظر گرفته شده است.

[35] معادل پارسی عبارت انگلیسی Automatic Content Extraction

همه پایان نامه و تحقیق و پروژه های به صورت فایل دانلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. ضمنا همان لحظه لینک دانلود به ایمیل شما ارسال می گردد.

 جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ  را پرداخت نمایید

مطالب پیشنهادی:
برچسب ها : , , , , , , , , , , ,
برای ثبت نظر خود کلیک کنید ...

به راهنمایی نیاز دارید؟ کلیک کنید

جستجو پیشرفته

دسته‌ها

آخرین بروز رسانی

    Fatal error: Call to undefined function jdate() in /home/bmaghale/domains/bmaghale.ir/public_html/wp-content/themes/digitaliran5/sidebar.php on line 122