پايان نامه استفاده از داده کاوي براي ارائه چارچوبي جهت کشف الگوهاي پزشکي و ايجاد يک سيستم تشخيص، تصميم و تجويز

تحقیق و پروژه و پایان نامه و مقاله دانشجویی

پايان نامه استفاده از داده کاوي براي ارائه چارچوبي جهت کشف الگوهاي پزشکي و ايجاد يک سيستم تشخيص، تصميم و تجويز یکی از پایان نامه و تحقیق های جامع و کامل و دارای منابع معتبر می باشد این پایان نامه دارای 110 صفحه به صورت فایل ورد و قابل ویرایش می باشد که جهت دریافت و دانلود متن کامل پايان نامه استفاده از داده کاوي براي ارائه چارچوبي جهت کشف الگوهاي پزشکي و ايجاد يک سيستم تشخيص، تصميم و تجويز بر روی گزینه خرید انتهای ایمیل کلیک نمائید پس از وارد نمودن اطلاعات مربوطه و پرداخت قادر به دانلود متن کامل پایان نامه مربوطه می باشد همچنین لینک پایان نامه همان لحظه به ایمیل شما ارسال می گردد.

فهرست مطالب

فصل1: مقدمه1
1-1 موضوع تحقیق2
1-2 اهمیت و ضرورت تحقیق3
1-3 قلمرو تحقیق4
1-4 فرضیه¬های تحقیق4
1-5 سوالات تحقیق5
1-6 اهداف و کاربردهای تحقیق5
1-7 نوآوری در تحقیق6
1-7-1 موضوع و داده¬های استفاده شده در تحقیق6
1-7-2 براساس مطالعه ادبیات و نحوه ارائه مطالب6
1-8 محدودیت¬های تحقیق6
1-9 ساختار پایان-نامه7
فصل2: ادبیات تحقیق8
2-1 مقدمه9
2-2 داده-کاوی9
2-2-1 مفهوم داده-کاوی9
2-2-2 مراحل داده-کاوی10
2-2-3 پیش-پردازش10
2-2-3-1 پاک¬سازی داده11
2-2-3-2 یکپارچه¬سازی داده11
2-2-3-3 تبدیل داده11
2-2-3-4 کاهش داده12
2-2-3-5 تصویرکردن برای کاهش بعد12
2-2-4 داده-کاوی13
2-2-5 پس-پردازش14
2-2-6 کاربردهای داده-کاوی14
2-3 داده¬کاوی در پزشکی14
2-4 بیماری تنفسی16
2-4-1 عفونت دستگاه تنفسی فوقانی17
2-4-2 پنومونی17
2-4-3 بیماری مزمن انسدادی ریه18
2-5 الگوریتم¬های رده-بندی18
2-5-1 درخت تصمیم19
2-5-1-1 CHAID20
2-5-1-2 ID320
2-5-1-3 C5021
2-5-2 ماشین بردار پشتیبان21
2-5-3 شبکه¬ی عصبی24
2-5-4 Bagging25
2-5-5 AdaBoost27
2-6 پیشینه¬ی تحقیقات در بیماری¬های تنفسی30
فصل3: داده¬های نامتوازن32
3-1 مقدمه33
3-2 روش¬های یادگیری در داده¬های نامتوازن33
3-2-1 نمونه-برداری33
3-2-1-1 بیش¬نمونه¬برداری تصادفی34
3-2-1-2 زیرنمونه¬برداری تصادفی34
3-2-1-3 نمونه¬برداری آگاهانه34
3-2-1-3-1 EasyEnsemble35
3-2-1-3-2 ModifiedBagging36
3-2-1-4 ترکیب نمونه¬برداری و تولید داده37
3-2-2 روش¬های حساس به هزینه39
3-3 معیارهای ارزیابی رده¬بند در داده¬های نامتوازن41
3-4 معیارهای ارزیابی رده¬بند در داده¬های نامتوازن و چند رده-ای44
3-4-1 میانگین¬گیری میکرو46
3-4-2 میانگین¬گیری ماکرو46
فصل4: پیش¬پردازش داده-ها47
4-1 مقدمه48
4-2 جمع¬آوری داده-ها48
4-3 ویژگی¬های داده-ها48
4-4 نحوه توزیع داده¬ها براساس ویژگی-ها51
4-4-1 نوع بیماری تنفسی51
4-4-2 سن52
4-5 پیش¬پردازش¬های انجام شده53
4-5-1 حذف ویژگی¬های اضافی53
4-5-2 حذف یا اصلاح رکورد53
4-5-3 یکپارچه¬سازی داده54
4-5-4 تبدیل مقادیر ویژگی55
4-5-4-1 تفسیر آزمایش¬های انجام شده روی بیماران55
4-5-4-2 WBC (White Blood Cell)56
4-5-4-3 چه چیزهایی باعث کاهش WBC می-شود؟56
4-5-4-4 چه چیزهایی باعث افزایش WBC می-شود؟56
4-5-4-5 جدول گسسته¬سازی WBC57
4-5-4-6 RBC(Red Blood Cell)57
4-5-4-7 چه چیزهایی باعث کاهش RBC می-شود؟57
4-5-4-8 چه چیزهایی باعث افزایش RBC می-شود؟58
4-5-4-9 جدول گسسته¬سازی RBC58
4-5-4-10 Hb (Hemoglobin)58
4-5-4-11 چه چیزهایی باعث کاهش هموگلوبین می-شود؟59
4-5-4-12 چه چیزهایی باعث افزایش هموگلوبین می-شود؟59
4-5-4-13 جدول گسسته¬سازی هموگلوبین59
4-5-4-14 HCT (Hematocrit)59
4-5-4-15 چه چیزهایی باعث کاهش HCT می-شود؟60
4-5-4-16 چه چیزهایی باعث افزایش HCT می-شود؟60
4-5-4-17 جدول گسسته¬سازی HCT60
4-5-4-18 Plt یا پلاکت-ها60
4-5-4-19 چه چیزهایی پلاکت را کاهش می-دهد؟61
4-5-4-20 چه چیزهایی پلاکت را افزایش می-دهد؟61
4-5-4-21 جدول گسسته¬سازی پلاکت61
4-5-4-22 اجزای دیگر آزمایش خون61
4-5-4-23 جدول گسسته¬سازی MCV، MCH و MCHC62
4-5-4-24 CRP (C-Reactive Protein)63
4-5-4-25 در چه شرایطی CRP افزایش پیدا می-کند؟63
4-5-4-26 در چه شرایطی CRP کاهش پیدا می-کند؟63
4-5-4-27 جدول گسسته¬سازی CRP63
4-5-4-28 ESR (Erythrocyte Sedimentation Rate)64
4-5-4-29 جدول گسسته¬سازی ESR64
4-5-4-30 جدول گسسته¬سازی BS (Blood Suger)64
4-5-5 ویژگی داده¬ها پس از پیش¬پردازش نهایی64
4-6 نمونه-برداری67
فصل5: نتایج و یافته¬های تحقیق69
5-1 مقدمه70
5-2 رده-بندی70
5-2-1 مقایسه¬ی الگوریتم¬های پایه70
5-2-2 مقایسه¬ی روش¬های یادگیری در داده¬های نامتوازن74
فصل6: نتیجه¬گیری و پیشنهادات79
6-1 مقدمه80
6-2 نتیجه-گیری80
6-3 پیشنهادها82
6-3-1 مجموعه¬ی داده82
6-3-2 داده-کاوی82
مراجع83
پیوست الف: واژه¬نامه انگلیسی به فارسی 92

مراجع

الف- منابع فارسی:

[1] اعتمادی، ملیحه و همکاران. «فیزیوتراپی در بیماری­های تنفسی». انتشارات قلم علم. (1389).

[2] غضنفری، مهدی، علی­زاده، سمیه و تیمورپور، بابک. «داده­کاوی و کشف دانش». تهران: انتشارات دانشگاه علم و صنعت ایران، چاپ اول، (1387).

[3] کانتاردزیک، مهمد. «داده­کاوی». امیر علی­خان­زاده، بابل: نشر علوم رایانه، چاپ اول، (1385).

[4] ویلیام الگزاندر نیومن دورلند، «فرهنگ مصور پزشکی دورلند». محمد هوشمند ویژه، تهران: انتشارات کلهر، (1378).

ب- منابع انگلیسی:

[5] Tan, Pang-Ning; Steinbach, Michael & Kumar, Vipin. Intro-duction to data mining. Michael Steinbach & Vipin Kumar, Pearson Addison Wesley, (2006).

[6] Patil, Shantakumar B. & Kumaraswamy, Y.S. “Intelligent and Effective Heart Attack Prediction System Using Data Mining and Artificial Neural Network”. European Journal of Scien-tific Research, 31(4):642-656, 2009.

[7] Gupta, Anamika; Kumar, Naveen & Bhatnagar, Vasudha. “Analysis of Medical Data using Data Mining and Formal Con-cept Analysis”. World Academy of Science, Engineering and Technology, 11:61-64, Jun 2005.

[8] Gorunescu, Florin. “Data Mining Techniques in Computer-Aided Diagnosis: Non-Invasive Cancer Detection”. Interna-tional Journal of Biological and Medical Sciences, 1(2):105-108, September 2007.

[9] Wasan, Siri Krishan; Bhatnagar, Vasudha & Kaur, Harleen. “The Impact of Data Mining Techniques on Medical Diagnos-tics”. Data Science Journal, 5:119-126, 2006.

[10] Canlas, Ruben D. Data Mining in health care: Current Ap-plications and Issues. Master of Science in Information Tech-nology, Carnegie Mellon University, Australia, August 2009.

[11] Silver, Michael; Sakata, Taiki; Su, Hua-Ching; Herman, Charles; Dolins, Steven B. & O’Shea, Michael J.. “Case study: how to apply data mining techniques in a healthcare data ware-house”. Journal of Healthcare Information Management, 15(2):155-164, Summer 2001.

چکیده

بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماری­ها هستند که از طریق درگیر کردن بخش یا قسمت­هایی از دستگاه تنفس باعث اختلال در عملکرد ریه­ها می­گردند. ریه­ها مهم­ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت­های مختلف بدن و دفع دی­اکسیدکربن نقش دارند. بیماری­های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می­کنند که باعث کاهش سطح عملکرد فرد در فعالیت­های روزمره می­گردند. بیماری­های دستگاه تنفسی در انگلستان شایع­ترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری­های ریوی می­توانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماری­های ریوی یکی از عوامل مهم مرگ­و­میر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری­ها در همان ابتدای روزهای بستری است. تکنیک­های داده­کاوی می­توانند دانش نهفته در پایگاه­های داده را استخراج و در پیش­گیری، تشخیص و معالجه­ی این بیماری­ها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسه­ی سیستم­های رده­بندی متفاوت و مقایسه­ی روش­های یادگیری داده­های نامتوازن با الگوریتم پایه، در نهایت، سیستم رده­بندی ارائه شده که می­تواند در تشخیص انواع بیماری­های تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماری­های تنفسی پرداخته شده است.

کلمات کلیدی: داده­کاوی پزشکی، رده­بندی، تشخیص بیماری­های تنفسی، مجموعه داده­های نامتوازن.

فصل1: مقدمه

1-1. موضوع تحقیق

بیماری تنفسی[1] که عموما در ارتباط با بیماری ریوی[2] است، شامل گروهی از بیماری­ها هستند که از طریق درگیر کردن بخش یا قسمت­هایی از دستگاه تنفس[3] باعث اختلال در عملکرد ریه[4]­ها می­گردند. ریه­ها مهم­ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت­های مختلف بدن و دفع دی­اکسیدکربن نقش دارند. بیماری­های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می­کنند که باعث کاهش سطح عملکرد فرد در فعالیت­های روزمره می­گردند. بیماری­های دستگاه تنفسی در انگلستان شایع­ترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری­های ریوی می­توانند عفونت دستگاه تنفسی فوقانی[5]، پنومونی[6] و یا بیماری مزمن انسدادی ریه[7] باشند.

بیماری­های مزمن تنفسی از 10 مورد بیماری­های تهدید کننده حیات در جهان هستند[8]. مطابق آمار سازمان بهداشت جهانی[9]، صدها میلیون نفر از جمعیت جهان از بیماری­های مزمن تنفسی رنج می­برند. پیش­بینی می­شود تا سال 2030 میلادی به سومین عامل مرگ­و­میر در جهان بعد از بیماری­های قلبی­و­عروقی و سرطان­ها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.

تکنیک­های داده­کاوی[10] علاوه بر این­که می­توانند در تشخیص سریع این بیماری­ها موثر باشند، می­توانند از طریق شناسایی عوامل موثر در بروز انواع بیماری­های تنفسی، به پیش­گیری از این بیماری­ها کمک کنند و به­ این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینه­های سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.

1-2. اهمیت و ضرورت تحقیق

بیماری­های مزمن تنفسی از 10 مورد بیماری­های تهدید کننده حیات در جهان هستند و پیش­بینی می­شود تا سال 2030 میلادی به سومین عامل مرگ­و­میر در جهان بعد از بیماری­های قلبی­و­عروقی و سرطان­ها تبدیل گردد. گرچه، گسترش تکنولوژی­های پزشکی در دهه گذشته، موجب کاهش میزان مرگ­ومیر ناشی از این بیماری شده است و به­دلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماری­ها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد[11]. تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه می­دهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح  و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است.

مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده به­نظر آید. گاهی حتی به مدت زمان طولانی بیمار از این بیماری رنج می­برد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روش­های پیشرفته­تری برای تشخیص زودهنگام این نوع بیماری­های تنفسی استفاده شود. روش­های رایج برای تشخیص زودهنگام بیماری­های تنفسی عبارتند از: تست­های آزمایشگاهی، رادیوگرافی[12] قفسه سینه، اسکن هسته­ای ریه، ام­آر­آی[13]، آسپیراسیون سوزنی[14] از طریق دیواره قفسه سینه. این روش­ها علاوه بر هزینه­ی بالایی که بر بیمار تحمیل می­کنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: ام­آر­آی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود می­باشند، می­شود. در ضمن بیمار در حین انجام ام­آرآی باید بی­حرکت بوده و حرکات غیرقابل پیش­گیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش می­سازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیط­های بسته می­ترسند، عبور از تونل تنگ دستگاه ام­آی­آر توصیه نمی­شود.

این در حالی است که امروزه استفاده از سیستم­های رده­بندی[15]، می­توانند به کاهش خطایی که ممکن است توسط کارشناسان کم­تجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی داده­های پزشکی را در زمان کوتاه­تر و با جزئیات بیش­تر فراهم می­کنند. تکنیک­های داده­کاوی می­توانند دانش نهفته در پایگاه های داده را استخراج و در پیش­­گیری، تشخیص و معالجه­ی این بیماری به پزشک و بیمار کمک کنند.

1-3. قلمرو تحقیق

قلمرو مکانی: این داده­ها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم می­باشد.

قلمرو زمانی: داده­ها بین سال­های 90 و 92 می­باشد؛ یعنی قلمرو زمانی تحقیق به مدت 3 سال می­باشد.

1-4. فرضیه­های تحقیق

فرضیه­های تحقیق، شامل موارد زیر هستند:

جنس بیمار در بروز نوع بیماری تنفسی موثر است.

سن بیمار در بروز نوع بیماری تنفسی موثر است.

عفونت بیمار در بروز نوع بیماری تنفسی موثر است.

التهابات حاد بیمار در بروز نوع بیماری تنفسی موثر است.

کم­خونی بیمار در بروز نوع بیماری تنفسی موثر است.

دیابت بیمار در بروز نوع بیماری تنفسی موثر است.

بخش بستری بیمار در بروز نوع بیماری تنفسی موثر است.

1-5. سوالات تحقیق

سوالی که در این تحقیق قصد داریم به آن پاسخ دهیم، این است که آیا داده­کاوی می­تواند به کشف الگوهای پنهان در بیماری­های تنفسی کودکان بپردازد؟

اگر پاسخ این سوال مثبت است، چه اطلاعاتی در تشخیص این بیماری به پزشکان خواهد داد؟

آیا می­توان با استفاده از روش­های داده­کاوی، عوامل موثر در بروز نوع بیماری تنفسی را شناسایی کرد؟ اگر این کار ممکن است، عوامل موثر در بروز نوع بیماری تنفسی کدامند؟

آیا می­توان بر اساس این داده­ها، یک سیستم رده­بندی برای تشخیص بیماری تنفسی ارائه داد؟ آیا سیستم رده­بندی ارائه شده، از صحت کافی برخوردار است؟

1-6. اهداف و کاربردهای تحقیق

مجموعه­ی داده­ی مورد استفاده در این تحقیق، شامل اطلاعات افرادی است، که دارای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه می­باشند. در این تحقیق، مدلی برای تشخیص نوع بیماری ارائه شده است که برمبنای آن می­توان تشخیص داد که فرد بیمار به کدام­یک از دسته­های عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه تعلق دارد. به این ترتیب، سیستم ارائه شده می­تواند در تشخیص بیماری به پزشک و بیمار کمک کند.

همچنین در این تحقیق به بررسی ارتباطات موجود در مجموعه داده پرداخته شده و برخی از عوامل موثر در بروز این بیماری­ها شناسایی شده است. با شناسایی عوامل موثر در بروز بیماری­های تنفسی، می­توان با اطلاع­رسانی صحیح به افراد جامعه، تا حدود زیادی از ابتلا به این بیماری­ها پیش­گیری کرد.

1-7. نوآوری در تحقیق

1-7-1. موضوع و داده­های استفاده­شده در تحقیق

تاکنون هیچ­گونه مطالعه و تحقیقی در زمینه داده­کاوی و بیماری­های تنفسی کودکان در ایران صورت نگرفته است. به عبارتی دیگر می­توان گفت یک تحقیق منحصربه­فرد در زمینه­ی بیماری­های تنفسی است که در نوع خود کم­نظیر است.

1-7-2. بر اساس مطالعه ادبیات و نحوه ارائه مطالب

پیش از انجام داده­کاوی در این زمینه با برگزاری جلسات مشترک با متخصصین پزشکی مقرر گردید متغیرهایی انتخاب شوند که مقادیر آن­ها تا حد امکان دقیق باشد، به­عبارت دیگر حاصل آزمایش باشند نه بیان شده توسط خود بیمار و متغیرهایی که دارای مقادیر غیر آزمایشگاهی بودند با نظر آن­ها از مجموعه متغیرهای مورد بررسی خارج گردید. به­عبارتی تمامی مطالب درج شده در این تحقیق به صورت یکپارچه در هیچ منبعی یافت نشده و آن­چه در این تحقیق گردآوری شده به­صورت مجزا از دو بخش آزمایشگاهی و داده­کاوی به­دست آمده است.

1-8. محدودیت­های تحقیق

همانند هر تحقیق دیگری، این تحقیق نیز با محدودیت­هایی رو به رو بود که مهم­ترین آن نتایج آزمایش­های انجام گرفته شده روی بیماران از بیمارستان بود. که با مشکلات زیاد، موفق به دریافت این داده­ها شدم و ­دلیل آن فقط به­دست آوردن الگویی دقیق و مفید بود.

محدودیت های دیگر در این پایان نامه باتوجه به داده­های جمع­آوری شده از بیمارستان کودکان حضرت فاطمه معصومه (س) استان قم در طول سه سال، این بود که هیچ­گونه بیماری نادر و فوت در بیماری­های تنفسی نامبرده شده وجود نداشت.

1-9. ساختار پایان­نامه

در این فصل، کلیات تحقیق شامل موضوع تحقیق، اهمیت و ضرورت تحقیق، اهداف و کاربردهای تحقیق، نوآوری در تحقیق و محدودیت­های تحقیق، بیان گردید. به­طور کلی در این تحقیق، پس از مرور کلی بر بیماری تنفسی و انواع آن، به معرفی پیشینه­ی تحقیق در بیماری تنفسی پرداخته­ایم. سپس مفهوم داده­های نامتوازن و روش­های یادگیری در داده­های نامتوازن را معرفی کرده و سرانجام به مقایسه­ی نتایج حاصل از الگوریتم­ها خواهیم پرداخت. مطالب ارائه شده در پایان نامه به تفکیک هر فصل، در ادامه آمده است.

در فصل دوم، ابتدا یک مرور کلی بر مراحل و روش­های داده­کاوی خواهیم داشت. سپس به معرفی بیماری تنفسی و انواع آن خواهیم پرداخت. سرانجام در بخش آخر این فصل، بعد از معرفی الگوریتم­های مورد استفاده در این تحقیق، برخی از تحقیقاتی که در مورد بیماری تنفسی انجام شده و مرتبط با موضوع تحقیق بوده است، بیان شده است.

فصل سوم، شامل مطالبی در ارتباط با داده­های نامتوازن می­باشد. در این فصل، انواع روش­های یادگیری در داده­های نامتوازن، معرفی شده­اند. در نهایت نیز معیارهای ارزیابی رده­بند مورد بررسی قرار گرفته و معیارهای مناسب برای مسائل نامتوازن معرفی شده است.

فصل چهارم، به معرفی مجموعه­ی داده­ی مورد استفاده در تحقیق می­پردازد. در این فصل پس از بیان روش جمع­آوری داده­ها، به معرفی ویژگی­های موجود در مجموعه­ی داده پرداخته و سپس عملیاتی که به­عنوان پیش­پردازش بر روی مجموعه­ی داده انجام شده است، بیان خواهد شد.

فصل پنجم نیز شامل نتایج و یافته­های تحقیق می­باشد. در این فصل نتایج حاصل از الگوریتم­های رده­بندی را مقایسه کرده و در انتها به مقایسه­ی روش­های یادگیری با الگوریتم پایه­ی CHAID پرداخته­ایم.

در فصل ششم، نتیجه­گیری نهایی انجام شده و پیشنهاداتی برای تحقیقات آینده ارائه شده است.

فصل2: ادبیات تحقیق

2-1. مقدمه

در این تحقیق، داده­های مربوط به بیماری­های تنفسی با استفاده از روش­های داده­کاوی مورد بررسی قرار گرفته­اند. به همین جهت در این بخش پس از مرور مختصری بر روش­ها و مراحل داده­کاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتم­های داده­کاوی مورد استفاده در این تحقیق و همچنین پیشینه­ی تحقیقات انجام شده در بیماری­های تنفسی پرداخته­ایم.

2-2. داده­کاوی

تکنولوژی مدیریت پایگاه ­داده­های پیشرفته انواع مختلفی از داده­ها را می­تواند در خود جای دهد، در نتیجه تکنیک­های آماری و ابزار مدیریت سنتی برای آنالیز این داده­ها کافی نیست و استخراج دانش[16] از این مقدار حجیم یک چالش بزرگ تلقی می­شود. داده­کاوی کوششی برای به­دست آوردن اطلاعات مفید از میان این داده­هاست و رشد بی­رویه­ی داده­ها در سطح جهان اهمیت داده­کاوی را دو­ چندان کرده است.

پایگاه ­داده­های پزشکی، شامل انبوهی از اطلاعات بیماران و وضعیت پزشکی آنهاست. ارتباطات و الگوهای نهفته در این داده­ها می­تواند دانش جدیدی در حوزه علوم پزشکی تولید کند. به­طوری­که امروزه استخراج دانش مفید و فراهم کردن ابزارهای تصمیم­گیری برای تشخیص و معالجه­ی بیماری­ها، به یک موضوع ضروری تبدیل شده است.

2-2-1. مفهوم داده­کاوی

در يک تعريف غير رسمی داده­کاوی فرآيندی است، خودکار برای استخراج الگوهايی که دانش را بازنمايی مي­کنند، که اين دانش به صورت ضمنی در پايگاه داده­های عظيم، انبارداده[17]و ديگر مخازن بزرگ اطلاعات، ذخيره شده است. داده­کاوی به­طور همزمان از چندين رشته علمی بهره مي­برد نظير: تکنولوژی پايگاه داده، هوش مصنوعی، يادگيری ماشين، شبکه­های عصبی، آمار، شناسايی الگو، سيستم­های مبتنی بردانش[18]، حصول دانش[19]، بازيابی اطلاعات[20]، محاسبات سرعت بالا[21] و بازنمايی بصری داده[22] .

2-2-2. مراحل داده­کاوی

داده­کاوی اغلب به­عنوان بخشی از فرآیند «کشف دانش از پایگاه­داده»، تلقی می­شود. کشف دانش از پایگاه داده، فرآیندی است که داده­های خام را به دانش مفید تبدیل می­کند که علاوه بر داده­کاوی، شامل دو مرحله­ی پیش­پردازش و پس­پردازش نیز می­باشد.

2-2-3. پیش­پردازش

هدف پیش­پردازش، تبدیل داده­های خام به قالبی است که برای تحلیل­های بعدی مناسب باشد. همچنین این مرحله به شناسایی ویژگی­ها و قطعات مختلف داده، کمک می­کند. از آنجائی­که داده­ها ممکن است با قالب­های مختلف و در پایگاه داده­های متفاوتی ذخیره شده باشند، اغلب زمان زیادی برای پیش­پردازش داده لازم است[5].

پیش­پردازش داده، یک محدوده­ی وسیع شامل استراتژی­ها و تکنیک­های مختلفی است که به­صورت بسیار پیچیده­ای با یک­دیگر در رابطه­اند و این ارتباطات پیچیده، معرفی رهیافت­ها و ایده­های اصلی پیش­پردازش را به­صورت منظم و ساخت­یافته بسیار مشکل می­کند.

وظایف پیش­پردازش عبارتند از: پاک­سازی داده­ها[23]، یکپارچه­سازی داده­ها[24]، تبدیل داده[25]، کاهش داده[26]، تصویر کردن و کاهش بعد[2].

2-2-3-1. پاک­سازی داده

خطاهای عملیاتی اغلب باعث می­شوند که داده­های به­دست آمده از منابع دنیای واقعی، پرغلط، ناقص و ناسازگار باشند. ابتدا لازم است، چنین داده­های بی­کیفیتی، تمیز شوند. وظایف اصلی پاک­سازی داده­ها عبارتند از:

پرکردن ویژگی­هایی با مقدار گمشده[27] : رویکردهای مختلفی در برخورد با مقادیر گمشده وجود دارد که عبارتند از: حذف رکورد، پرکردن به­صورت دستی، جایگزینی با یک مقدار ثابت سراسری، جایگزینی با مقدار میانگین، جایگزینی با مقادیری با احتمال بالاتر (با استفاده از رابطه­های بیزی، درخت تصمیم­گیری یا پسانمایی[28] ).

شناخت داده­های پرت[29] و هموار کردن داده­های نویزدار[30].

اصلاح داده­های ناسازگار.

رفع مشکل افزونگی که بر اثر یکپارچه­سازی داده­ها ایجاد شده است.

1 Respiratory disease

2 Lung disease

3 Respiratory System

4 Lunge

5 Acute upper respiratory infections

6 Pneumonia

7 Chronic lower respiratory diseases

8  http://www.salamat.gov.ir/news/

9  World Health Organization (WHO)

10 Data Mining

1 http://fa.wikipedia.org/wiki/

2 Radiography

3 Magnetic Resonance Imaging (MRI)

4 Needle Aspiration

1 Classification

1 Knowledge Discovery

[17] Data Warehouse

[18] Knowledge-based System

[19] Knowledge-acquisition

[20] Information  Retrieval

[21] High-performance Computing

[22] Data Visualization

6 Data Cleaning

7 Data Integration

8 Data Transformation

9 Data Reduction

1 Missing Value

2 Regression

3 Outlier

4 Noise

همه پایان نامه و تحقیق و پروژه های به صورت فایل دانلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد. ضمنا همان لحظه لینک دانلود به ایمیل شما ارسال می گردد.

 جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ  را پرداخت نمایید

مطالب پیشنهادی:
برچسب ها : , , , , , , , , , , , , ,
برای ثبت نظر خود کلیک کنید ...

به راهنمایی نیاز دارید؟ کلیک کنید

جستجو پیشرفته

دسته‌ها

آخرین بروز رسانی

    Fatal error: Call to undefined function jdate() in /home/bmaghale/domains/bmaghale.ir/public_html/wp-content/themes/digitaliran5/sidebar.php on line 122