| تعداد نشریات | 17 |
| تعداد شمارهها | 418 |
| تعداد مقالات | 3,192 |
| تعداد مشاهده مقاله | 2,921,176 |
| تعداد دریافت فایل اصل مقاله | 2,332,109 |
تشخیص وضعیت بیماران مبتلا به هپاتیت C با استفاده از الگوریتم یادگیری عمیق CNN | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| فصلنامه آماد و فناوری دفاعی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| مقاله 6، دوره 8، شماره 2 - شماره پیاپی 26، مرداد 1404، صفحه 179-204 اصل مقاله (767.07 K) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| نوع مقاله: مقاله پژوهشی | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| نویسنده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| کاظم تقندیکی* | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| مربی گروه مهندسی کامپیوتر، دانشکده برق و کامپیوتر،دانشگاه ملی مهارت، تهران، ایران | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| چکیده | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| یادگیری عمیق، به عنوان یکی از زیرشاخههای مهم هوش مصنوعی، قابلیتهای فراوانی برای ارتقای سلامت انسان دارد. در سالهای اخیر، این فناوری به طور گستردهای برای تحلیل، پیشبینی و بهبود درمانهای بیماران مورد توجه قرار گرفته است. در این مطالعه، از الگوریتم یادگیری عمیق شبکه عصبی پیچشی (CNN) و روشهای پیشپردازش دادهها با استفاده از زبان برنامهنویسی پایتون، برای پیشبینی وضعیت مرگ یا زندگی بیماران مبتلا به هپاتیت C استفاده شده است. هدف اصلی این پژوهش، کمک به پزشکان در اتخاذ تصمیمات درمانی دقیقتر و مؤثرتر است. نتایج به دست آمده از این پژوهش نشان میدهد که رویکرد پیشنهادی با دقت 98% قادر به پیشبینی وضعیت بیماران هپاتیت C است. این دقت بالا، توانایی الگوریتمهای یادگیری عمیق در تحلیل دادههای حجیم و ارائه نتایج قابل اعتماد را به خوبی نشان میدهد. بر این اساس، استفاده از الگوریتمهای یادگیری عمیق مانند شبکههای عصبی پیچشی میتواند نقش مهمی در پیشبینی و شخصیسازی درمان بیماران داشته باشد. این امر میتواند به طور قابل توجهی به بهبود بهداشت و سلامت جامعه کمک کند، چرا که با دقت بالاتری میتوان وضعیت بیماران را پیشبینی و درمانهای مناسبتری ارائه داد. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| کلیدواژهها | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| یادگیری ماشین؛ یادگیری عمیق؛ هوش مصنوعی؛ الگوریتم CNN؛ هپاتیت C | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| اصل مقاله | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
مقدمه یادگیری عمیق با استفاده از شبکههای عصبی مصنوعی که از مغز انسان الهام گرفته شدهاند، قادر به یادگیری از دادههای حجیم و پیچیده و انجام وظایف مختلف با دقت بالا است (لی و لو، 2020). این فناوری در حال حاضر در حوزههای مختلفی از جمله بینایی رایانه، پردازش زبان طبیعی، رباتیک و تشخیص پزشکی بهطور گسترده استفاده میشود (گو و آلتمن، 2020). در سالهای اخیر، یادگیری عمیق بهعنوان ابزاری قدرتمند برای کشف و توسعه داروها و درمانهای جدید نیز ظهور کرده است. یادگیری عمیق میتواند در هر یک از مراحل زیر بهبودهایی ایجاد کند و فرایند کشف و توسعه دارو، همچنین تشخیص بیماریها را تسریع نماید. شناسایی هدف: یادگیری عمیق میتواند با تحلیل دادههای بیولوژیکی و ژنتیکی، مولکولها و پروتئینهای خاصی را که بهعنوان هدفهای دارویی بالقوه برای درمان هپاتیت C شناخته میشوند، شناسایی کند؛ این روش به دقت بیشتری نسبت به روشهای سنتی منجر میشود (لئو و لی، 2020). غربالگری مولکولها: شبکههای عصبی عمیق میتوانند با تحلیل دادههای شیمیایی، مولکولهایی که توانایی تعامل با اهداف دارویی هپاتیت C را دارند، با سرعت و دقت بالا غربال کنند. این امر باعث میشود که تعداد زیادی مولکول بهسرعت ارزیابی و مولکولهای کارآمدتر انتخاب شوند (مسترز و گرگوری، 2020؛ براون و سامانتا، 2019). آزمایشهای پیشبالینی: یادگیری عمیق میتواند با تحلیل دادههای آزمایشهای سلولی و حیوانی، ایمنی و اثربخشی مولکولهای منتخب را پیشبینی کند و به کاهش زمان و هزینههای این مرحله کمک کند (چن و وونگ، 2019؛ چینگ و همکاران، 2020). آزمایشهای بالینی: در مراحل بالینی، یادگیری عمیق میتواند با تحلیل دادههای بیمار و پیشبینی پاسخهای فردی به درمان، به بهینهسازی دوزها و روشهای درمانی کمک کند، که این امر به افزایش اثربخشی و کاهش عوارض جانبی منجر میشود (مسترز و گرگوری، 2020). با ترکیب این مراحل، یادگیری عمیق میتواند بهطور مؤثری در کشف و توسعه داروهای جدید برای هپاتیت C و بهبود درمانهای موجود کمک کند، که نهایتاً منجر به ارتقای سلامت و بهداشت جامعه میشود. بیماریهای متعددی بر کبد انسان تأثیر میگذارند، یکی از مهمترین آنها هپاتیت C است که توسط ویروس هپاتیت C ایجاد میشود و در صورت عدم شناسایی، میتواند منجر به مرگ شود (وانگ و همکاران، 2020). در برخی موارد، این ویروس ممکن است 10 الی 20 سال در بدن باقی بماند بدون اینکه فعال شود (ساچدوا و همکاران، 2023). تنها 30 درصد از بیماران بهطور خودبخود در عرض شش ماه بهبود مییابند، درحالیکه بیشتر آنها به عفونت مزمن مبتلا میشوند. دو مشکل عمده ناشی از عفونت مزمن هپاتیت C، سیروز و سرطان کبد است (علیزارگر و همکاران، 2023؛ رسلی و همکاران، 2018؛ ممدوح و همکاران، 2022). اغلب مبتلایان به هپاتیت C علائمی نشان نمیدهند و علائم زمانی ظاهر میشوند که بیماری پیشرفت کرده باشد. بیماران ممکن است احساس ضعف، خوابآلودگی و سرگیجه کنند که با خستگی ناشی از کار یا مطالعه اشتباه گرفته میشود. این موضوع نگرانکنندهتر میشود وقتی بدانیم واکسن هپاتیت C هنوز در دسترس نیست (استوکس و یانگ، 2020). هپاتیت C یک بیماری شایع است که بیش از 170 میلیون نفر را در سراسر جهان آلوده کرده است (واماتهوین و پاندی، 2020). تشخیص زودهنگام هپاتیت C برای درمان و پیشآگهی بسیار مهم است، در سالهای اخیر، تحقیقات زیادی برای توسعه سیستمهای تشخیص زودهنگام هپاتیت C با استفاده از الگوریتمهای یادگیری ماشین سنتی انجام شده است (ممدوح و همکاران، 2022؛ هوان و نگوین، 2023؛ چن و همکاران، 2018؛ گاوه و همکاران، 2016). اگرچه مدلهای موجود دقت نسبتاً خوبی دارند؛ اما هنوز اعتماد کامل پزشکان و بیماران را جلب نکردهاند. الگوریتمهای یادگیری عمیق قادر به تحلیل و پردازش حجم عظیمی از دادهها با دقت بسیار بالاتر نسبت به الگوریتمهای سنتی هستند (گو و آلتمن، 2020). این الگوریتمها میتوانند الگوها و روابط پیچیده در دادههای پزشکی را که ممکن است توسط انسان یا الگوریتمهای سنتی شناسایی نشود، تشخیص دهند و در نتیجه دقت تشخیص و پیشبینی وضعیت بیماران بهطور قابلتوجهی افزایش مییابد (ایکینز و پوهل، 2020). یکی از ویژگیهای بارز الگوریتمهای یادگیری عمیق، قابلیت خودآموزی و بهبود مستمر آنها است. این الگوریتمها با دریافت دادههای جدید و بهروزرسانی مدلهای خود، به مرور زمان دقت بیشتری پیدا میکنند (علیزارگر و همکاران، 2023). در دنیای پزشکی، دادههای بسیاری از منابع مختلف مانند آزمایشهای خون، تصاویر پزشکی و سوابق بیمار جمعآوری میشود و الگوریتمهای یادگیری عمیق قادر به پردازش و تحلیل این دادههای بزرگ و پیچیده به صورت کارآمد هستند (چن و وونگ، 2019). تحلیل دقیق دادههای بالینی و بیوشیمیایی میتواند به تشخیص زودهنگام و پیشبینی بهتر کمک کند. این الگوریتمها همچنین توانایی ارائه درمانهای شخصیسازی شده را دارند (ممدوح و همکاران، 2022). با تحلیل دقیق دادههای فردی بیماران، راهکارهای درمانی منحصر به فردی پیشنهاد میشود که با نیازها و شرایط خاص هر بیمار سازگار است و میتواند بهبود قابل توجهی در نتایج درمانی و کاهش عوارض جانبی داشته باشد (رسلی و همکاران، 2018). بنابراین استفاده از الگوریتمهای یادگیری عمیق در تشخیص و پیشبینی وضعیت بیماران مبتلا به هپاتیت C از اهمیت و ضرورت ویژهای برخوردار است. این الگوریتمها با دقت و کارایی بالا، قابلیت خودآموزی و توانایی پردازش دادههای بزرگ و پیچیده، میتوانند بهبود قابل توجهی در نتایج تشخیص و درمان این بیماری ایجاد کنند. با رفع چالشهای موجود و بهرهگیری از این فناوریها، میتوان گام بزرگی در جهت مقابله با هپاتیت C و بهبود سلامت عمومی برداشت. در رویکرد پیشنهادی پژوهشگر سعی کرده است تا با بهکارگیری از الگوریتم یادگیری عمیق در زبان برنامهنویسی «پایتون»[1]، معایب الگوریتمهای یادگیری ماشین سنتی را که پیشتر ذکر گردیده بود را بهبود دهد. بنابراین از الگوریتم یادگیری عمیق CNN و روش بالانس کردن دادهها در پیشپردازش، بهعنوان یک نوآوری در پیشبینی وضعیت بیماران مجموعه داده هپاتیت C استفاده شده است. به این شکل که ابتدا مجموعه داده هپاتیت C با استفاده از روشهای پیشپردازش از لحاظ ساختار کمی و محتوای کیفی بهبود یافته سپس با استفاده از الگوریتم یادگیری عمیق CNN به تشخیص وضعیت بیماران پرداخته میشود.
در زمینه استفاده از الگوریتمهای یادگیری ماشین و عمیق برای پیشبینی و تشخیص هپاتیت C، چندین مطالعه قابل توجه انجام شدهاند که از روشهای مختلفی بهره بردهاند، در ادامه برخی از آنها تشریح داده شدهاند. (هوان و نگوین، 2023) از دادههای تست خون روزانه برای تشخیص بیماری هپاتیت C استفاده کردهاند. آنها از شش الگوریتم ماشین بردار پشتیبان، K نزدیکترین همسایه، رگرسیون لجستیک، درخت تصمیم، XGBoost و شبکه عصبی مصنوعی برای یافتن مدلهای مناسب که بتوانند بیماری هپاتیت C را تشخیص دهند، استفاده کردهاند. در نهایت الگوریتمهای SVM و XGBoost بهترین دقت (8/96) را از میان سایر الگوریتمهای داشتند. (ممدوح و همکاران، 2022) چهار مدل یادگیری ماشین شامل بیز ساده (NB)، RF، KNN و رگرسیون لجستیک را برای پیشبینی هپاتیت C با مجموعه دادهای شامل 859 بیمار توسعه دادند. در نهایت مدل RF با دقت 88/94 درصد بهعنوان بهترین الگوریتم برای تشخیص بیماری هپاتیت C انتخاب شد. (ما و همکاران، 2020) مدلهای مختلف دستهبندی را برای پیشبینی بیماری هپاتیت C دادههای جمعآوری شده از 615 نفر ارائه دادند. در مطالعه آنها، الگوریتم XGBoost با دقت 56/91 درصد از سایر مدلها بهتر عمل کرد. (هاشم و همکاران، 2018) چندین رویکرد یادگیری ماشین را برای توسعه مدلهای دستهبندی برای پیشبینی هپاتیت C مزمن پیشرفته با استفاده از دادههای بالینی اعمال کردند. آنها مدلهای درخت تصمیم، رگرسیون خطی چند متغیره، بهینهسازی گروه ذرات و الگوریتمهای ژنتیک را برای پیشبینی هپاتیت C مزمن پیشرفته توسعه دادند. برای ارزیابی عملکرد مدلهای پیشنهادی، از مشخصههای عملکرد اخباری (ROC) استفاده شد. با دقت در بازهای از 3/66 درصد تا 4/84 درصد و AUROC از 73/0 تا 76/0، این الگوریتمها توانستند بهطور موفقیتآمیز هپاتیت C مزمن پیشرفته را در بیماران مبتلا به کارسینوم هپاتوسلولی (HCC)، را پیشبینی کنند. (علیزارگر و همکاران، 2023) یک مدل جدید برای تشخیص مرحلههای مختلف هپاتیت C با استفاده از شبکه عصبی مصنوعی پسانتشار (ANN) ارائه داده است. مدل پیشنهادی شامل لایه ورودی، لایه پنهان و لایه خروجی است که با استفاده از دادههای دریافتی از بیماران، وجود هپاتیت C را پیشبینی میکند. این مدل دقت بالایی را در پیشبینی مراحل مختلف بیماری نشان داده است. (احمد و همکاران، 2020) در این مطالعه سه الگوریتم یادگیری ماشین را پیادهسازی نموده و نشان دادند که KNN با دقت 40/94 درصد بهترین عملکرد را دارد (ناندیپاتی و همکاران، 2020) دریافتند که برچسبهای دوکلاسی در مقایسه با برچسبهای چندکلاسی عملکرد بهتری دارند و با استفاده از مدل جنگل تصادفی (RF) به دقت 56/54 درصد دست یافتند (عبدالسلام و همکاران، 2019) آنها از مدلهای چندگانه طبقهبندی استفاده کرده و به دقتهایی بین 6/65 درصد تا 9/68 درصد دست یافتند (سیافا و همکاران، 2021) آنها چندین الگوریتم را ارزیابی کرده و دریافتند که شبکههای عصبی با دقت 12/95 درصد بهترین عملکرد را دارند. (شی و همکاران، 2020) چهار تکنیک یادگیری ماشین را استفاده کرده و دریافتند که روش درخت تصمیم با دقت 44/93 درصد بهترین عملکرد را برای طبقهبندی و تشخیص هپاتیت C دارد. این مطالعات نشان میدهند که الگوریتمهای مختلف یادگیری ماشین میتوانند ابزارهای مؤثری برای تشخیص و پیشبینی هپاتیت C باشند. همچنین، استفاده از دادههای آزمایش خون معمولی و ارزان قیمت میتواند به افزایش دقت پیشبینی کمک کند. هدف این مطالعات انتخاب بهترین الگوریتمها برای پیشبینی هپاتیت C بر اساس دادههای آزمایش خون معمولی و ارزان قیمت بوده است. در ادامه به بررسی و ارائه رویکرد پیشنهادی برای تشخیص وضعیت بیماران هپاتیت C با استفاده از الگوریتم CNN پرداخته شده است. یادگیری عمیق بهعنوان ابزاری قدرتمند در حال دگرگونیِ فرایند کشف و توسعه دارو است. این فناوری با استفاده از شبکههای عصبی مصنوعی قادر به یادگیری از دادههای حجیم و پیچیده و انجام وظایف مختلف با دقت بالا است. جدول 1، برخی از ابزارها و الگوریتمهای رایج یادگیری عمیق را نشان میدهد. جدول 1: الگوریتمهای یادگیری عمیق در طراحی دارو
منبع: (جنتایل و همکاران، 2020؛ کورتکوف و همکاران، 2017؛ ریفایوغلو و همکاران، 2019)
در ادامه به معرفی الگوریتم یادگیری عمیق CNN و انواع پارامترهای ارزیابی الگوریتمهای یادگیری عمیق در تشخیص بیماریها پرداخته میشود، از این پارامترها در بخش 3 برای ارزیابی رویکرد پیشنهادی استفاده شده است.
2-1. شبکههای عصبی پیچشی (CNN) شبکههای عصبی پیچشی یا CNN (Convolutional Neural Networks) نقش مهمی در پیشرفتهای اخیر در حوزه یادگیری عمیق و بینایی ماشین ایفا کردهاند (صالحی و همکاران، 2023). در ادامه، به توضیح مفاهیم اساسی و کاربردهای CNN پرداخته شده است.
2-1-1. ساختار و عملکرد CNN
پس از چندین لایه پیچشی و تجمع، نقشههای ویژگی به یک بردار مسطح تبدیل میشوند که به لایههای تمام متصل میشود. این لایهها برای انجام طبقهبندی یا پیشبینی استفاده میشوند (صالحی و همکاران، 2023).
بسته به نوع مسئله (طبقهبندی، تشخیص اشیا و غیره)، لایه خروجی شامل یک تابع فعالسازی مانند softmax برای طبقهبندی است که نتایج نهایی را ارائه میدهد (شانگ و همکاران، 2024).
استخراج ویژگی خودکار: برخلاف روشهای سنتی که نیاز به استخراج دستی ویژگیها داشتند، CNN ها بهطور خودکار ویژگیهای مناسب را از تصاویر استخراج میکنند (ارکین و همکاران، 2023). محلی بودن ارتباطات: فیلترهای پیچشی تنها بخشهای محلی تصویر را بررسی میکنند که باعث کاهش تعداد وزنهای قابل یادگیری و افزایش کارایی شبکه میشود (صالحی و همکاران، 2023). مقیاسپذیری: CNN ها میتوانند با انواع مختلف دادههای تصویری کار کنند و بهراحتی با اندازه و مقیاس تصویر سازگار شوند (صالحی و همکاران، 2023). کاهش ابعاد: با استفاده از لایههای تجمع، ابعاد دادهها کاهش یافته و پردازش آسانتر میشود درحالیکه ویژگیهای مهم حفظ میشوند (ارکین و همکاران، 2023).
تشخیص اشیاء و چهره: CNN ها بهطور گسترده در تشخیص و شناسایی اشیا و چهرهها در تصاویر و ویدئوها استفاده میشوند (صالحی و همکاران، 2023). تصویرسازی پزشکی: در تشخیص بیماریها از تصاویر پزشکی مانند MRI ، CTاسکن و تصاویر رادیولوژی کاربرد دارند (ارکین و همکاران، 2023). خودروهای خودران: در تحلیل و درک تصاویر دوربینهای نصب شده روی خودروها برای شناسایی موانع و علائم راهنمایی رانندگی (صالحی و همکاران، 2023). فیلترهای عکس و واقعیت افزوده: در برنامههای موبایل برای اعمال فیلترهای واقعیت افزوده بر روی تصاویر و ویدئوها (ارکین و همکاران، 2023). شبکههای عصبی پیچشی (CNN) یکی از قدرتمندترین و پرکاربردترین الگوریتمهای یادگیری عمیق هستند که با توانایی بالای خود در استخراج ویژگیهای مهم از دادههای تصویری، انقلابی در زمینههای مختلف از جمله بینایی ماشین، پزشکی و فناوریهای هوشمند ایجاد کردهاند. این شبکهها با ساختار خاص و لایههای متعدد خود، توانایی شناسایی و طبقهبندی دقیق تصاویر را دارند و در بسیاری از برنامههای کاربردی دنیای واقعی به کار گرفته میشوند.
2-2. پارامترهای ارزیابی در ارزیابی مطالعات پیشبینی بیماریها با استفاده از یادگیری عمیق، معمولاً از چندین پارامتر مختلف برای سنجش عملکرد مدلها و کیفیت نتایج استفاده میشود. در زیر پارامترهای اصلی ارزیابی این نوع مطالعات به همراه توضیح و رابطه ریاضی ارائه شده است: ۱. معیار دقت (Accuracy): نسبت تعداد نمونههای درست تشخیص داده شده توسط مدل به کل تعداد نمونهها. دقت به صورت رابطه 1 محاسبه میشود (کرکاوسکایت و همکاران، 2016).
که TP تعداد نمونههای مثبت درست، TN تعداد نمونههای منفی درست، FP تعداد نمونههای مثبت اشتباه و FNتعداد نمونههای منفی اشتباه است.
۲. معیار فراخوانی (Recall) : نسبت نمونههای مثبت درست پیشبینیشده به مجموع نمونههای مثبت واقعی است. فراخوانی به صورت رابطه 2 محاسبه میشود (کرکاوسکایت و همکاران، 2016).
۳. معیار واقعاً مثبت (Precision) : نسبت نمونههای مثبت درست پیشبینیشده به مجموع نمونههای پیشبینیشده بهعنوان مثبت است. معیار واقعاً مثبت به صورت رابطه 3 محاسبه میشود (کرکاوسکایت و همکاران، 2016).
۴. معیار F1 (F1 Score): یک میانگین هارمونیک از معیار فراخوانی و معیار واقعاً مثبت است و برای مواقعی که دستهبندی نمونهها نیاز به توازن بین معیار فراخوانی و معیار واقعاً مثبت دارد، مورد استفاده قرار میگیرد. معیار F1 به صورت رابطه 4 محاسبه میشود (کرکاوسکایت و همکاران، 2016).
۵. منحنی ROC : یک رسم نمودار از نرخ واقعی مثبت (TPR) در مقابل نرخ اشتباه مثبت (FPR) برای مدلهای طبقهبندی. منحنی ROC بهعنوان یک معیار برای اندازهگیری عملکرد مدلهای طبقهبندی استفاده میشود (ما و همکاران، 2020). خوب، بیایید یک مثال عددی برای استفاده از پارامترهای ارزیابی در طراحی دارو با استفاده از یادگیری عمیق را ببینیم. فرض کنید که ما از یک مدل یادگیری عمیق برای پیشبینی فعالیت دارویی استفاده کردهایم. برای ارزیابی این مدل، ما دو کلاس داریم: فعال و غیرفعال. بر اساس خروجی مدل، داروها بهعنوان فعال (مثبت) یا غیرفعال (منفی) دستهبندی میشوند. حال فرض کنید ما یک مدل آموزش دادهایم و از آن در مجموعه داده آزمون استفاده میکنیم. این مجموعه داده شامل 1000 نمونه است؛ از جمله 400 نمونه فعال و 600 نمونه غیرفعال است. حالا فرض کنید که ماتریس درهمریختگی مدل ساخته شده به صورت جدول 2 عمل کرده است: جدول 2: مقادیر پارامترهای ارزیابی
با استفاده از این اطلاعات، میتوان پارامترهای ارزیابی را طبق جدول 3 محاسبه کرد.
جدول 3: نتایج پارامترهای ارزیابی
همچنین میتوان برای ارزیابی مدل یادگیری عمیق ساخته شده از نمودار ROC نشان داده شده در شکل 2 استفاده کرد. شکل 2: نمودار ROC
نمودار ROC (Receiver Operating Characteristic) ارائه شده در شکل 2 یکی از مهمترین ابزارهای ارزیابی در زمینه دستهبندی بر اساس مدلهای آماری است. این نمودار به ما کمک میکند تا عملکرد مدل دستهبندی را در مخاطبی متغیر با توجه به تغییر حد آستانه بهطور همزمان از دیدگاه دو معیار ارزیابی، یعنی True Positive Rate (TPR) و False Positive Rate (FPR) بررسی کنیم. در نمودار ROC محور افقی (X) مربوط به FPR و محور عمودی (Y) مربوط به TPR است. در نمودار مذکور، ما یک نقطه داریم که به مقدار FPR و TPR مربوط میشود. این نقطه نشاندهنده عملکرد مدل دستهبندی ما است. مساحت زیر نمودار (Area Under the Curve - AUC): مساحت زیر منحنی ROC (AUC) میزان کلی کیفیت مدل دستهبندی را نشان میدهد AUC بین 0 و 1 است، که یک AUC برابر با 1 بهترین عملکرد را نشان میدهد و یک AUC برابر با 5/0 بهعنوان عملکرد تصادفی مدل را نشان میدهد.
در این پژوهش، یک رویکرد جامع برای تشخیص و پیشبینی وضعیت بیماران مبتلا به هپاتیت C ارائه شده است که شامل سه مرحله اصلی است (شکل 3). در مرحله اول، مجموعه داده هپاتیت C از «دانشگاه کارنگی ملون»[2] بهعنوان داده ورودی استفاده شده است. سپس، فرایندهای پیشپردازش دادهها انجام شده است. این فرایندها شامل استفاده از روشهای مد، میانگین و بالانس برای تکمیل مقادیر گمشده و متوازن کردن دادهها است. این اقدامات برای بهبود کیفیت دادهها و اطمینان از تعادل در مجموعه دادهها انجام شده است تا مدل بتواند با دقت بیشتری آموزش ببیند و نتایج معتبرتری ارائه دهد. در مرحله سوم، مدل یادگیری عمیق شبکه عصبی پیچشی (CNN) روی مجموعه داده پیشپردازش شده آموزش دیده و ارزیابی شده است. شبکه عصبی پیچشی به دلیل توانایی بالا در تشخیص الگوهای پیچیده در دادهها، انتخاب مناسبی برای این نوع پیشبینیها است. پس از آموزش، مدل با استفاده از دادههای آزمایشی ارزیابی میشود. در ادامه جزئیات هر یک از مراحل ذکر شده و نتایج نهایی ارزیابی مدل توسعه داده شده، در بخش 3 ارائه شده است.
شکل 3: مراحل رویکرد پیشنهادی 3-1. مجموعه داده هپاتیت مجموعه داده هپاتیت توسط دانشگاه کارنگی ملون بهمنظور توسعه و تست مدلهای پیشبینی کننده جمعآوری و استفاده میشود (هپاتیت، 1988). این مجموعه داده بهخصوص برای مسائل طبقهبندی و تحلیل پزشکی کاربرد دارد (رسلی و همکاران، 2018). مجموعه داده هپاتیت C دانشگاه کارنگی ملون معتبر است؛ زیرا چندین عامل کلیدی اعتبار آن را تضمین میکنند. نخست، دادهها توسط محققان و متخصصان مجرب در دانشگاه کارنگی ملون جمعآوری و مدیریت میشوند، که خود یکی از معتبرترین مؤسسات آموزشی و پژوهشی در جهان است (هپاتیت، 1988). دوم، روشهای علمی دقیق و استانداردهای بالا در جمعآوری و ثبت اطلاعات رعایت شدهاند، که از صحت و دقت دادهها اطمینان میدهد (رسلی و همکاران، 2018). سوم، این مجموعه داده بهطور گسترده در پژوهشهای علمی و مقالات معتبر استفاده و استناد شده است، که نشاندهنده پذیرش و تأیید جامعه علمی است (هپاتیت، 1988). نهایتاً، مجموعه دادهها بهصورت شفاف و با مستندسازی کامل ارائه میشوند، که امکان بررسی و بازتولید نتایج را برای سایر محققان فراهم میسازد. مجموعه داده هپاتیت شامل 18 نوع از مشخصات و نتایج آزمایشهای گرفته شده از 155 بیمار مبتلا به هپاتیت C است. ویژگیهای موجود در این مجموعه داده از نظر پزشکی بسیار مهم بوده و میتوانند برای تشخیص بیماریهای کبدی یا فراهم آوردن پیشنهادهایی در مورد شدت بیماری و پیشبینی نتایج درمان استفاده شوند (احمد و همکاران، 2020). این مجموعه داده اغلب برای آزمایش الگوریتمهای طبقهبندی مثل درخت تصمیم، شبکههای عصبی و ماشینهای بردار پشتیبان استفاده میشود (رسلی و همکاران، 2018). هدف از این آزمایشها میتواند شامل پیشبینی پیشرفت بیماری، تعیین اثربخشی درمانها یا ارزیابی ریسکهای پزشکی باشد (هپاتیت، 1988). دقت و کامل بودن مجموعه داده بسیار مهم است؛ برخی از ویژگیها ممکن است دادههای گمشده داشته باشند و در این صورت روشهای مختلفی برای مقابله با دادههای گمشده باید به کار گرفته شود. مجموعه داده هپاتیت UCI یک ابزار ارزشمند برای جامعه علم داده است و امکان دسترسی به یک مجموعه داده واقعی را فراهم میکند که میتواند برای تقویت تحقیقات پزشکی و توسعه فناوریهای جدید پزشکی استفاده شود (هپاتیت، 1988). مجموعه داده هپاتیت C شامل 19 ویژگی و یک برچسب کلاس است که نشاندهنده وضعیت بیمار است (مثلاً زنده یا فوت شده). ویژگیها عبارتند از:
در نهایت ویژگی وضعیت بیمار (Class) نیز بهعنوان ویژگی هدف در مجموعه داده نشاندهنده زنده بودن و نبودن بیمار است. همه ویژگیها براساس نتایج آزمایش و مشاهدات پزشکی جمعآوری شدهاند. هنگام جمعآوری ویژگیها از بیماران، اطلاعات مربوط به چند ویژگی جمعآوری نشده است که در بخشهای بعدی با استفاده از روشهای پیشپردازش این مورد بهبود داده شده است.
3-2. پیشپردازش دادهها مقادیر برخی از ویژگیهای بیماران هپاتیت در مجموعه داده ثبت نشده است که باعث وجود دادههای نویزی و کاهش دقت نهایی مدل دستهبندی میگردد. شکل 4 وضعیت ویژگیهای نویزی در مجموعه داده هپاتیت C را نشان میدهد. شکل 4: وضعیت ویژگیهای نویزی مجموعه داده هپاتیت C
با توجه به شکل 4، حدود 15 ویژگی دارای مقادیر نویزی میباشند که در این بین ویژگیهای پروترومبین، آلبومین و آلکالین فسفاتاز دارای بیشترین مقادیر نویزی میباشند. با استفاده از کتابخانه pandas مقادیر نویزی 15 ویژگی مجموعه داده هپاتیت با توجه به نوع ساختار مقادیر آنها بهبود پیدا کرد. بنابراین برای بهبود ویژگیهای نویزی که دارای مقادیر اسمی بودند از روش مد و برای بهبود ویژگیهای نویزی که دارای مقادیر عددی بودند از روش میانگین استفاده شد. روشهای مد و میانگین دو تکنیک آماری هستند که میتوانند برای کاهش نویز موجود در ویژگیهایی که دارای تغییرات اتفاقی هستند، استفاده شوند. هرکدام از این روشها به نحوی خاصی نویز را کاسته و نمایش بهتری از دادهها را ارائه میدهند. استفاده از روشهای پیشپردازش مانند مد و میانگین در بسیاری از کارهای یادگیری ماشین و یادگیری عمیق (جنتایل و همکاران، 2020؛ کورتکوف و همکاران، 2017؛ ریفایوغلو و همکاران، 2019) بهعنوان یک روش معمول پیشپردازش استفاده میشود. استفاده از میانگین برای کاهش نویز در دادهها یکی از سادهترین و مؤثرترین روشهای پردازش سیگنال است (ناندیپاتی و همکاران، 2020). اگر دادههای شما دارای نویز تصادفی باشند، میانگینگیری میتواند تأثیر نویز را کاهش دهد، زیرا نویزهای مثبت و منفی با یکدیگر خنثی میشوند (عبدالسلام و همکاران، 2019). برای اعمال این روش، شما میتوانید مقادیر چندین مشاهده متوالی را بگیرید و میانگین آنها را بهعنوان مقدار جدید برای هر نقطه از دادهها در نظر بگیرید. این کار موجب میشود که نوسانات تصادفی کاهش یابند و دادهها صافتر به نظر برسند (سیافا و همکاران، 2021). روش مد برای کاهش نویز در دادههای دستهبندی شده یا گسسته کاربرد دارد. مُد، مقداری است که بیشترین بار در دادهها ظاهر شده است (ناندیپاتی و همکاران، 2020). از این روش برای جایگزینی ویژگیهای دارای نویز با مقداری که بیشترین تکرار را دارد، استفاده میشود. این کار بهویژه در مواردی که دادهها دچار خطاهای اندازهگیری یا تخمینهای نادرست هستند، سودمند است (عبدالسلام و همکاران، 2019).
3-3. بالانس کردن مجموعه داده یکی از معایب مجموعه داده هپاتیت، توزیع نامتوازن کلاسهای آن است. از بین 155 رکورد موجود در مجموعه داده هپاتیت تنها 32 رکورد آن دارای برچسب die بوده و مابقی دارای برچسب live میباشند. بنابراین مدل یادگیری عمیق ممکن است برای پیشبینی برچسب live آموزش کاملتری ببیند. برای آموزش بالانس الگوریتم یادگیری عمیق باید مجموعه دادهای با توزیع متوازنی از کلاسها وجود داشته باشد. در رویکرد پیشنهادی علاوه بر الگوریتم یادگیری عمیق CNN، همچنین از روش ترکیب Over-Sampling و Under-Sampling بهعنوان یک نوآوری، برای بالانس کردن کلاسهای مجموعه داده هپاتیت استفاده شده است. شکل 5 نتیجه قبل و بعد از فرایند بالانس کردن مجموعه داده هپاتیت را با استفاده از روش ترکیبی نشان میدهد. همانطور که از شکل 5 مشخص است بعد از فرایند بالانس کردن مجموعه داده تعداد رکوردها با کلاس die به 50 عدد افزایش یافته و تعداد رکوردها با کلاس live به 83 عدد کاهش پیدا کرده است. بنابراین 155 رکورد غیربالانس مجموعه داده اولیه هپاتیت به 133 رکورد بالانس تبدیل میگردد.
شکل 5: وضعیت رکوردهای مجموعه داده هپاتیت C قبل و بعد از بالانس
در ادامه از الگوریتم یادگیری عمیق CNN برای پیشبینی وضعیت نهایی بیماران هپاتیت C استفاده شده است. Training set و Test set به ترتیب 80 و 20 درصد از مجموعه داده هپاتیت است که به ترتیب برای آموزش و ارزیابی مدل یادگیری عمیق CNN استفاده شده است. ماتریس در هم ریختگی با مقادیر پارامترهای TP، FP، FN و TN به دست آمده از نتایج پیشبینی مدل یادگیری عمیق CNN در شکل 6 نشان داده شده است.
شکل 6: ماتریس درهمریختگی
حال با به دست آوردن چهار پارامتر TP، FP، FN و TN در ماتریس درهمریختگی، جدول 4 مقادیر چهار پارامتر ارزیابی الگوریتم یادگیری عمیق CNN را قبل و بعد از فرایند بالانس کردن مجموعه داده هپاتیت C نشان میدهد. جدول 4: مقادیر پارامترهای ارزیابی
شکل 7: مقایسه نرخ صحت رویکرد پیشنهادی با سایر کارهای انجام شده شکل 7 نشان میدهد که نرخ دقت رویکرد پیشنهادی نسبت به سایر کارها از برتری بیشتری برخوردار است. بنابراین پزشکان با دقت و صحت بیشتری میتوان به تشخیص وضعیت بیماران و ارائه تصمیم صحیح برای بهبود بیماران هپاتیت C بپردازند.
شکل 8: نمودار ROC الگوریتم یادگیری عمیق CNN
نتیجهگیری و پیشنهاد استفاده از الگوریتم یادگیری عمیق CNN در تشخیص وضعیت بیماران هپاتیت C با دقت 98 درصد یک نقطه عطف مهم در توسعه فناوری پزشکی است. یادگیری عمیق، با بهرهگیری از شبکههای عصبی عمیق، قادر به تحلیل دقیق دادههای پزشکی هستند و الگوهای پیچیده در دادهها را شناسایی میکنند که بهطور معمول برای انسانها قابل تشخیص نیستند. این دقت بالا به پزشکان امکان میدهد تا با اطمینان بیشتری تشخیص دهند و برنامهریزی درمانی را بهینهتر انجام دهند. علاوه بر این، استفاده از یادگیری عمیق بهبود مهمی در فرایندهای تشخیصی و مدیریت بیماری به وجود میآورد. این روشها همچنین میتوانند به پزشکان ایران و جهان بهعنوان ابزاری پشتیبانیکننده در تصمیمگیریهای بالینی ارائه شوند؛ ازهمینرو، اثربخشی درمانها افزایش یافته و هزینههای بهداشتی کاهش مییابد. بهطور کلی، این نگرش نه تنها به بهبود تشخیص بیماری کمک میکند، بلکه به بهبود کیفیت مراقبت از بیماران و کاهش هزینههای مربوط به درمان نیز منجر میشود. با توجه به استفاده از الگوریتم یادگیری عمیق CNN برای تشخیص بیماری هپاتیت C، میتوان پیشنهادهای زیر را برای کارهای آینده ارائه داد:
[1]. Python [2]. Carnegie Mellon University | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| مراجع | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
References
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
آمار تعداد مشاهده مقاله: 359 تعداد دریافت فایل اصل مقاله: 101 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||