دانشمندان علوم کامپیوتر شاغل در گوگل و DeepMind(یک شرکت هوش مصنوعی) نسخهای از یک برنامه پزشک بالینی هوش مصنوعی ارائه دادند که میتواند با توجه به شرایط و علائم داده شده، و بکارگیری یک مدل زبانی بزرگ به نام PaLM، بیماری را تشخیص دهد.
بر اساس پیش مقاله اصلی منتشر شده توسط این گروه، مدل آنها توانست در یک آزمون آزمایشی که حاوی سوالاتی از آزمون مجاز پزشکی ایالات متحده بود، و با توجه به ادعای آنها مبنی بر پیشرفت ۱۷ درصدی نرمافزارهای پیشرفته قبلی، ۶۷.۶٪ امتیاز کسب کند. نتیجه کار یک نسخه از این مدل، با کار پزشکان انسانی در یک سطح قرار داشت. اما هشدارهای زیادی در مورد این الگوریتم و موارد مشابه آن وجود دارد.
این مدل بر اساس مجموعهای از اطلاعات که مبنی بر بیش از ۳۰۰۰ سوال پزشکی رایج جستجو شده (در اینترنت) و همچنین اطلاعات ۶ پایگاه داده باز مختص به پرسش و پاسخهای پزشکی، که شامل معاینات پزشکی و تحقیقات در مورد موارد پزشکی است، ترتیب داده شده است. محققان در مرحله آزمایشی، پاسخهای دریافتی از دو نسخه از هوش مصنوعی را با پزشکان انسان مقایسه کردند و این پاسخها را از نظر دقت، واقعی بودن، مرتبط بودن، مفید بودن، سازگاری با نظریات جامع علمی کنونی، ایمنی و جهتگیری بررسی کردند.
آدریانا پورتر فلت، که یک مهندس نرمافزار است و در گوگل کروم کار میکند و در این مطالعه شرکت نداشته است، در توییتر گفت که نسخهای از این مدل که همانند پزشکان به سوالات پزشکی مشابهی پاسخ دهد، باید دارای یک ویژگی باشد که به آن اضافه شود و آن « تنظیم دستورالعمل است. این کار یک فرآیند انسانی است و از آنجایی که کاری پر زحمت است، ارزش این همه زحمت را ندارد». این شامل اصلاح دقیق عبارات پرسشهاست که به روش خاصی هستند و به هوش مصنوعی اجازه میدهد تا اطلاعات صحیح را بازیابی کند.
محققان در این مقاله نوشتند که: «این مدل به طرز دلگرم کنندهای عمل میکند، اما هنوز در سطح پایینتری نسبت به پزشکان قرار دارد.» و اینکه: «درک این مدل در زمینه پزشکی، بازیابی و یادآوری دانش و استدلال پزشکی، با مدل تحقیقاتی و تنظیم سریع دستورالعملها بهبود خواهد یافت.» مثلا هر نسخه از هوش مصنوعی در مقایسه با پاسخهای انسانی، اطلاعات مهمی را از دست داده بود و شامل محتوای نادرست و نامناسبی بود.
مدلهای گفتاری در حال بهتر شدن در توانایی تجزیه اطلاعات پیچیده هستند. و به نظر میرسد که آنها با وظایفی که نیاز به دانش و استدلال علمی دارند، خوب عمل میکنند. چندین مدل کوچک از جمله SciBERT و PubMedBERT برای درک متونی که مملو از اصطلاحات تخصصی هستند، مرزهای مدلهای زبانی را جابجا کردهاند.
اما در زمینههای زیست پزشکی و علمی، عوامل پیچیده و ناشناخته بسیار زیادی وجود دارند. و اگر هوش مصنوعی اشتباه کند چه کسی مسئولیت آن را به عهده خواهد گرفت؟ از آنجایی که اطلاعات بسیاری از الگوریتمها مانند یک جعبه سیاه کار میکند، آیا میتوان منبع خطا را شناسایی و آن را ردیابی کرد؟ علاوه بر این، الگوریتمها(که شامل دستورالعملهای ریاضی هستند که توسط برنامهنویسان به کامپیوتر داده میشوند)، ناقص هستند و نیاز به دادههای آموزشی کامل و صحیح دارند که این موضوع در هر شرایط و در همه جا در دسترس نخواهد بود. به علاوه خرید و سازماندهی دادههای مرتبط با سلامت میتواند گران باشد.
پاسخ صحیح به پرسشهای یک آزمون استاندارد چندگزینهای، نشانه هوش نیست. و ممکن است توانایی تحلیلی کامپیوتر، در مواجه با یک مورد پزشکی بالینی در دنیای واقعی، بسیار پایین باشد. بنابراین با اینکه این آزمایشها از نظر تئوری جالب به نظر میرسند، اما هنوز بیشتر این هوشهای مصنوعی آمادگی لازم را ندارند تا به طور کامل بکار گرفته شوند. پروژه سلامت هوش مصنوعی IBMواتسون را در نظر بگیرید. این پروژه با وجود میلیونها دلار سرمایهگذاری، همچنان مشکلات متعددی داشت و به اندازه کافی کاربردی و انعطافپذیر نبود و نهایتا تجزیه و اجزاء آن فروخته شدند.
گوگل و DeepMind به خوبی محدودیتهای این فناوری را میشناسند. آنها در مقاله خود نوشتند برای اینکه این مدل واقعا مفید باشد باید در برخی از زمینهها توسعه و بهبود پیدا کنند. زمینههایی نظیر یافتن پاسخها در منابع معتبر و به روز پزشکی، و توانایی تشخیص و برقراری ارتباط موثر و مفید با بیمار یا پزشک معالج.