في تطور طبي عالمي بارز، كشفت دراسة حديثة أجراها باحثون من كلية الطب بجامعة هارفارد وجامعة ستانفورد، أن نموذج الذكاء الاصطناعي o1 في وضعه التجريبي من شركة OpenAI، قد يتفوق على عمل الأطباء في موضوع تشخيص حالات طبية معقدة.
نموذج الذكاء الاصطناعي o1 وفي التفاصيل، خضع النموذج خلال هذه الدراسة لسلسلة شاملة من اختبارات التشخيص الطبي، حيث أظهرت نتائج الدراسة أنه حقق قفزات وُصفت بـ"النوعية"، مقارنةً بالإصدارات السابقة، إذ تمكن نموذج "o1-preview" من تشخيص ما يصل إلى 78.3% من الحالات التي حُللت بشكل دقيق.
وفي مقارنة مباشرة شملت 70 حالة محددة، ارتفعت دقة هذا النظام إلى نسبة 88.6%، متفوقًا بفارق كبير على نظام "GPT-4" السابق، الذي كان قد سجل في وقت سابق نسبة قدرها 72.9%.
إلى ذلك، أثبت النظام كفاءة عالية في مجال التفكير الطبي، إذ حاز على درجات عالية في 78 حالة من أصل 80، وفق مقياس "R-IDEA"، الذي يتم استخدامه لتقييم جودة الاستدلال والتفكير الطبي.
وللمقارنة، حقق الأطباء المتمرسون درجات عالية ضمن 28 حالة فقط، في حين لم يستطع أطباء مقيمون متدربون، في الحصول على درجات عالية، سوى في 16 حالة.
وأشار باحثون إلى احتمال تضمن بيانات التدريب الخاصة بالنموذج، بعض الحالات المستخدمة في الدراسة، لكن أداء هذا النموذج ظل مرتفعًا بسنبة كبيرة، عند اختباره على حالات جديدة، لم يسبق أن قام بالتعامل معها، مع تسجيل انخفاض طفيف في الأداء.
انعكاسات ضخمة على عالم الطب وفي تعليق له عبر منصة إكس، صرح أحد المشاركين في الدراسة الدكتور آدم رودمان، قائلًا: "هذه أول مرة أروّج فيها لمسودة دراسة قبل مراجعتها بالكامل، ولكنني أعتقد أن نتائجنا تحمل انعكاسات كبيرة على الممارسة الطبية، لذا كان من الضروري نشرها سريعًا".
وبرز نموذج "o1-preview" بنحو خاص في إدارة الحالات الطبية المعقدة، التي قام بتصميمها 25 أخصائيًا، لتكون تحديًا للنموذج وللأطباء في نفس الوقت. وعلّق رودمان قائلًا: "واجه البشر صعوبات متوقعة، في حين أظهر النموذج أداءً مذهلًا لا يحتاج إلى إحصائيات لتوضيح تفوقه".
وفي هذه الحالات، سجل النموذج 86% من النقاط، وهو أكثر من ضعف ما حققه الأطباء باستخدام نموذج "GPT-4"، أو الأدوات التقليدية الأخرى.
ومع ذلك، يعاني هذا النظام من مشاكل في تقدير الاحتمالات، إذ لم يُظهر تحسينات مذكورة مقارنةً بالنماذج التي سبقته.
فعلى سبيل المثال، قدر النموذج احتمال الإصابة بالالتهاب الرئوي بنسبة قدرها 70% في الحالات، وهي نسبة أعلى بكثير من النطاق العلمي المتعارف عليه بين 25 و42%.
وأوضح مؤسسو "OpenAI"، أن الأنظمة الحالية ما زالت تعاني نقصًا كبيرًا في التدريب، وهي بحاجة إلى التدريب بما يتراوح بين 100 و1000 ضعفٍ، إذا قورنت بتدريبها الحالي.
وفي سياق متصل، يظهر نموذج "o1-preview"، تفوقًا في مهام التفكير النقدي، مثل التشخيص وتقديم التوصيات العلاجية، لكنه يواجه صعوبات في مهام تجريدية، كتقدير الاحتمالات.
وأشارت الأبحاث إلى أن إجابات النظام التفصيلية، ساهمت في رفع تقييمه، حيث أن الدراسة اقتصرت على أداء النظام منفردًا، دون دراسة كيفية تعاونه مع الأطباء.
وكانت شركة "OpenAI" قد أعلنت مؤخرًا إطلاق الإصدار الكامل والنهائي o1، بالإضافة إلى الإصدار الجديد o3، الذي أظهر تحسينات واضحة وبارزة في التفكير التحليلي، لكن ما زالت هناك انتقادات للنموذج بشأن تكلفته المرتفعة للفحوصات التي يقترحها، وصعوبة التطبيق في بيئات الرعاية الصحية الفعلية.
وحذر رودمان من المبالغة في التوقعات قائلًا: "إن هذه دراسة معيارية، وتستخدم معايير ذهبية لتقييم أداء الأطباء البشريين، لكنها لا تعكس واقع الرعاية الطبية، فلا تتخلوا عن أطبائكم لصالح o1".
ودعا الباحثون إلى تطوير طرق تقييم أفضل لأنظمة الذكاء الاصطناعي في عالم الطب، تشمل تجارب سريرية واقعية وبنية تحتية تقنية متقدمة، بهدف تعزيز التعاون بين الأطباء وعالم الذكاء الاصطناعي، لتحقيق استخدام أكثر فعالية في بيئات الرعاية الصحية.
(المشهد)
هذا المحتوى مقدم من قناة المشهد