healthcare

فشلت النماذج اللغوية الكبيرة في 80% من التشخيصات السريرية. ومع ذلك، أسميناه 'تفكيرًا منطقيًا'.

تفشل أدوات التشخيص المدعومة بالذكاء الاصطناعي بنسبة 80% في التفكير السريري المبكر، بينما تؤدي الأنظمة الجراحية 'المطورة' إلى سكتات دماغية. هل تمنح إدارة الغذاء والدواء التصاريح بوتيرة أسرع مما يمكنها مراقبته؟

بقلم ai-fails.lol2026-04-18

رياضيات التنظيم في إدارة الغذاء والدواء (FDA) تعمل حالياً في حالة من التنافر المعرفي. اعتباراً من أوائل عام 2026، رخصت الوكالة لأكثر من 1,357 جهازاً طبياً يستخدم الذكاء الاصطناعي، وهو رقم تضاعف في غضون أربع سنوات فقط وفقاً لسجلات رويترز وإدارة الغذاء والدواء. على الورق، يعد هذا انتصاراً للتحديث؛ أما في غرفة العمليات، فيبدو الأمر مثل إيرين رالف. رالف، وهي مريضة خضعت لما تم تسويقه على أنه جراحة جيوب أنفية "مدعومة بالذكاء الاصطناعي"، انتهى بها الأمر إلى الإصابة بسكتة دماغية عندما أخطأ برنامج الملاحة في تحديد تشريح جسدها. قصتها ليست شذوذاً إحصائياً، بل هي النتاج المتوقع لنظام سبقت فيه مصطلحات التسويق الموثوقية الخوارزمية.

لقد أدى التكامل السريع للذكاء الاصطناعي في البيئات السريرية — من النماذج اللغوية الكبيرة التشخيصية إلى برامج الملاحة الجراحية — إلى خلق عجز ملموس في السلامة، حيث تظهر الأنظمة "المدعومة بالذكاء الاصطناعي" معدل فشل بنسبة 80% في التشخيص التفريقي ومعدلات أعلى لسحب المنتجات من السوق فور طرحها مقارنة بالأجهزة الطبية التقليدية. نحن نشهد "فجوة سلامة" حيث انفصلت سرعة الترخيص عن واقع نتائج المرضى، مما حول نظام المستشفيات الأمريكي فعلياً إلى حقل تجارب "بيتا" عالي المخاطر لبرمجيات تهلوس بثقة حول موقع الشريان السباتي للمريض.

ما حدث: فجوة التفكير بنسبة 80% و"الحضور" الجراحي

في أبريل 2026، أصدر باحثون في "ماس جنرال بريغهام" دراسة في JAMA Network Open كان ينبغي أن تبث الرعب في كل مجلس إدارة مستشفى. وباستخدام أداة تسمى PrIME-LLM — وهو إطار عمل معياري تم تطويره لتقييم الأداء عبر المراحل الأربع لـ التفكير السريري (العملية المعرفية التدريجية التي يستخدمها متخصصو الرعاية الصحية لتقييم البيانات) — اختبر الفريق أحدث النماذج "الجاهزة"، بما في ذلك GPT-5 و Claude 4.5. كانت النتائج كارثية لسردية "الذكاء الاصطناعي كطبيب": فشلت النماذج في تقديم تشخيص تفريقي مناسب في أكثر من 80% من الحالات في المراحل المبكرة من تقييم المرضى.

لمن لا يعرف، التشخيص التفريقي هو العملية السريرية لتحديد حالة معينة من خلال تمييزها عن غيرها ذات المظاهر السريرية المماثلة. إنه جزء "التفكير" من الوظيفة. وأشار مارك سوتشي، أحد مؤلفي الدراسة، إلى أنه في حين أن هذه النماذج ممتازة في تلخيص الملاحظات الموجودة، إلا أنها بشكل أساسي "ليست جاهزة للنشر من الدرجة السريرية دون إشراف"، كما أفاد موقع Euronews. فشلت النماذج باستمرار في حصر الأسباب المحتملة لأعراض المريض، واختارت بدلاً من ذلك تعميمات واسعة وغالباً ما تكون خطيرة.

ينطبق معدل الفشل البالغ 80% تحديداً على مرحلة "التفكير السريري المبكر"، حيث يجب على الطبيب موازنة الفرضيات المتنافسة. في هذه السيناريوهات، غالباً ما "تنغلق" نماذج الذكاء الاصطناعي على مسار واحد غير صحيح — وهي نسخة رقمية من الانحياز التأكيدي.

لا تقتصر هذه الكفاءة الخوارزمية المنعدمة على واجهات الدردشة؛ بل دخلت الجسد مادياً. فمنذ دمج مكونات الذكاء الاصطناعي في نظام الملاحة TruDi في عام 2021، سجلت إدارة الغذاء والدواء أكثر من 100 عطل وحدث سلبي، بما في ذلك 10 إصابات خطيرة، وفقاً لتحقيق أجرته رويترز. عانى مرضى مثل دونا فيرنيهو وإيرين رالف من سكتات دماغية وتسرب السائل النخاعي لأن النظام المدعوم بالذكاء الاصطناعي قدم معلومات مضللة للجراحين حول موقع أدواتهم، كما يُزعم. وتدعي دعوى قضائية رفعت في تكساس أن نظام TruDi كان "أكثر أماناً قبل دمج التغييرات في البرنامج لتضمين الذكاء الاصطناعي".

الدفاع بـ "ارتباك المستخدم" وسحب المنتج في العام الأول

يجادل المصنعون والمدافعون عن هذه الأنظمة بأن تقارير الأحداث السلبية لا تثبت السببية، وأن الإخفاقات غالباً ما تكون بسبب "ارتباك المستخدم" أو مشاكل في العرض بدلاً من عيوب خوارزمية أساسية. صرحت شركة Integra LifeSciences، المصنعة لنظام TruDi، لـ رويترز أن مثل هذه التقارير "لا تفعل شيئاً سوى الإشارة إلى أن نظام TruDi كان قيد الاستخدام في جراحة وقع فيها حدث سلبي". وبالمثل، عزت شركة Medtronic إخفاقات أجهزة مراقبة القلب إلى "ارتباك المستخدم" فيما يتعلق بكيفية عرض الذكاء الاصطناعي لضربات القلب غير الطبيعية، بدلاً من الخوارزمية نفسها التي فاتتها تلك الأحداث.

ومع ذلك، تشير البيانات الواردة من جامعة جونز هوبكنز وييل إلى أن دفاع "خطأ المستخدم" هذا هو درع مريح للإصدارات المبكرة. وجدت أبحاث نُشرت في JAMA Health Forum أن 43% من عمليات سحب أجهزة الذكاء الاصطناعي الطبية تحدث خلال السنة الأولى من الترخيص. يشير هذا الإطار الزمني إلى أنه يتم دفع الأجهزة إلى البيئات السريرية قبل فهم سلوكياتها في العالم الحقيقي. وسواء عانى المريض لأن الخوارزمية أخطأت في الحساب أو لأن واجهة الذكاء الاصطناعي كانت غير بديهية لدرجة أن الجراح "ارتبك" وارتكب خطأً، فهذا تمييز لا فرق فيه بالنسبة للشخص الموجود على طاولة العمليات. إذا تم سحب 43% من أسطولك إلى الورشة في غضون اثني عشر شهراً، فالمشكلة ليست في السائقين؛ بل في الهندسة.

لماذا يهم ذلك: الفراغ التنظيمي ووهم الدقة

تحدث الطفرة في الأجهزة الطبية التي تعمل بالذكاء الاصطناعي في الوقت الذي يتم فيه إفراغ قدرة الرقابة لدى إدارة الغذاء والدواء من محتواها. فبين عامي 2022 و2026، تضاعف عدد تراخيص الذكاء الاصطناعي، ومع ذلك عانت الوكالة من نقص الموظفين في قسم التصوير والتشخيص وموثوقية البرمجيات (DIDSR). وقد خلق هذا ما يسميه النقاد "فخ المسار السريع".

غالباً ما يستخدم المصنعون دقة "التشخيص النهائي" كبديل للسلامة السريرية في موادهم التسويقية. قد يتباهى الذكاء الاصطناعي بدقة تبلغ 95% في تحديد عقدة رئوية معينة في فحص ثابت، لكن ذلك لا يأخذ في الاعتبار التفكير السريري المطلوب لتقرير ما إذا كانت تلك العقدة تستدعي خزعة محفوفة بالمخاطر. ومن خلال معاملة عملية التفكير كـ "مشكلة محلولة" للمسوقين، تتجاهل الصناعة بيانات OECD Incident 7970، والتي تظهر إخفاقات منهجية في المراحل المبكرة والفوضوية لفرز المرضى.

تعتمد حلقة الترخيص الحالية لإدارة الغذاء والدواء بشكل كبير على التقارير الذاتية للمصنعين. وبدون مراقبة مستقلة لما بعد التسويق، فمن المرجح أن يكون العدد الحقيقي للأعطال الجراحية المرتبطة بالذكاء الاصطناعي أعلى بكثير من الحالات الـ 100+ الموثقة حالياً.

يزداد هذا الفراغ التنظيمي تعقيداً بسبب استخدام نماذج "الصندوق الأسود". عندما تم إبلاغ إدارة الغذاء والدواء عن فشل نظام Sonio Detect AI من شركة Samsung Medison في تحديد أجزاء جسم الجنين في عام 2025، كان الرد بيروقراطياً إلى حد كبير. تم تأطير "عدم التنبؤ" بالخوارزمية كعقبة تقنية بدلاً من كونه خطراً يهدد السلامة ويستوجب الاستبعاد.

ما التالي: الانتقال نحو معايير "الدرجة السريرية"

إذا أردنا تجاوز حقبة "اختبار النسخة التجريبية على المرضى"، فإن المجتمع الطبي يطالب بتحول جذري في المعايير. يعد معيار PrIME-LLM بداية، ولكنه يجب أن يكون متطلباً إلزامياً، وليس أداة بحث تطوعية. يدعو مارك سوتشي وآخرون في "ماس جنرال بريغهام" إلى فرض متطلبات "الدرجة السريرية غير الخاضعة للإشراف" التي تجبر مطوري الذكاء الاصطناعي على إثبات قدرة نماذجهم على التعامل مع تعقيد التشخيص التفريقي قبل أن يلمسوا سجل المريض أبداً.

علاوة على ذلك، هناك طلب متزايد على فترات مراقبة أطول قبل السماح بالأتمتة الجراحية الكاملة. إن معدل سحب المنتجات البالغ 43% خلال العام الأول يثبت أن عملية الترخيص "السريعة" الحالية تفشل في رصد الانحراف الخوارزمي ومخاطر الواجهة. يستحق المرضى أن يعرفوا متى تكون الخوارزمية هي التي "تقود المثقاب"، ويستحقون هيئة تنظيمية لا تفقد أفضل خبرائها لصالح نفس الشركات التي من المفترض أن تراقبها.

الخاتمة: اختبار "بيتا" للعقل البشري

الأدلة المقدمة — من معدل الفشل البالغ 80% في التشخيص التفريقي القائم على النماذج اللغوية الكبيرة والموثق في JAMA Network Open إلى سجلات الأعطال ذات الأرقام الثلاثية لنظام TruDi — تدعم بقوة الأطروحة القائلة بأننا نعيش في عجز في السلامة. إن تسويق "التفكير السريري" في الذكاء الاصطناعي هو حالياً تسمية خاطئة؛ فما يتم بيعه هو مطابقة أنماط معقدة تنهار تحت ضغط الغموض السريري في العالم الحقيقي.

"فجوة السلامة" حقيقية، والثمن يُدفع في شكل سكتات دماغية وتسريبات في السائل النخاعي. وإلى أن يتم فرض معايير "الدرجة السريرية" وتغلق إدارة الغذاء والدواء حلقة الترخيص بمراقبة مستقلة وصارمة لما بعد التسويق، سيبقى مصطلح "المدعوم بالذكاء الاصطناعي" تحذيراً لا ميزة. لقد أسميناه "تفكيرًا منطقيًا"، ولكن بالنسبة لـ 80% من المرضى في المراحل المبكرة من التشخيص، كان مجرد خطأ مكلف للغاية وواثق للغاية.

الوسوم:healthcare medical-fail hallucination

healthcare

فشلت النماذج اللغوية الكبيرة في 80% من التشخيصات السريرية. ومع ذلك، أسميناه 'تفكيرًا منطقيًا'.

بقلم ai-fails.lol2026-04-18

ما حدث: فجوة التفكير بنسبة 80% و"الحضور" الجراحي

الدفاع بـ "ارتباك المستخدم" وسحب المنتج في العام الأول

لماذا يهم ذلك: الفراغ التنظيمي ووهم الدقة

ما التالي: الانتقال نحو معايير "الدرجة السريرية"

الخاتمة: اختبار "بيتا" للعقل البشري

الوسوم:healthcare medical-fail hallucination