Google’ın bir araştırma makalesine nazaran yapay zekalı bir sohbet robotu, metin tabanlı görüşmelerde tıbbi rahatsızlıkları teşhis etme ve sonuçları aktarma konusunda insan tabiplerden daha düzgün bir performans sergiledi.
Articulate Medical Intelligence Explorer (AMIE) ismi verilen bu sistem, tıbbi bilgi toplamak ve klinik konuşmaları yürütmek için eğitilmiş büyük bir lisan modeli. AMIE, kullanıcılar tarafından tanımlanan semptomları tahlil etmek, sorular sormak ve teşhisleri varsayım etmek için tasarlandı.
Bir testte, gerçek olmayan hastalıklarla başvuran 20 geçersiz hasta, insan dokunuşunu eklemek için deney için işe alınan 20 profesyonel birinci basamak doktoruyla birlikte rastgele deneye katıldı.
Hastalar, AMIE ile mi yoksa gerçek bir tabiple mı konuştuklarını bilmiyorlardı. Bir yapay zeka sohbet robotuyla mı yoksa bir beşerle mı sohbet ettiklerini bilmeden, etkileşimlerinin kalitesini derecelendirmeleri istendi. Emsal formda sonuçlar, denemede test edilen 149 olay senaryosunda uydurma hastaların birçoklarının gerçek hekimlere kıyasla AMIE ile sohbet etmeyi tercih ettiğini gösterdi. İştirakçiler, AI chatbot’un tasalarını anlamada daha uygun olduğunu ve karşılıkların daha empatik, açık ve profesyonel olduğunu söyledi. Bir AI sohbet robotunun kişiliğinin ve tonunun, daha dengeli davranacak ve yorulma yahut dikkatin dağılması üzere insani sıkıntılar olmadan hareket edecek formda programlanabildiği düşünüldüğünde bunun çok da şaşırtan olmadığı söylenebilir.
İlginç bir halde AMIE tıbbi meseleleri teşhis etmede de daha başarılı görünüyordu. Fakat Google’ın da belirttiği üzere bu, yapay zeka sohbet robotlarının tıbbi bakım sağlamada doktorlardan daha güzel olduğu manasına gelmiyor.
Sonuçlar umut verici görünse de birinci basamak doktorları ve hastalar yüz yüze etkileşime giriyor ve vakit içinde bir alaka kurabiliyorlar. Klinisyenler teşhis koyarken metin açıklamalarının dışında öbür bilgi çeşitlerine de daha fazla erişime sahip oluyor ve hasebiyle Google’ın da kabul ettiği üzere bu pratik bir deney değil. Google araştırmacıları, “Araştırmamızın çeşitli sınırlamaları var ve hak ettiği dikkatle yorumlanmalıdır” diyor ve devam ediyor: “Öncelikle, çalışmamızdaki klinisyenler büyük ölçekli LLM-hasta etkileşimlerine müsaade veren lakin olağan klinik uygulamayı temsil etmeyen alışılmadık bir metin-sohbet arayüzü ile sonlu olduğundan, kıymetlendirme tekniğimiz muhtemelen insan konuşmalarının gerçek dünyadaki pahasını hafife alıyor.”
Bu testin emeli, LLM’lerin birinci basamak doktorlarının yerini alabileceğini göstermek değildi. Bunun yerine Google, yapay zeka sohbet robotlarının sıhhat hizmetlerine erişimi olmayan hastaları desteklemek için faydalı araçlar oluşturulabileceğine inanıyor. Fakat bu türlü bir sistemi gerçek dünyaya yerleştirmenin riskli olduğunu ve onu sorumlu bir biçimde kullanmak için daha fazla çalışma gerektireceğini de kabul ediyor.
Ekip makalede “Deneysel, simüle edilmiş hikaye alma ve teşhis diyaloğunun bu sonlu kapsamından, beşerler ve onlara bakım sağlayanlar için gerçek dünya araçlarına geçiş, teknolojinin güvenliği, güvenilirliği, adaleti, etkililiği ve mahremiyeti sağlamak için kıymetli ölçüde ek araştırma ve geliştirme gerektirir” sonucuna varıyor.