Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Pushing the boundaries of generative AI: multiple-choice question generation and assessment performance within medical education

2025·0 Zitationen·DergiPark (Istanbul University)Open Access

Volltext beim Verlag öffnen

Zitationen

Autoren

2025

Jahr

Abstract

Amaçlar: Bu çalışmanın amacı; tıp eğitiminde kullanılmak üzere çoktan seçmeli soru (ÇSS) üretimi ve değerlendirilmesinde, büyük dil modeli tabanlı üretken yapay zeka (ÜYZ) araçları olan Gemini ve Copilot'ın performanslarını sistematik olarak değerlendirmektir.Yöntemler: Standartlaştırılmış istemler kullanılarak iki sanal hasta vakasından toplam 335 ÇSS üretilmiştir. ÜYZ araçları; kabul edilebilir performans düzeyi (KPD), Miller'ın yeterlik piramidi (Miller) ve Bloom'un revize edilmiş taksonomisi (Bloom) seviyeleri ile uyumlu amaçlanan dağılımları ve öğrenim hedefleriyle (ÖH’leri) uyum olarak belirlenen kriterlere dayanarak en kaliteli 56 maddeyi seçmiştir. Uzman tıp eğitimcileri ve güncel ÜYZ araçları bu maddeleri; (KPD değerlerini hesaplamak amacıyla) sınırda olan adaylar için yanıltıcı/kafa karıştırıcı çeldirici(lerin) tespiti ve doğru yanıt(ların) tespitinin yanı sıra, Miller ve Bloom seviyeleri, ÖH uyumu, madde kökü uygunluğu ve teknik madde kusurlarını esas alarak değerlendirmiştir. "ÜYZ ile genişletilmiş uzlaşısı", özneler arası uzlaşı modeli (altın standart) olarak kullanılmıştır. Üretim performansı bu uzlaşıyla olan uyum üzerinden; değerlendirme performansı ise ÜYZ'lerin uzman değerlendirmelerini ne ölçüde değiştirdiği veya koruduğu üzerinden nicelendirilmiştir. Analizler; güvenirlik için ICC, kategorik uyum için Po/Cohen/Fleiss Kappa ve sistematik yanlılık ile yönsel kaymaları tespit etmek için çıkarımsal testleri (Exact McNemar ve Wilcoxon işaretli sıralar testi) kapsamıştır.Bulgular: ÜYZ'ler, bilişsel seviyeleri atamada belirgin şekilde farklı performans örüntüleri göstermiştir. Miller için, Gemini tarafından üretilen ÇSS'ler özneler arası uzlaşı ile üstün bir tutarlılık sergilerken (ICC(2,k)=0.82); Bloom için bu üstünlüğü Copilot tarafından üretilen ÇSS'ler göstermiştir (ICC(2,k)=0.97). Her iki araç da ÖH uyumu ve doğru yanıt tespiti konusunda iyi performans göstermiş, ancak madde kökü yapısına yaklaşımları önemli ölçüde ayrışmıştır. Uzmanlar, ÇSS'leri ÜYZ'lerin iddia ettiğinden daha kolay olarak algılamış; güncel ÜYZ sürümleri ise bu soruları hem üreten sürümlerden hem de uzmanlardan daha da kolay bulmuştur. Değerlendirme davranışı açısından; ÜYZ'ler Miller sınıflandırmalarında uzman uzlaşısını 'bilir'den 'nasıl yapacağını bilir' seviyesine istatistiksel olarak anlamlı düzeyde (p

Autoren

Institutionen

Themen

Artificial Intelligence in Healthcare and EducationAI in Service InteractionsIntelligent Tutoring Systems and Adaptive Learning

Volltext beim Verlag öffnen

Pushing the boundaries of generative AI: multiple-choice question generation and assessment performance within medical education

Abstract

Ähnliche Arbeiten

Autoren

Institutionen

Themen