Tyrimas: ChatGPT neišlaikė Amerikos gastroenterologijos koledžo testų

Remiantis anksčiau šią savaitę paskelbtu tyrimu, „ChatGPT-3“ ir „ChatGPT-4“, „OpenAI“ kalbos apdorojimo modeliai, aplenkė 2021 ir 2022 m. Amerikos gastroenterologijos koledžo įsivertinimo testus. Amerikos gastroenterologijos žurnalas.

„ChatGPT“ yra didelis kalbos modelis, generuojantis į žmogų panašų tekstą atsakant į vartotojų klausimus ar pareiškimus.

Feinšteino medicinos tyrimų instituto mokslininkai paprašė dviejų ChatGPT versijų atsakyti į klausimus apie testus, kad įvertintų jo gebėjimus ir tikslumą.

Kiekvieną testą sudaro 300 klausimų su atsakymų variantais. Tyrėjai nukopijavo ir įklijavo kiekvieną klausimą ir atsakymą su daugybe atsakymų, išskyrus tuos, kuriems keliami vaizdo reikalavimai, į DI valdomą platformą.

„ChatGPT-3“ ir „ChatGPT-4“ atsakė į 455 klausimus, „ChatGPT-3“ atsakė į 296 iš 455 klausimų, o „ChatGPT-4“ – į 284.

Norėdami išlaikyti testą, asmenys turi surinkti 70% ar daugiau. „ChatGPT-3“ surinko 65,1 proc., o „ChatGPT-4“ – 62,4 proc.

Įsivertinimo testas naudojamas siekiant nustatyti, kaip asmuo surinktų Amerikos vidaus medicinos tarybos Gastroenterologijos tarybos egzaminą.

„Pastaruoju metu daug dėmesio buvo skiriama ChatGPT ir AI naudojimui įvairiose pramonės šakose. Kalbant apie medicininį išsilavinimą, trūksta tyrimų apie šį potencialų novatorišką įrankį”, – docentas dr. Arvind Trindade. Feinstein instituto sveikatos sistemos mokslo institute ir vyresnysis šio dokumento autorius, sakoma pranešime. „Remiantis mūsų tyrimais, ChatGPT šiuo metu neturėtų būti naudojamas medicininiam gastroenterologijos švietimui ir turi daug būdų, kaip jį įdiegti sveikatos priežiūros srityje.

KODĖL TAI SVARBU

Tyrimo tyrėjai pažymėjo, kad „ChatGPT“ nesėkmingas įvertinimas gali būti dėl to, kad trūksta prieigos prie mokamų medicinos žurnalų arba pasenusi informacija sistemoje, todėl reikia atlikti daugiau tyrimų, kad jį būtų galima patikimai naudoti.

Visgi, a vasario mėn. žurnale „PLOS Digital Health“ paskelbtas tyrimas atskleidė, kad mokslininkai išbandė „ChatGPT“ rezultatus Jungtinių Valstijų medicinos licencijavimo egzaminu, kurį sudaro trys egzaminai. Nustatyta, kad dirbtinio intelekto įrankis išlaikė arba beveik išlaikė visų trijų egzaminų slenkstį, o jo paaiškinimai parodė aukštą įžvalgą.

„ChatGPT“ taip pat pateikė „iš esmės tinkamus“ atsakymus į klausimus apie širdies ir kraujagyslių ligų prevenciją, teigia a JAMA paskelbtas tyrimo laiškas.

Tyrėjai surinko 25 klausimus apie pagrindines širdies ligų prevencijos koncepcijas, įskaitant konsultavimą dėl rizikos veiksnių, tyrimų rezultatus ir informaciją apie vaistus, ir uždavė klausimus AI pokalbių robotui. Gydytojai įvertino atsakymus kaip tinkamus, netinkamus arba nepatikimus ir nustatė, kad 21 iš 25 klausimų buvo laikomas tinkamais, keturi buvo įvertinti netinkamais.