banner_stranice

vijesti

Model velikih jezika (LLM) može pisati uvjerljive članke temeljene na brzim riječima, polagati ispite stručne osposobljenosti te pisati informacije prilagođene pacijentu i empatične. Međutim, osim dobro poznatih rizika fikcije, krhkosti i netočnih činjenica u LLM-u, druga neriješena pitanja postupno postaju fokus, poput modela umjetne inteligencije koji sadrže potencijalno diskriminirajuće „ljudske vrijednosti“ u svom stvaranju i korištenju, pa čak i ako LLM više ne izmišlja sadržaj i eliminira očito štetne izlazne rezultate, „LLM vrijednosti“ i dalje mogu odstupati od ljudskih vrijednosti.

 

Bezbrojni primjeri ilustriraju kako podaci korišteni za treniranje AI modela kodiraju individualne i društvene vrijednosti, koje se mogu učvrstiti unutar modela. Ovi primjeri uključuju niz primjena, uključujući automatsku interpretaciju rendgenskih snimaka prsnog koša, klasifikaciju kožnih bolesti i algoritamsko donošenje odluka u vezi s raspodjelom medicinskih resursa. Kao što je navedeno u nedavnom članku u našem časopisu, pristrani podaci o treniranju mogu pojačati i otkriti vrijednosti i pristranosti prisutne u društvu. Naprotiv, istraživanja su također pokazala da se AI može koristiti za smanjenje pristranosti. Na primjer, istraživači su primijenili modele dubokog učenja na rendgenske snimke koljena i otkrili čimbenike koji su propušteni standardnim pokazateljima težine (koje su ocijenili radiolozi) unutar koljenskog zgloba, čime su smanjene neobjašnjive razlike u boli između crnih i bijelih pacijenata.

Iako sve više ljudi shvaća pristranost u AI modelima, posebno u smislu podataka za obuku, mnogim drugim ulaznim točkama ljudskih vrijednosti ne posvećuje se dovoljno pažnje u procesu razvoja i implementacije AI modela. Medicinska AI nedavno je postigla impresivne rezultate, ali u velikoj mjeri nije eksplicitno uzela u obzir ljudske vrijednosti i njihovu interakciju s procjenom rizika i probabilističkim zaključivanjem, niti je modelirana.

 

Kako bismo konkretizirali ove apstraktne koncepte, zamislite da ste endokrinolog koji treba propisati rekombinantni ljudski hormon rasta osmogodišnjem dječaku koji je ispod 3. percentila svoje dobi. Razina stimuliranog ljudskog hormona rasta kod dječaka je ispod 2 ng/mL (referentna vrijednost >10 ng/mL, referentna vrijednost za mnoge zemlje izvan Sjedinjenih Država je >7 ng/mL), a njegov gen koji kodira ljudski hormon rasta otkrio je rijetke inaktivacijske mutacije. Vjerujemo da je primjena terapije ljudskim hormonom rasta očita i nepobitna u ovom kliničkom okruženju.

Primjena terapije ljudskim hormonom rasta u sljedećim scenarijima može izazvati kontroverze: visina 14-godišnjeg dječaka oduvijek je bila u 10. percentilu njegovih vršnjaka, a vrhunac ljudskog hormona rasta nakon stimulacije je 8 ng/mL. Nema poznatih funkcionalnih mutacija koje mogu utjecati na visinu, niti drugih poznatih uzroka niskog rasta, a njegova koštana dob je 15 godina (tj. nema razvojnog kašnjenja). Samo dio kontroverze posljedica je razlika u graničnim vrijednostima koje su odredili stručnjaci na temelju desetaka studija o razinama ljudskog hormona rasta koje se koriste za dijagnosticiranje izoliranog nedostatka hormona rasta. Barem jednako toliko kontroverzi proizlazi iz ravnoteže rizika i koristi korištenja terapije ljudskim hormonom rasta iz perspektive pacijenata, roditelja pacijenata, zdravstvenih djelatnika, farmaceutskih tvrtki i platitelja. Pedijatrijski endokrinolozi mogu vagati rijetke nuspojave svakodnevnih injekcija hormona rasta tijekom 2 godine s vjerojatnošću da neće biti ili će samo minimalno rasti u odrasloj dobi u usporedbi sa sadašnjošću. Dječaci mogu vjerovati da čak i ako im se visina poveća samo za 2 cm, vrijedi ubrizgavati hormon rasta, ali platitelj i farmaceutska tvrtka mogu imati različita mišljenja.

 

Kao primjer uzimamo eGFR temeljen na kreatininu, koji je široko korišten pokazatelj bubrežne funkcije za dijagnosticiranje i određivanje stadija kronične bolesti bubrega, postavljanje uvjeta za transplantaciju ili doniranje bubrega te određivanje kriterija za smanjenje i kontraindikacija za mnoge lijekove na recept. EGFR je jednostavna regresijska jednadžba koja se koristi za procjenu izmjerene brzine glomerularne filtracije (mGFR), što je referentni standard, ali metoda procjene je relativno nezgrapna. Ova regresijska jednadžba ne može se smatrati AI modelom, ali ilustrira mnoga načela o ljudskim vrijednostima i probabilističkom zaključivanju.

Prva ulazna točka za ljudske vrijednosti koje ulaze u eGFR je odabir podataka za prilagođavanje jednadžbi. Izvorni red korišten za dizajniranje formule eGFR uglavnom se sastoji od crnih i bijelih sudionika, a njegova primjenjivost na mnoge druge etničke skupine nije jasna. Sljedeće ulazne točke za ljudske vrijednosti u ovu formulu uključuju: odabir točnosti mGFR kao primarnog cilja za procjenu funkcije bubrega, koja je prihvatljiva razina točnosti, kako mjeriti točnost i korištenje eGFR-a kao praga za pokretanje kliničkog donošenja odluka (kao što je određivanje uvjeta za transplantaciju bubrega ili propisivanje lijekova). Konačno, pri odabiru sadržaja ulaznog modela, ljudske vrijednosti također će ući u ovu formulu.

Na primjer, prije 2021. godine, smjernice sugeriraju prilagođavanje razine kreatinina u formuli eGFR na temelju dobi, spola i rase pacijenta (klasificirano samo kao crne ili necrne osobe). Prilagodba na temelju rase ima za cilj poboljšanje točnosti formule mGFR, ali 2020. godine velike bolnice počele su dovoditi u pitanje korištenje eGFR-a na temelju rase, navodeći razloge poput odgađanja podobnosti pacijenta za transplantaciju i konkretiziranja rase kao biološkog koncepta. Istraživanja su pokazala da dizajniranje eGFR modela u smislu rase može imati dubok i različit utjecaj na točnost i kliničke ishode; Stoga, selektivno fokusiranje na točnost ili fokusiranje na dio ishoda odražava vrijednosne prosudbe i može prikriti transparentno donošenje odluka. Konačno, nacionalna radna skupina predložila je novu formulu koja je preuređena bez razmatranja rase kako bi se uravnotežila pitanja performansi i pravednosti. Ovaj primjer ilustrira da čak i jednostavna klinička formula ima mnogo ulaznih točaka u ljudske vrijednosti.

Liječnik s virtualnom stvarnošću u operacijskoj sali u bolnici. Kirurg analizira rezultate testiranja srca pacijenta i ljudsku anatomiju na tehnološkom digitalnom futurističkom virtualnom sučelju, digitalnom holografskom, inovativnom konceptu znanosti i medicine.

U usporedbi s kliničkim formulama s malim brojem prediktivnih pokazatelja, LLM može se sastojati od milijardi do stotina milijardi parametara (težina modela) ili više, što ga otežava razumijevanje. Razlog zašto kažemo „teško za razumjeti“ jest taj što se u većini LLM-ova točan način izazivanja odgovora putem pitanja ne može mapirati. Broj parametara za GPT-4 još nije objavljen; njegov prethodnik GPT-3 imao je 175 milijardi parametara. Više parametara ne znači nužno jače mogućnosti, jer će manji modeli koji uključuju više računalnih ciklusa (poput serije modela LLaMA [Large Language Model Meta AI]) ili modeli koji su fino podešeni na temelju ljudskih povratnih informacija imati bolje rezultate od većih modela. Na primjer, prema ljudskim procjeniteljima, model InstrumentGPT (model s 1,3 milijarde parametara) nadmašuje GPT-3 u optimizaciji izlaznih rezultata modela.

Specifični detalji obuke GPT-4 još nisu otkriveni, ali su otkriveni detalji modela prethodne generacije, uključujući GPT-3, InstrumentGPT i mnoge druge LLM-ove otvorenog koda. Danas mnogi AI modeli dolaze s karticama modela; podaci o evaluaciji i sigurnosti GPT-4 objavljeni su u sličnoj kartici sustava koju je pružila tvrtka za izradu modela OpenAI. Stvaranje LLM-a može se grubo podijeliti u dvije faze: početnu fazu predtreninga i fazu finog podešavanja usmjerenu na optimizaciju izlaznih rezultata modela. U fazi predtreninga, modelu se daje veliki korpus koji uključuje izvorni internetski tekst kako bi se obučio za predviđanje sljedeće riječi. Ovaj naizgled jednostavan proces "automatskog dovršavanja" stvara snažan temeljni model, ali može dovesti i do štetnog ponašanja. Ljudske vrijednosti ući će u fazu predtreninga, uključujući odabir podataka predtreninga za GPT-4 i odlučivanje o uklanjanju neprikladnog sadržaja poput pornografskog sadržaja iz podataka predtreninga. Unatoč tim naporima, osnovni model možda i dalje nije ni koristan ni sposoban sadržavati štetne izlazne rezultate. U sljedećoj fazi finog podešavanja pojavit će se mnoga korisna i bezopasna ponašanja.

U fazi finog podešavanja, ponašanje jezičnih modela često se duboko mijenja kroz nadzirano fino podešavanje i učenje s pojačanjem na temelju ljudskih povratnih informacija. U fazi nadziranog finog podešavanja, angažirano osoblje izvođača radova pisat će primjere odgovora za riječi s uputama i izravno trenirati model. U fazi učenja s pojačanjem na temelju ljudskih povratnih informacija, ljudski evaluatori sortirat će izlazne rezultate modela kao primjere ulaznog sadržaja. Zatim primijeniti gore navedene rezultate usporedbe kako bi naučili „model nagrađivanja“ i dodatno poboljšali model kroz učenje s pojačanjem. Nevjerojatno ljudsko sudjelovanje niske razine može fino podesiti ove velike modele. Na primjer, model InstrumentGPT koristio je tim od otprilike 40 izvođača radova regrutiranih s web stranica za crowdsourcing i prošao je test probira usmjeren na odabir skupine anotatora koji su osjetljivi na preferencije različitih populacijskih skupina.

Kao što pokazuju ova dva ekstremna primjera, naime jednostavna klinička formula [eGFR] i moćni LLM [GPT-4], ljudsko donošenje odluka i ljudske vrijednosti igraju neizostavnu ulogu u oblikovanju izlaznih rezultata modela. Mogu li ovi modeli umjetne inteligencije obuhvatiti svoje raznolike vrijednosti pacijenata i liječnika? Kako javno voditi primjenu umjetne inteligencije u medicini? Kao što je spomenuto u nastavku, ponovno ispitivanje analize medicinskih odluka moglo bi pružiti načelno rješenje za ova pitanja.

 

Analiza medicinskih odluka nije poznata mnogim kliničarima, ali može razlikovati probabilističko zaključivanje (za neizvjesne ishode povezane s donošenjem odluka, poput toga treba li primijeniti hormon rasta u kontroverznom kliničkom scenariju prikazanom na slici 1) i faktore razmatranja (za subjektivne vrijednosti povezane s tim ishodima, čija se vrijednost kvantificira kao „korisnost“, poput vrijednosti povećanja muške visine za 2 cm), pružajući sustavna rješenja za složene medicinske odluke. U analizi odluka, kliničari prvo moraju odrediti sve moguće odluke i vjerojatnosti povezane sa svakim ishodom, a zatim uključiti korisnost pacijenta (ili druge strane) povezanu sa svakim ishodom kako bi odabrali najprikladniju opciju. Stoga, valjanost analize odluka ovisi o tome je li postavka ishoda sveobuhvatna, kao i o tome jesu li mjerenje korisnosti i procjena vjerojatnosti točni. Idealno, ovaj pristup pomaže osigurati da su odluke utemeljene na dokazima i usklađene s preferencijama pacijenta, čime se smanjuje jaz između objektivnih podataka i osobnih vrijednosti. Ova metoda uvedena je u medicinsko područje prije nekoliko desetljeća i primijenjena je na donošenje pojedinačnih odluka pacijenata i procjenu zdravlja populacije, poput davanja preporuka za probir kolorektalnog karcinoma općoj populaciji.

 

U analizi medicinskih odluka razvijene su različite metode za dobivanje korisnosti. Većina tradicionalnih metoda izravno izvlači vrijednost iz pojedinačnih pacijenata. Najjednostavnija metoda je korištenje ljestvice ocjenjivanja, gdje pacijenti procjenjuju svoju razinu preferencije za određeni ishod na digitalnoj ljestvici (kao što je linearna ljestvica u rasponu od 1 do 10), s najekstremnijim zdravstvenim ishodima (kao što su potpuno zdravlje i smrt) smještenim na oba kraja. Metoda zamjene vremena još je jedna često korištena metoda. U ovoj metodi pacijenti moraju donijeti odluku o tome koliko su zdravog vremena spremni provesti u zamjenu za razdoblje lošeg zdravlja. Standardna metoda kockanja još je jedna često korištena metoda za određivanje korisnosti. U ovoj metodi pacijente se pita koju od dvije opcije preferiraju: ili živjeti određeni broj godina u normalnom zdravlju sa specifičnom vjerojatnošću (p)(t) i snositi rizik smrti s vjerojatnošću od 1-p; ili se pobrinuti da žive t godina pod unakrsnim zdravstvenim uvjetima. Pacijente treba pitati više puta pri različitim p-vrijednostima dok ne pokažu da nemaju preferenciju ni za jednu opciju, tako da se korisnost može izračunati na temelju odgovora pacijenata.
Uz metode koje se koriste za utvrđivanje individualnih preferencija pacijenata, razvijene su i metode za postizanje korisnosti za populaciju pacijenata. Posebno fokus grupe (okupljanje pacijenata radi rasprave o specifičnim iskustvima) mogu pomoći u razumijevanju njihovih perspektiva. Kako bi se učinkovito agregirala korisnost grupe, predložene su različite tehnike strukturiranih grupnih rasprava.
U praksi, izravno uvođenje korisnosti u proces kliničke dijagnoze i liječenja vrlo je dugotrajno. Kao rješenje, anketni upitnici se obično distribuiraju nasumično odabranim populacijama kako bi se dobili rezultati korisnosti na razini populacije. Neki primjeri uključuju 5-dimenzionalni upitnik EuroQol, kratki obrazac 6-dimenzionalne težine korisnosti, indeks zdravstvene korisnosti i alat Core 30 Upitnika o kvaliteti života Europske organizacije za istraživanje i liječenje raka (European Cancer Research and Treatment Organization) za specifičan rak.


Vrijeme objave: 01.06.2024.