Lielās valodas modelis (LLM) var rakstīt pārliecinošus rakstus, kuru pamatā ir ātri formulēti vārdi, nokārtot profesionālās meistarības eksāmenus un rakstīt pacientam draudzīgu un empātisku informāciju. Tomēr papildus labi zināmajiem daiļliteratūras, trausluma un neprecīzu faktu riskiem LLM, pakāpeniski uzmanības centrā nonāk arī citi neatrisināti jautājumi, piemēram, mākslīgā intelekta modeļi, kas to izveidē un izmantošanā satur potenciāli diskriminējošas “cilvēciskās vērtības”, un pat ja LLM vairs nefabricē saturu un novērš acīmredzami kaitīgus izvades rezultātus, “LLM vērtības” joprojām var atšķirties no cilvēciskajām vērtībām.
Neskaitāmi piemēri ilustrē, kā dati, ko izmanto mākslīgā intelekta modeļu apmācībai, kodē individuālas un sociālas vērtības, kas var nostiprināties modelī. Šie piemēri ietver virkni pielietojumu, tostarp krūškurvja rentgenuzņēmumu automātisku interpretāciju, ādas slimību klasifikāciju un algoritmisku lēmumu pieņemšanu attiecībā uz medicīnisko resursu sadali. Kā norādīts nesen publicētā rakstā mūsu žurnālā, neobjektīvi apmācības dati var pastiprināt un atklāt sabiedrībā pastāvošās vērtības un aizspriedumus. Gluži pretēji, pētījumi ir arī parādījuši, ka mākslīgo intelektu var izmantot, lai mazinātu aizspriedumus. Piemēram, pētnieki pielietoja dziļās mācīšanās modeļus ceļa rentgenuzņēmumiem un atklāja faktorus, kurus ceļa locītavā nepamanīja standarta smaguma rādītāji (ko novērtēja radiologi), tādējādi samazinot neizskaidrojamās sāpju atšķirības starp melnādainajiem un baltādainajiem pacientiem.
Lai gan arvien vairāk cilvēku apzinās mākslīgā intelekta modeļu neobjektivitāti, īpaši attiecībā uz apmācības datiem, daudziem citiem cilvēcisko vērtību ievades punktiem mākslīgā intelekta modeļu izstrādes un ieviešanas procesā netiek pievērsta pietiekama uzmanība. Medicīniskais mākslīgais intelekts nesen ir sasniedzis iespaidīgus rezultātus, taču lielā mērā tas nav skaidri ņēmis vērā cilvēciskās vērtības un to mijiedarbību ar riska novērtējumu un varbūtības spriešanu, kā arī nav modelēts.
Lai konkretizētu šos abstraktos jēdzienus, iedomājieties, ka esat endokrinologs, kuram jāizraksta rekombinants cilvēka augšanas hormons 8 gadus vecam zēnam, kurš ir zem sava vecuma 3. procentiles. Zēna stimulētā cilvēka augšanas hormona līmenis ir zem 2 ng/ml (references vērtība >10 ng/ml, references vērtība daudzās valstīs ārpus Amerikas Savienotajām Valstīm ir >7 ng/ml), un viņa cilvēka augšanas hormona kodējošajā gēnā ir konstatētas retas inaktivācijas mutācijas. Mēs uzskatām, ka cilvēka augšanas hormona terapijas pielietojums šajā klīniskajā vidē ir acīmredzams un neapstrīdams.
Cilvēka augšanas hormona terapijas piemērošana šādos scenārijos var izraisīt strīdus: 14 gadus veca zēna augums vienmēr ir bijis viņa vienaudžu 10. procentīlē, un cilvēka augšanas hormona maksimums pēc stimulācijas ir 8 ng/ml. Nav zināmu funkcionālu mutāciju, kas varētu ietekmēt augumu, kā arī citu zināmu īsa auguma iemeslu, un viņa kaulu vecums ir 15 gadi (t. i., nav attīstības aiztures). Tikai daļa strīdu ir saistīta ar atšķirībām robežvērtībās, ko eksperti noteikuši, pamatojoties uz desmitiem pētījumu par cilvēka augšanas hormona līmeni, ko izmanto izolēta augšanas hormona deficīta diagnosticēšanai. Vismaz tikpat daudz strīdu rodas par cilvēka augšanas hormona terapijas lietošanas riska un ieguvuma līdzsvaru no pacientu, pacientu vecāku, veselības aprūpes speciālistu, farmācijas uzņēmumu un maksātāju viedokļa. Pediatrijas endokrinologi var izvērtēt retās blakusparādības, kas rodas, katru dienu injicējot augšanas hormonu 2 gadus, ar varbūtību, ka pieaugušā ķermeņa izmērs, salīdzinot ar pašreizējo, nepalielināsies vai pieaugs tikai minimāli. Zēni var uzskatīt, ka pat tad, ja viņu augums palielināsies tikai par 2 cm, ir vērts injicēt augšanas hormonu, taču maksātājam un farmācijas uzņēmumam var būt atšķirīgi viedokļi.
Kā piemēru ņemsim uz kreatinīnu balstītu eGFR, kas ir plaši izmantots nieru darbības indikators hroniskas nieru slimības diagnosticēšanai un stadijas noteikšanai, nieru transplantācijas vai ziedošanas nosacījumu noteikšanai, kā arī daudzu recepšu zāļu samazināšanas kritēriju un kontrindikāciju noteikšanai. EGFR ir vienkāršs regresijas vienādojums, ko izmanto, lai novērtētu izmērīto glomerulārās filtrācijas ātrumu (mGFR), kas ir atsauces standarts, taču novērtēšanas metode ir samērā sarežģīta. Šo regresijas vienādojumu nevar uzskatīt par mākslīgā intelekta modeli, taču tas ilustrē daudzus principus par cilvēka vērtībām un varbūtības spriešanu.
Pirmais ievades punkts, kurā cilvēka vērtības tiek ievadītas eGFR, ir datu atlase vienādojumu pielāgošanai. Sākotnējā rinda, kas tika izmantota eGFR formulas izstrādei, galvenokārt sastāv no melnādainiem un baltādainiem dalībniekiem, un tās piemērojamība daudzām citām etniskajām grupām nav skaidra. Turpmākie ievades punkti, kuros cilvēka vērtības tiek ievadītas šajā formulā, ietver: mGFR precizitātes izvēli kā galveno mērķi nieru darbības novērtēšanai, kāds ir pieņemamais precizitātes līmenis, kā izmērīt precizitāti un eGFR izmantošanu kā slieksni klīnisku lēmumu pieņemšanas ierosināšanai (piemēram, nieru transplantācijas apstākļu noteikšanai vai medikamentu izrakstīšanai). Visbeidzot, izvēloties ievades modeļa saturu, šajā formulā tiks ievadītas arī cilvēka vērtības.
Piemēram, pirms 2021. gada vadlīnijas ieteica pielāgot kreatinīna līmeni eGFR formulā, pamatojoties uz pacienta vecumu, dzimumu un rasi (klasificēti tikai kā melnādainie vai citu rasu indivīdi). Pielāgošana, pamatojoties uz rasi, ir paredzēta, lai uzlabotu mGFR formulas precizitāti, taču 2020. gadā lielākās slimnīcas sāka apšaubīt uz rasi balstītas eGFR izmantošanu, minot tādus iemeslus kā pacienta atbilstības transplantācijai aizkavēšana un rases konkretizēšana kā bioloģisks jēdziens. Pētījumi liecina, ka eGFR modeļu izstrāde, ņemot vērā rasi, var būtiski un dažādi ietekmēt precizitāti un klīniskos rezultātus; tāpēc selektīva koncentrēšanās uz precizitāti vai koncentrēšanās uz daļu rezultātu atspoguļo vērtību spriedumus un var maskēt pārredzamu lēmumu pieņemšanu. Visbeidzot, nacionālā darba grupa ierosināja jaunu formulu, kas tika pielāgota, neņemot vērā rasi, lai līdzsvarotu snieguma un taisnīguma jautājumus. Šis piemērs ilustrē, ka pat vienkāršai klīniskai formulai ir daudz ieejas punktu cilvēka vērtībās.
Salīdzinot ar klīniskajām formulām, kurās ir tikai neliels skaits paredzošo indikatoru, LLM var sastāvēt no miljardiem līdz simtiem miljardu parametru (modeļa svaru) vai vairāk, apgrūtinot tā izpratni. Iemesls, kāpēc mēs sakām “grūti saprotams”, ir tāds, ka vairumā LLM precīzu veidu, kā iegūt atbildes, uzdodot jautājumus, nevar kartēt. GPT-4 parametru skaits vēl nav paziņots; tā priekšgājējam GPT-3 bija 175 miljardi parametru. Vairāk parametru ne vienmēr nozīmē labākas iespējas, jo mazāki modeļi, kas ietver vairāk skaitļošanas ciklu (piemēram, LLaMA [Large Language Model Meta AI] modeļu sērija), vai modeļi, kas ir precīzi noregulēti, pamatojoties uz cilvēku atsauksmēm, darbosies labāk nekā lielāki modeļi. Piemēram, saskaņā ar cilvēku vērtētāju datiem, InstrumentGPT modelis (modelis ar 1,3 miljardiem parametru) pārspēj GPT-3 modeļa izvades rezultātu optimizēšanā.
Konkrētās GPT-4 apmācības detaļas vēl nav atklātas, taču ir atklāta iepriekšējo paaudžu modeļu, tostarp GPT-3, InstrumentGPT un daudzu citu atvērtā pirmkoda LLM, informācija. Mūsdienās daudziem mākslīgā intelekta modeļiem ir modeļu kartes; GPT-4 novērtēšanas un drošības dati ir publicēti līdzīgā sistēmas kartē, ko nodrošina modeļu izveides uzņēmums OpenAI. LLM izveidi var aptuveni iedalīt divos posmos: sākotnējā pirmsapmācības posmā un precizēšanas posmā, kura mērķis ir optimizēt modeļa izejas rezultātus. Pirmsapmācības posmā modelim tiek nodrošināts liels korpuss, tostarp sākotnējais interneta teksts, lai to apmācītu paredzēt nākamo vārdu. Šis šķietami vienkāršais "automātiskās pabeigšanas" process rada spēcīgu pamatmodeli, taču tas var novest arī pie kaitīgas uzvedības. Pirmsapmācības posmā ienāks cilvēciskās vērtības, tostarp GPT-4 pirmsapmācības datu atlase un lēmums par nepiemērota satura, piemēram, pornogrāfiska satura, noņemšanu no pirmsapmācības datiem. Neskatoties uz šiem centieniem, pamatmodelis joprojām var nebūt ne noderīgs, ne spējīgs saturēt kaitīgus izejas rezultātus. Nākamajā precizēšanas posmā parādīsies daudzas noderīgas un nekaitīgas uzvedības.
Precizēšanas posmā valodas modeļu uzvedība bieži tiek būtiski mainīta, izmantojot uzraudzītu precizēšanu un pastiprināšanas mācīšanos, pamatojoties uz cilvēku atsauksmēm. Uzraudzītajā precizēšanas posmā algots līgumslēdzēju personāls rakstīs atbilžu piemērus uzvednes vārdiem un tieši apmācīs modeli. Pastiprinātas mācīšanās posmā, pamatojoties uz cilvēku atsauksmēm, cilvēku vērtētāji kārtos modeļa izejas rezultātus kā ievades satura piemērus. Pēc tam iepriekš minētie salīdzināšanas rezultāti tiks izmantoti, lai apgūtu "atlīdzības modeli" un vēl vairāk uzlabotu modeli, izmantojot pastiprināšanas mācīšanos. Apbrīnojama zema līmeņa cilvēka iesaistīšanās var precīzi noregulēt šos lielos modeļus. Piemēram, InstrumentGPT modelī tika izmantota aptuveni 40 līgumslēdzēju darbinieku komanda, kas tika pieņemta darbā no pūļa finansēšanas vietnēm, un tika veikta atlases pārbaude, kuras mērķis bija atlasīt anotatoru grupu, kas ir jutīga pret dažādu iedzīvotāju grupu vēlmēm.
Kā parāda šie divi galējie piemēri, proti, vienkāršā klīniskā formula [eGFR] un spēcīgā LLM [GPT-4], cilvēka lēmumu pieņemšana un cilvēciskās vērtības spēlē neaizstājamu lomu modeļa rezultātu veidošanā. Vai šie mākslīgā intelekta modeļi var aptvert to dažādās pacientu un ārstu vērtības? Kā publiski vadīt mākslīgā intelekta pielietošanu medicīnā? Kā minēts turpmāk, medicīnisko lēmumu analīzes pārskatīšana varētu sniegt principiālu risinājumu šiem jautājumiem.
Medicīnisko lēmumu analīze daudziem klīnicistiem nav pazīstama, taču tā var atšķirt varbūtības spriešanu (nenoteiktiem rezultātiem, kas saistīti ar lēmumu pieņemšanu, piemēram, vai lietot cilvēka augšanas hormonu pretrunīgajā klīniskajā scenārijā, kas parādīts 1. attēlā) un apsvēršanas faktorus (subjektīvām vērtībām, kas saistītas ar šiem rezultātiem, kuru vērtība tiek kvantificēta kā "lietderība", piemēram, vīrieša auguma palielināšanās par 2 cm), sniedzot sistemātiskus risinājumus sarežģītiem medicīniskiem lēmumiem. Lēmumu analīzē klīnicistiem vispirms ir jānosaka visi iespējamie lēmumi un varbūtības, kas saistītas ar katru rezultātu, un pēc tam jāiekļauj pacienta (vai citas puses) lietderība, kas saistīta ar katru rezultātu, lai izvēlētos vispiemērotāko variantu. Tāpēc lēmumu analīzes derīgums ir atkarīgs no tā, vai rezultātu iestatījums ir visaptverošs, kā arī no tā, vai lietderības mērīšana un varbūtības novērtēšana ir precīza. Ideālā gadījumā šī pieeja palīdz nodrošināt, ka lēmumi ir balstīti uz pierādījumiem un saskaņoti ar pacienta vēlmēm, tādējādi samazinot plaisu starp objektīviem datiem un personiskajām vērtībām. Šī metode tika ieviesta medicīnas jomā pirms vairākām desmitgadēm un tika piemērota individuālu pacientu lēmumu pieņemšanai un iedzīvotāju veselības novērtēšanai, piemēram, sniedzot ieteikumus kolorektālā vēža skrīningam visai populācijai.
Medicīniskajā lēmumu analīzē ir izstrādātas dažādas metodes lietderības iegūšanai. Lielākā daļa tradicionālo metožu tieši iegūst vērtību no individuāliem pacientiem. Vienkāršākā metode ir izmantot vērtēšanas skalu, kur pacienti novērtē savu vēlmju līmeni noteiktam rezultātam digitālā skalā (piemēram, lineārā skalā no 1 līdz 10), kur abos galos atrodas ekstremālākie veselības iznākumi (piemēram, pilnīga veselība un nāve). Laika apmaiņas metode ir vēl viena bieži izmantota metode. Šajā metodē pacientiem ir jāpieņem lēmums par to, cik daudz veselīga laika viņi ir gatavi pavadīt apmaiņā pret sliktas veselības periodu. Standarta azartspēļu metode ir vēl viena bieži izmantota metode lietderības noteikšanai. Šajā metodē pacientiem tiek jautāts, kuru no divām iespējām viņi dod priekšroku: vai nu dzīvot noteiktu gadu skaitu normālā veselībā ar noteiktu varbūtību (p) (t), vai uzņemties nāves risku ar 1 p varbūtību; vai nu pārliecināties, ka viņi dzīvo t gadus ar dažādiem veselības stāvokļiem. Jautājiet pacientiem vairākas reizes ar dažādām p vērtībām, līdz viņi neuzrāda priekšroku nevienai opcijai, lai lietderību varētu aprēķināt, pamatojoties uz pacientu atbildēm.
Papildus metodēm, ko izmanto, lai noskaidrotu individuālās pacientu vēlmes, ir izstrādātas arī metodes, lai iegūtu lietderību pacientu populācijai. Īpaši fokusa grupu diskusijas (pulcējot pacientus kopā, lai apspriestu konkrētu pieredzi) var palīdzēt izprast viņu viedokļus. Lai efektīvi apkopotu grupas lietderību, ir ierosinātas dažādas strukturētas grupas diskusiju metodes.
Praksē tieša lietderības ieviešana klīniskās diagnostikas un ārstēšanas procesā ir ļoti laikietilpīga. Kā risinājums aptaujas anketas parasti tiek izplatītas nejauši izvēlētām populācijām, lai iegūtu lietderības rādītājus populācijas līmenī. Daži piemēri ir EuroQol 5 dimensiju anketa, 6 dimensiju lietderības svara īsā forma, veselības lietderības indekss un vēža specifiskās Eiropas vēža pētniecības un ārstēšanas organizācijas dzīves kvalitātes anketas Core 30 rīks.
Publicēšanas laiks: 2024. gada 1. jūnijs




