Program vještačke inteligencije (AI) u nedavnim istraživanjima je poput bebe, naučio svoje prve riječi gledajući predmete i slušajući sa njima povezane zvučne uzorke, odnosno, riječi. Nakon desetine sati video snimaka rastućeg djeteta koje istražuje svoj svijet, model umjetne inteligencije je mogao povezati riječi sa njihovim slikama.
U okviru pojedinih teorijskih razumijevanja razvoja jezika kod djece, smatra se, da se ljudi rađaju sa specijalizovanim znanjem koje omogućava da upijamo riječi. Međutim, kako ističe Evan Kidd, rezultati ove studijena AI su; “elegantna demonstracija kako novorođenčadi možda ne trebaju nužno mnogo ugrađenih specijalizovanih kognitivnih mehanizama, da bi započeli proces učenja riječi”. Novi model čini stvari jednostavnim, što je odmak od velikih jezičkih modela, ili LLM-ova, koji su u osnovi današnjih chat robota. Ti modeli su naučili da govore iz ogromnih skupova podataka. „Ovi sistemi veštačke inteligencije koje sada imamo funkcionišu izuzetno dobro, ali zahtevaju astronomske količine podataka, ponekad trilione reči za obuku“, kaže kognitivni naučnik Vai Keen Vong sa Univerziteta u Njujorku. Ali ljudi ne uče riječi na taj način. “Input za dijete nije cijeli internet kao neki od ovih LLM. To su njihovi roditelji i ono što im se pruža”, kaže Vong.
Vong i njegove kolege su namjerno izgradili realističniji model učenja jezika, koji se oslanja na samo dio podataka. Pitanje je: “Može li [model] naučiti jezik iz takve vrste unosa?” Kako bi suzili unose sa cijelog interneta, Vong i njegove kolege su obučili AI program sa stvarnim iskustvima pravog djeteta, bebe po imenu Sam. Video kamera postavljena na glavu snimila je ono što je Sam vidio, zajedno sa riječima koje je čuo, dok je rastao i učio engleski od 6 mjeseci do nešto više od 2 godine.
Istraživački AI program – tip koji se zove neuronska mreža – koristio je oko 60 sati Semovih zabilježenih iskustava, povezujući objekte u Samovim video zapisima s riječima koje je čuo kako njegovatelji govore dok ih je vidio. Iz ovih podataka, koji su predstavljali samo oko 1 posto Samovog budnog vremena, model bi tada “naučio” koliko su slike i izgovorene riječi blisko usklađene. Kako se ovaj proces odvijao iterativno, model je uspio da pokupi neke ključne riječi.
Vong i njegov tim testirali su svoj model slično laboratorijskom testu koji se koristio da otkriju koje riječi bebe znaju. Istraživači su modelu dali riječ – krevetić, na primjer. Zatim je model zamoljen da pronađe sliku na kojoj se nalazi krevetić iz grupe od četiri slike. Model je dobio tačan odgovor u oko 62 posto vremena. Nasumično pogađanje bi dalo tačne odgovore u 25 posto slučajeva.
„Ono što su pokazali je da ako možete uspostaviti ove asocijacije između jezika koji čujete i konteksta, onda možete krenuti sa terena kada je u pitanju učenje riječi“, kaže Kidd. Naravno, rezultati ne mogu reći da li djeca uče riječi na sličan način, kaže on. „Morate razmišljati o rezultatima, kao o ukazivanju na mogućnost tumačenja toga kako bi djeca mogla naučiti jezik.” Model je napravio određene greške. Pokazalo se da je riječ ruka nezgodna. Većina slika sa treninga koje su uključivale ruku dogodile su se na plaži, ostavljajući manekenku zbunjenom zbog ruke i pijeska. Međutim i djeca se zapetljaju s novim riječima . Česta greška je pretjerano generaliziranje, kaže Kidd, nazivajući sve odrasle muškarce “tata”, na primjer. „Bilo bi zanimljivo znati da li je model napravio greške koje prave djeca, jer tada znate da je na pravom putu“, kaže on. Glagoli takođe mogu predstavljati probleme, posebno za sistem veštačke inteligencije koji nema tijelo. Vizuelni prikaz skupa podataka za trčanje, na primjer, dolazi od djetetovog trčanja, što iz perspektive kamere, djeluje tako što se slika jako trese gore, dole. Istraživači sada unose još više audio i video podataka u svoj model. ovo bi trebalo donijeti nove i dublje informacije o procesu učenja jezika.