LINGVIST TADIĆ OBILJEŽIO MJESEC HRVATSKOG JEZIKA “Nijedan stroj ne može jezik nazvati materinskim jer nema majke”

Foto: Vedran Levi

U sklopu obilježavanja Mjeseca hrvatskoga jezika, 13. ožujka u Dubrovačkim knjižnicama održano je predavanje o velikim jezičnim modelima i umjetnoj inteligenciji. Istaknuti hrvatski računalni i korpusni lingvist Marko Tadić govorio je o razvoju tih modela, njihovom utjecaju na hrvatski jezik te o izazovima očuvanja i razumijevanja manjinskih jezika u digitalnom prostoru.

Tadić je objasnio da veliki jezični modeli (VJM-i) predstavljaju opsežne skupove tekstnih podataka koji u kondenziranom obliku odražavaju ljudsku uporabu jezika. Trenirani na milijardama tekstova, modeli uče strukturu i veze među riječima, rečenicama i odlomcima te ih mogu primjenjivati na nove tekstove, kako za razumijevanje, tako i za stvaranje novih.

– Modeli tijekom obuke pokušavaju prikazati tu strukturu odnosa kao mrežu znanja. Kada je jednom usvoje, mogu je primjenjivati na nove tekstove, bilo da ih razumiju, bilo da stvaraju nove – pojasnio je Tadić.

Upozorio je da izraz umjetna inteligencija često zbunjuje javnost jer obuhvaća puno šire područje, od računalnog vida i robotike do prepoznavanja obrazaca i tehnologija znanja. Posebno je naglasio izazov za „manje“ jezike poput hrvatskoga, koji imaju znatno manje digitalnih tekstova u odnosu na engleski.

Kako bi se to nadomjestilo, Tadić i suradnici razvili su prvi hrvatski jednojezični model HR-GPT Beta, obučen na gotovo osam milijardi hrvatskih riječi. Model je dostupan u repozitoriju HR-CLARIN i omogućava bolje razumijevanje specifičnosti hrvatskoga jezika te smanjuje interferencije iz višejezičnih modela. Već se može koristiti u istraživanjima, obrazovanju i razvoju jezičnih tehnologija.

Jedan od zanimljivijih dijelova predavanja bio je utjecaj modela na stvaranje novih riječi. U preliminarnom istraživanju Tadić je identificirao 321 novu riječ u hrvatsko-engleskom paralelnom korpusu novinskih tekstova, koje strojnoprevoditeljski sustavi stvore pravilnom primjenom hrvatskih tvorbenih pravila. Primjeri uključuju „trogol“ (prevedeno iz „three-goal“) i „burzer“ (iz „broker“), riječi koje su se potom počele koristiti u stvarnim medijima.

Tadić je istaknuo da leksikolozi moraju odlučiti hoće li prihvatiti strojno generirane riječi, dok ljudska kreativnost i dalje ima ključnu ulogu u razvoju jezika.

– Nijedan stroj nikada neće moći jezik nazvati materinskim jer jednostavno nema majke – zaključio je.

Predavanje je završilo interaktivnom raspravom s publikom o budućnosti hrvatskoga jezika u digitalnom dobu i ulozi lingvistike u razumijevanju novih tehnologija, potičući pitanje koliko će strojevi moći oblikovati naš jezik, a koliko je on ipak isključivo ljudska domena.

Povezano

Dulist PROMO