Mašīnmācīšanās pamati: ar ko sākt
Pamatjēdzieni par to, kā algoritmi "mācās" no datiem un kāpēc tas nav tik noslēpumaini, kā izskatās...
Lasīt rakstu →Uzzini, kā tavi viedtālruņa balss asistenti saprot tavu runas un sniedz pareizas atbildes reālajā laikā. Šajā rakstā noslēpums kļūst skaidrs.
Katru dienu miljardi cilvēku saka "Hei, Google" vai "Hei, Siri" un pēc sekundes saņem atbildes. Tas izskatās maģija, bet tas ir precīzi programmēts process. Asistents nav "dzīvs" — tas ir milzīgs skaits matemātisku operāciju, kas notiek supātri.
Pirms 10 gadiem balss asistenti bija pilnīgi bezjēdzīgi. Viņi nesaprasta kontekstu, pieņēma nepareizas nozīmes un bieži vien vienkārši uzrakstīja jaunus jautājumus vietā, lai tos atrisinātu. Šodien tie ir skarbi precīzi. Kas mainījies? Mašīnmācīšanās algoritmi.
Balss asistentam jāveic trīs pamatuzdevumi, lai atbildētu uz jautājumu. Katrs no tiem ir neatkarīgs solis, un katra soli var nedēļas datorprocesēšanas.
Tālrunis ieraksta jūsu skaņu vilnis — tas ir tikai ciparu skaits, nevis "vārdi". Modeļi mēģina noskaidrot, kādi skaņu modeļi atbilst konkrētiem burtiem. Viņi noenkodē skaņu frekvences un nosūta to uz serveri.
Tagad sistēmai jāsaprot, ko tu faktiski jautāji. "Spēlē mans iecienītais dziesmu saraksts" nozīmē pavisam kas cits nekā "spēlē mans iecienītais". AI noskaidro nozīmi no konteksta. Tā izmanto iepriekšējās jūsu komandas.
Sistēma nosūta komandu (vai tekstu) lietojumprogrammai. Ja tas ir muzika, Spotify sāk spēlēt. Ja tas ir jautājums, AI ģenerē teksta atbildi un pēc tam sintetizē to skaņā, kuru tu dzirdi atpakaļ.
Jūs varētu domāt, ka visa apstrāde notiek tālrunī. Patiesībā — ne. Daudz grūtākais darbs notiek uz serveriem desmitiem kilometru attālumā. Taču ne viss. Daļa apstrādes ir uz tālruņa pašas. Tas paātrina atbildi un ietaupa akumulatoru.
Kad jūs sakāt "Hei, Siri", tālrunis pirmais modeļis darbojas lokāli. Tas atpazīst uzbudinājuma vārdu. Tikai tad, kad tas ir pabeigts, tas sūta pārējo audio uz Apple serveriem. Tā kā vēlāk uzbudinājuma atpazīšana jau ir padarīta, tik daudz nepieprasīts servera laiks.
"Pats vērtīgākais ir ātrums. Ja asistents aizņem vairāk nekā divas sekundes, lietotājs jau domā, ka tas ir salauzts."
— Inženieru atsauksme par balss sistēmu
Iztēlojies, ka jūs jāmāca bērnam sveikt "labdien". Vispirms viņš noklausās 1000 dažādu cilvēku sakot "labdien" — dažādi izskaņoti, dažādi ātrumi, dažādi akcenti. Pēc tam viņš sāk atpazīt šo vārdu jebkuram, pat ja viņš saka to neprecīzi.
Balss asistenti ir apmācīti uz tūkstošiem stundu balss dati. Google skaļumā skaņu bibliotēka. Apple sākotnēji izmantoja Siri balsi — tas ir vīrietis vai sieviete, kas ierakstīja milzīgu skaņu daļu. Mūsdienas sistēmas izmanto teksta sintēzi, lai ģenerētu daudz vairāk variāciju.
Matemātiskie modeļi, kas atdarina smadzeņu darbu. Tie atpazīst modeļus milzīgā datu apjomā.
Miljards balss piemēri. Dažādi valodas, akcenti, dialekti, trokšņa apstākļi.
Modeļi tiek atjaunināti katru nedēļu ar jauniem datiem. Tā sistēma kļūst arvien labāka.
Daļa apstrādes notiek jūsu tālrunī, nevis uz serveriem. Jūsu balss dati netiek uzglabāti ilgstoši.
Šodien asistenti joprojām ir diezgan vienkārši. Viņi saprot komandas un vienkāršus jautājumus. Bet nākotnē? Sistēmas varētu saprasties gari sarunas, ņemot vērā jūsu iepriekšējos jautājumus un emocijas jūsu balsī.
Jaunākie modeļi, piemēram, GPT-4 un klīniskie modeļi, sāk parādīt "izpratni" par kontekstu. Viņi var noskaidrot, ko jūs tiešā nozīmē, nevis tikai vārdus, ko jūs sakāt. Tas ir tuvāk tam, kā cilvēki saprot cits citu. Bet mēs joprojām esam gadu, iespējams, 5-10 gadi prom no pavisam reālistiskas sarunas asistenta.
Gribētu uzzināt vairāk par mākslīgo intelektu? Izlasi citus rakstus mūsu kategorijavā!
Skatīt citus AI rakstus
Šis raksts ir informatīvs un izglītojošs resurss par to, kā darbojas balss asistenti. Šajā rakstā aprakstītā informācija ir balstīta uz pašreizējiem zinātniski pamatotiem izpratni par mašīnmācīšanos un balss apstrādes tehnoloģijām. Tehnoloģija mainās ātri, un daļa šeit aprakstīto detaļu var mainīties. Rakstā izklāstītie piemēri ir vienkāršoti, lai padarītu koncepcijas vieglāk saprotamas. Reālā balss asistenta izveide ir daudz sarežģītāka nekā šajā rakstā aprakstīts.