Watson je IBM-ov računalniški sistem za obdelavo naravnih jezikov. Poganja znameniti superračunalnik z odgovori na vprašanja in vrsto podjetniških izdelkov, ki temeljijo na umetni inteligenci, vključno z Watson Speech to Text. V našem pregledu govora v besedilo Watson si bomo ogledali eno najboljših aplikacij za pretvorbo govora v besedilo, idealno za vse, ki želijo zvok pretvoriti v besedilo v velikem obsegu.
Platforma za obdelavo govora Watson je na voljo v IBM Cloud. Je vsestransko orodje in se lahko uporablja v mnogih kontekstih, vključno z narekovanjem in prepisovanjem konferenčnih klicev. Še več, za razliko od večine drugih aplikacij za pretvorbo govora v besedilo je na voljo kot API, ki ga razvijalci med drugim lahko vgradijo v sisteme za glasovno upravljanje.
Watsonov govor v besedilo: načrti in cene
Watson Speech to Text lahko uporabite za brezplačno obdelavo do 500 minut zvoka na mesec. Če želite pretvoriti več kot to, boste morali plačati za vsako zvočno minuto, stopnja pa se spremeni glede na trajanje obdelanega zvoka. Stroški se gibljejo od 0,01 do 0,02 USD na minuto, če potrebujete IBM-ov jezikovni model po meri, pa morate plačati 0,03 USD na minuto. Na voljo so tudi premium načrti Watson, ki ponujajo samo ponudbe in ti omogočajo dostop do izboljšanih funkcij zasebnosti podatkov in garancij za neprekinjeno delovanje.
Do sistema Watson Speech to Text lahko dostopate tudi prek splošne naročnine na IBM Cloud. Obdelava naravnega jezika je le ena aplikacija v širokem naboru storitev umetne inteligence, ki jo lahko dobite prek IBM Cloud, zato je to dobra izbira za vsako organizacijo, ki potrebuje dostop do hitrih prenosov podatkov, klepetalnic ali orodja za pretvorbo besedila v govor.
Watson Govor v besedilo: Značilnosti
Zahvaljujoč prilagodljivi integraciji API-jev in drugih IBM-ovih orodij za predhodno izdelavo storitev prepoznavanja govora Watson presega osnovno prepisovanje. Če ga želite na primer uporabiti v okviru storitve za stranke, lahko Watson Assistant nastavite tako, da neposredno obdeluje vprašanja v naravnem jeziku ali po telefonu odgovarja na poizvedbe.
Watson deluje z zvokom v živo v 11 jezikih in lahko uvozi zvoke v različnih vnaprej posnetih oblikah. Pri pretakanju v realnem času diagnostična podpora pomeni, da lahko Watson uporabnike pozove, naj se približajo mikrofonu ali spremenijo okolje. Impresivno je tudi dejstvo, da lahko Watson v skupnem pogovoru loči med različnimi zvočniki, zahvaljujoč funkciji Diarizacija zvočnikov, ki je še vedno v fazi beta testiranja.
Watson Govor v besedilo: namestitev
Za uporabo Watsona morate najprej ustvariti račun IBM Bluemix. Registracija je brezplačna in neboleča, saj potrebujete le e-poštni naslov in geslo. Ko ste prijavljeni, morate v svoj račun dodati storitev za govor v besedilo. Na tej stopnji boste prejeli nekaj poverilnic, ki jih boste shranili v svoje evidence.
Ko to storite, postanejo stvari bistveno bolj zapletene. Če želite dostopati do Watsona, boste morali te poverilnice dodati seriji odjemalske kode enotnega lokatorja virov (cURL) in jo nato zagnati v računalniku. Če želite natančno ugotoviti, kateri ukaz poklicati, si oglejte ta priročnik. Če pa želite samo videti, kako dobro deluje sistem Watson, ne da bi vam bilo treba skočiti skozi vse te obroče, ga lahko namesto tega preizkusite na IBM-ovem predstavitvenem spletnem mestu.
Watson Govor v besedilo: vmesnik
Za razliko od aplikacij za pretvorbo govora v besedilo, ki so usmerjene k potrošnikom, so storitve Watsona zasnovane tako, da jim je mogoče dostopati prek API-jev in kode, vdelane v druge sisteme. Iz tega razloga ni pravega Watsonovega "vmesnika". Namesto tega je Watson dostopen prek treh različnih internetnih protokolov. To so WebSockets, REST API in Watson Developer Cloud.
Za nadzor Watsona boste morali uporabiti orodje ukazne vrstice, ki se poveže z IBM-ovim oblakom po eni od teh treh poti. Vmesnik, ki ga vidi končni uporabnik v interakciji z Watsonom, bo moral nekdo v vaši razvojni skupini zgraditi ločeno.
Watson Govor v besedilo: izvedba
Na splošno nas je navdušil način, kako je ta platforma za obdelavo naravnih jezikov obravnavala pravi govor. Z Watsonom smo prepisovali posnetke, ki smo jih posneli v številnih izzivnih okoljih, pa tudi zvočne posnetke znanih govorov, podanih v več od 11 podprtih jezikih Watsona.
Čeprav so se napake pogosteje pojavljale pri posnetkih z veliko hrupa v ozadju, je Watson na splošno dal neverjetno natančne rezultate. Na podlagi testov bi ocenili, da so se napake v povprečju zgodile le enkrat na 150 besed. Vendar je postalo jasno, zakaj funkcija Watsonova diarizacija zvočnikov ostaja pri testiranju BETA, saj je bil med glasovanjem večkrat en glas napačno označen kot ločena zvočnika.
Watson Govor v besedilo: podpora
IBM-ov center za vire ponuja veliko dokumentacije, da boste bolje razumeli, kako Watson uporabiti za vaš primer uporabe. Prav tako je vredno uporabiti integracije API-jev in SDK-je, ki jih je ustvarila skupnost razvijalcev Watson in objavila na GitHub.
Če tam ne najdete rešitve za težavo, se lahko obrnete neposredno na IBM, tako da odprete vstopnico za podporo ali se obrnete na njih po telefonu. Dokler ste se odločili za enega izmed premium paketov Watson, bo vaša uporaba Watsona zaščitena s pogodbo o ravni storitve Uptime.
Watson Govor v besedilo: končna sodba
Če ima vaša organizacija strokovno znanje in vire za pravilno integracijo platforme IBM Watson Speech to Text v vaš sistem, boste imeli koristi od naprednih funkcij, kot so diagnostika zvočnega okolja v realnem času in vmesni rezultati prepisa. Vendar se bodo mala podjetja in organizacije spopadle s tehničnim izzivom pravilne postavitve Watsona.
Tekmovanje
Storitev IBM Watson Speech to Text je neposredna konkurenca storitvam za prepisovanje v velikem obsegu Google Cloud Speech-to-Text in Amazon Transcribe. Oba sta bistveno cenejša od Watsona, na primer Google Cloud transcription se začne pri 0,006 USD na minuto. Vse tri storitve imajo podobne funkcije, kot je prilagojeni besednjak, vendar ena od funkcij, ki jo IBM Watson zelo pogreša, vendar je na voljo pri obeh tekmecih, je samodejno prepoznavanje ločil.
Iščete drugo rešitev za pretvorbo besedila? Oglejte si naš najboljši vodnik za programsko opremo za pretvorbo govora v besedilo.