Mi a beszédfelismerés?

Az Ön hangja beviteli módként

A beszédfelismerés olyan technológia, amely lehetővé teszi a beszédbevitelt a rendszerekben. Beszél a számítógépével, telefonjával vagy eszközével, és azt használja, amit bemenetet mondott, hogy kiváltson valamit. A technológiát más beviteli módok helyettesítik, mint például gépelés, kattintás vagy más módon történő kiválasztás. Ez eszköz arra, hogy a készülékek és a szoftverek felhasználóbarátabbá és termelékenységgé alakuljanak.

Rengeteg alkalmazás és terület van, ahol beszédfelismerést használnak, beleértve a katonaságot is, mint segítséget a fogyatékkal élők számára (képzeljünk el egy személynek, aki megbénult vagy nincs keze vagy ujja), az orvosi területen, a robotikában stb. A közeljövőben, szinte mindenkinek ki lesz téve a beszédfelismerésnek, mivel a közös eszközökkel, például számítógépekkel és mobiltelefonokkal való szaporodása miatt.

Bizonyos okostelefonok érdekes módon használják a beszédfelismerést. Az iPhone és az Android készülékek példák erre. Ezeken keresztül kezdeményezheti a hívást egy partnerhez, csak úgy, ha olyan hangutasításokat kap, mint például a "Hívás". Egyéb parancsok is szórakozhatnak, például a "Bluetooth bekapcsolása".

Problémák a beszédfelismeréssel

A beszédfelismerést, a Speech to Text (STT) néven ismert változatát hosszú ideig használják a beszélt szavak szövegbe való fordításához. "Beszélsz, tipussz", ahogy a ViaVoice azt mondja a dobozában. De van egy probléma az STT-vel, ahogy tudjuk. Több mint 10 évvel ezelőtt próbáltam a ViaVoice-t, és nem tartott egy hetet a számítógépemen. Miért? Nagyon pontatlan volt, és több időt és energiát fordítottam és javítottam, mint a gépelést. A ViaVoice az iparág egyik legjobbja, ezért képzelje el a többit. A technológia érlelődött és javult, de a beszéd a szövegben még mindig megkérdőjelezi az embereket. Az egyik legfőbb nehézsége az, hogy a szavak kiejtésében az emberek nagymértékben eltérnek egymástól.

Nem minden nyelv a beszédfelismerésnél feltételezhető, és a gyakran nem támogatottak, valamint az angolok is. Ennek eredményeképpen a legtöbb beszédfelismerő programot futtató eszköz csak ésszerűen működik angolul.

A hardverkövetelményeknek köszönhetően a beszédfelismerés bizonyos esetekben nehezen alkalmazható. Szüksége van egy olyan mikrofonra, amely elég intelligens ahhoz, hogy kiszűrje a háttérzajt, de ugyanakkor elég erős ahhoz, hogy természetesen rögzítse a hangját.

Ha a háttérzajról beszélünk, az egész rendszer hibát okozhat. Ennek eredményeképpen a beszédfelismerés sok esetben olyan zajt okoz, amely kívül esik a felhasználó irányításával.

A beszédfelismerés jobban bizonyul, mint beviteli mód új telefonokra és kommunikációs technológiákra, mint a VoIP, mint a tömeges szövegbevitel termelékenységének eszközére.

A beszédfelismerés alkalmazása

A technológia sok területen népszerűsödik, és sikeresnek bizonyult a következőkben:

- Eszközvezérlés. Csak azt mondja, hogy az "OK Google" egy Android telefonra tüzel fel olyan rendszert, amely mind a füleket a hangparancsokra használja.

- Autós Bluetooth rendszerek. Sok autó rendelkezik egy olyan rendszerrel, amely rádiómekanizmust csatlakoztat az okostelefonhoz a Bluetooth segítségével. Ezután hívásokat kezdeményezhet és fogadhat anélkül, hogy megérintene volna az okostelefonhoz, és csak számukra hívhatja a számokat.

- Voice átírás. Az olyan területeken, ahol az embereknek sokat kell beírniuk, néhány intelligens szoftver rögzíti a megszólalt szavakat, és átírja őket szöveggé. Ez jelenleg bizonyos szövegszerkesztő szoftvereken van. A hangátvitel szintén a vizuális hangpostával működik.