A Linux hangfelismerés állapota

by Gary Newell

Bevezetés

Sok időt töltöttem a cikkek kutatásában, és gyakran gondolok egy cikk tárgyára, miközben sétálok a vasútállomásra, vagy általában és általában.

Egy este, miközben a munkámból az 1,5 mérföldre sétáltam az állomásra, azt gondoltam "nem lenne jó, ha fel tudnék rögzíteni azt, amit mondani akartam, majd automatikusan átírnám egy olyan szöveges fájlba, amelyet később szerkeszthetek és formázhatok" .

Rengeteg órát töltöttem azzal a céllal, hogy megtekintsem a hangfelismeréshez és diktáláshoz rendelkezésre álló különböző lehetőségeket, beleértve a közvetlenül a mikrofonon történő felvételt Linuxos diktációs szoftver használatával, a fájlt MP3 vagy WAV formátumban rögzítjük, és a parancssor segítségével konvertáljuk, valamint Chrome-ot és Android alkalmazások.

Ez a cikk a kemény munkával töltött napok után rámutat az eredményemre.

Linux beállítások

A diktálás és a hangfelismerő szoftver keresése a Linuxban nem olyan könnyű, mint amilyen lehet, és a rendelkezésre álló lehetőségek nem olyan okosak.

Ez a wikipédia oldal felsorolja a lehetséges opciókat, köztük a CMU Sphinx, Julius és Simon.

A SparkyLinux-ot használom, amely jelenleg a Debian tesztelésen alapul, és elmondhatom, hogy a tárolókban elérhető egyetlen hangfelismerő csomag a Sphinx.

A natív Linux programok, amiket kipróbáltam, a PocketSphinx volt, amelyet a WAV fájlok szöveggé konvertáltak, a Freespeech-VR pedig egy python alkalmazás, amely lehetővé teszi a mikrofonról való rögzítést.

Próbáltam még néhány Chrome-alkalmazást, köztük a VoiceNote II és a Dictanote.

Végül megpróbáltam a "Diktálás és e-mail" és a "Talk And Talk Dictation" Android Apps alkalmazásokat.

Freespeech-VR

A Freespeech-VR nem érhető el a standard adattárakban. Letöltöttem a fájlokat innen.

Miután letöltötte és kibontotta a zip fájl tartalmát, megnyitottam egy terminált, és navigáltam a mappába, ahová a fájlokat kivontuk.

A freespeech-vr megnyitásához a következő parancsot írtam be.

sudo python freespeech-vr

Van egy pár fejhallgató, egy meglehetősen tisztességes mikrofon és egy meglehetősen tiszta dél-angol akcentussal.

A freespeech-vr ablakban a következő szöveg jelenik meg:

Üdvözöljük az egység kutyák kimenetele Ma már biztosítja, hogyan kell menedzselni tesztek van, hogy teszteljék Mikor a szöveg Használja a rendszer módja Beszéd I az, hogy egy minden volt csak abban a reményben, hogy maradni és a az eszközök egy csirke arany, mint rendszer Az Ea, amikor a nevem a következő telefonhívás telefonja Ez a fájl Hamarosan egy esetet telefon a Hands-Space a sphinx Going Ez nem egy telefon lesz megosztva Egy képzett és és eszközök Használja a beszélgetést Amikor befejezte Say Egy használt fájl Utolsó A történet A és a A mikor nagyon sikeres Ez a Linux, amennyit csak tudsz

Most azt szeretném mondani, hogy ez nem a Dogs Unit honlapja, és semmiképpen sem említem meg semmit az Aranycsirkékkel kapcsolatban. Én ténylegesen megpróbáltam leírni a hangfelismerő szoftver használatának folyamatát.

Próbáltam a szoftvert néhányszor, beleértve a különböző szintet és sebességet, de a pontosság gyenge volt.

PocketSphinx

A PocketSphinx képes WAV-fájlokat készíteni, és a parancssor segítségével konvertálni a szövegbe.

A PocketSphinx a Debian adattáron keresztül érhető el, és a legtöbb terjesztéshez rendelkezésre kell állnia.

A PocketSphinx-szel kapcsolatos legfontosabb kérdés az, hogy gyakorlatilag szüksége van egy fokozatra a hangfelismerés, a nyelvi fájlok, a szótárak és a rendszer edzésének fogalmaihoz.

A PocketSphinx telepítése után meg kell keresnie a CMU Sphinx weboldalát, és el kell olvasnia a lehető legtöbb információt. A következő modellfájlt is le kell töltenie.

Amerikai angol általános nyelvű modell

(Ha nem angol anyanyelvű, válassza ki a megfelelő nyelvi modellt).

A PocketSphinx és a Sphinx dokumentációját általánosságban nehéz megérteni a laikus számára, de a szótárfájlokból fel lehet használni, hogy felsorolják a lehetséges szavakat, és a nyelvi modellek felsorolják a lehetséges kiejtéseket.

A PocketSphinx teszteléséhez a saját hangomat, az Al Pacino "The Devils Advocate" és a "Morgan Freeman" részletét vettem fel. Ennek az a célja, hogy különböző hangokat kipróbáljam, és nekem senki sem tud olyan tisztán mesélni egy történetet, mint Morgan Freeman, és senki nem szállít olyan vonalat, mint az Al Pacino.

A PocketSphinx-nek a munkához szüksége van egy WAV fájlra, és egy bizonyos formátumban kell lennie. Ha a fájl MP3 formátumú, használja az ffmpeg parancsot WAV formátumba konvertálásához:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

A PocketSphinx futtatásához használja a következő parancsot:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous vesz egy WAV fájlt, és átalakítja a szöveget.

A fenti parancsban a pocketsphinx-nek azt mondják, hogy a "cmusphinx-5.0-en-us.lm" nyelvi modellt használó "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" szótárfájlt használja. A szövegre konvertált fájlt voice2.wav (ami a hangommal készült felvétel) hívja. Végül a 2> helyezi az összes olyan verbose kimenetet, amelyet nem feltétlenül szükséged van a voice2.log nevű fájlba. A teszt tényleges eredményei a terminál ablakban jelennek meg.

A hangom által használt eredmények a következők:

üdvözölhetjük a következőt arról, hogy a héten nem ismerik fel az elismerési szoftvert egy percen belül

Az eredmények nem olyan szörnyűek, mint a freespeech-vr esetében, de még mindig nem használhatók. Ezután próbáltam használni a PocketSphinxet az Al Pacino-val, de ez egyáltalán nem hozott eredményt.

Végül Morgan Freeman hangját használtam a "Bruce Almighty" filmből, és itt vannak az eredmények:

000000000: mi lesz vele
000000001: mind olyan kemény, igen, a nap, hogy most éppen ez a legnagyobb életben élünk, a meleg
000000002: a liftben, aki a legfontosabb egy kis baseballból, vagy tudja, mit kell tennie az életben
000000003: Melyek azok, amelyek visszanyerik
000000004: nem írtak
000000005: Rám van rám
000000006: szabályoknak kell lenned
000000007: vártam önt
000000008: és ő megtudta itt, hogy egy illusztráció volt a gyilkos karácsonyi párt
000000009: kiderül, hogy az egyik o. szamár gondoltam, hogy kevesen viselnek egyet
000000010: mint a probléma, az egyesített nem adja meg a jóat, én becsülöm őket attól a pillanattól, amikor nem minden, amire gondolsz, hogy a világban leszek otthonok és láttam, hogy
000000011: egy apa, aki megvan
000000012: Mi a sok erről
000000013: ezt megadja
000000014: mindazt, amit nem sokat essz el
000000015: egyenesen ősszel
000000016: Tartsd csak a számomra
000000017: ez egy boldogtalan, ha azt hiszem, hogy fognak egy olyan, hogy ez lesz az egész, hogy házasok a volt nem mi szeretem, ellentétben az utat

Az én tesztemet aligha lehet tudományosnak tekinteni, és a PocketSphinx fejlesztői azt állíthatják, hogy nem megfelelően használom a szoftvert. Van egy olyan hangtechnikai eszköz is, amelyet jobb szótárak és nyelvi fájlok létrehozására lehet használni.

Az én legfontosabb véleményem azonban az, hogy ez csak túl nehéz a szokásos mindennapi használat.

VoiceNote II

A VoiceNote II olyan Chromealkalmazás, amely a Google Voice felismerő API-t használja.

Ha Chrome- vagy Chromium-böngészőket használ, a VoiceNote II-t a Web Store segítségével telepítheti.

A VoiceNote II ikonjai furcsa módon vannak kialakítva, mivel az ablak alján található nyelvet kell beállítani, a szerkesztő gomb pedig alul van, de a rekord gomb a jobb felső pozícióban van.

Az első dolog, amit meg kell tennie, hogy válasszon nyelvet, és ez elérhető a világ ikonra kattintva.

A felvétel megkezdéséhez kattintson a mikrofon ikonra, és kezdjen beszélni a mikrofonjába. A legjobb eredményekért, melyeket lassan beszéltem, kulcsfontosságú volt, hogy a szoftvernek lehetősége legyen a lépést tartani.

Az eredmények nem voltak olyanok, amint az alábbiakban látható:

Üdvözöljük és üdvözöljük a kapcsolatot. A napi cikkek a hangról a szöveges konverzióra dunelm farrell 2008-as recesszióról, mint konverziókról és azt mondta, hogy jól támogatta a legjobb módszert találtam hang szöveges addon mutatni 2014debian vagy rpm csomagot nyitni hangtípust beszédet szöveg megnyitni, ha szeretné kiválasztani vs választott edinburgh francia német kapsz az idő az egyesült kingdomstart a tengeren microphonewhat már befejezte írja a szöveget, mint egy szöveges fájlt itsuccess is ez egy nagyon standard english kiejtés dél-anglia legjobb neki, de én megyek a szöveges ez torrentalong a tényleges dokumentummal, és láthatja azokat a hibákat, amelyek a barátok meghallgatásához vezetnek

Dictanote

A Dictanote egy másik Chrome alkalmazás, amely diktálásra használható, és intuitívabbá vált, de az eredmények nem voltak jobbak, mint a VoiceNote II.

Csak a Dictanote demó változatát használtam, amely megakadályozza az új dokumentumok létrehozását, de lehetővé teszi, hogy olyan szövegen beszéljen, amely már szerepel a szerkesztőben. Tudtam tesztelni a hangfelismerést, de az eredmények nem voltak jobbak, mint a VoiceNote II, így nem jelentkeztem a pro verzióra.

Diktálás és levél

A "diktálás és levelezés" egy Android alkalmazás, amely a natív Google hangfelismerő API-t használja.

A "Diktálás és levelezés" eredményei sokkal jobbak voltak, mint bármelyik másik, ebbe a pontig terjedő program.

Üdvözöljük a Linuxot a., ma arról beszélünk, hogy a hangot szöveggé konvertáljuk

A diktálással és levelezéssel kapcsolatos trükk az, hogy lassan beszéljünk, és kiejtsd, mint egy akcentussal.

Miután befejezte a beszélgetést, e-mailben küldheti el az eredményeket.

Beszélgetés és vita diktálás

A másik Android alkalmazást, amelyet próbáltam, "Talk And Talk Dictation" volt.

Az alkalmazás felülete a legjobb volt, és a hangfelismerés nagyon jól működött. A diktálás felvétele után különböző eredményeket tudtam megosztani az e-mailben.

üdvözlöm a linux about.com-ra ma arról beszélünk, hogy a beszédet szöveggé konvertáljuk

Amint látja, a fenti szöveg olyan tiszta, amennyit csak várhat. Lassan beszélni a kulcs.

összefoglalás

Az Native Linux valamilyen módon járhat a hangfelismeréssel és a kifejezetten diktálással kapcsolatban. Vannak olyan alkalmazások, amelyek a Google Voice API-t használják, de még nem szerepelnek a tárolókban.

A ChromeOS alkalmazások kicsit jobbak, de messze a legjobb eredményeket érte el az Android telefonom használatával. Lehet, hogy a telefonnak jobb mikrofonja van, ezért a hangfelismerő szoftver jobb konverziós eséllyel rendelkezik.

Ahhoz, hogy a hangfelismerés valóban használható legyen, sokkal intuitívabbnak kell lennie, kevesebb beállítással. Nem szabad, hogy a nyelvi modellekkel és szótárakkal szórakozzon, hogy érthetővé tegye.

Nagyra értékelem azonban, hogy a hangfelismerés teljes művészete nagyon kihívást jelent, hiszen mindenkinek más a hangja, és egy-egy országban olyan sok dialektus létezik, amely egy adott országban a régi nyelvek több száz nyelvén aggódik.

Elemzésem tehát az, hogy a hangfelismerő szoftver még mindig folyamatban van.