A 'Ngram Viewer' eszköz használata a Google Könyvekben

A Ngram, amelyet N-gramnak is szoktak nevezni, a szöveges vagy beszéd tartalmának statisztikai elemzése, hogy megtalálja a szövegben valamilyen elem számát (számot). Ez lehet mindenféle dolog, például fonémák, előtagok, kifejezések vagy levelek. Bár az N-gram némileg homályos a kutatón kívül, valójában számos területen használják, és sok következménye van azoknak az embereknek, akik olyan számítógépes programokat készítenek, amelyek megértik és válaszolnak a természetes beszédben. Ez a dióhéjban a Google érdeke az ötletnek.

A Google Könyvek Ngram Viewer esetében az elemezni kívánt szöveg nagy mennyiségű könyvből származik, amelyet a Google beolvasta a közkönyvtárakból a Google Könyvek keresőmotorjának feltöltéséhez. A Google Könyvek Ngram Viewer esetében azok a szövegek, amelyek a "corpus" -ra keresni fognak. Az Ngram Viewer tizedesét nyelv szerint osztják fel, bár külön-külön elemezheti a brit és az amerikai angol nyelveket, vagy összefoglalhatja őket. Nagyon érdekesnek tűnik a brit és az amerikai kifejezések használatának megváltoztatása és a diagramok változása.

Hogyan működik a Ngram

  1. Lépjen a Google Books Ngram Viewer könyvtárba a books.google.com/ngrams címen.
  2. A cikkek a kis-és nagybetűkre érzékenyek, ellentétben a Google webes keresésekkel, ezért ügyeljen arra, hogy tőkésítse a főneveket.
  3. Írja be az elemezni kívánt kifejezéseket vagy kifejezéseket. Ügyeljen arra, hogy minden vesszőt elválasszon vesszővel. A Google azt javasolja, "Albert Einstein, Sherlock Holmes, Frankenstein", hogy elinduljon.
  4. Ezután írjon be egy dátumtartományt. Az alapértelmezett érték 1800-2000, de vannak újabb könyvek (a legutóbb a 2011-es év szerepel a Google dokumentációjában, de ez megváltozott.)
  5. Válasszon egy korpuszt. Meg lehet keresni idegen nyelvű szövegeket vagy angolul, és a szokásos választásokon kívül észreveheti az olyan dolgokat, mint az "angol (2009) vagy az amerikai angol (2009)". Ezek a régebbi korpuszok, amelyeket a Google azóta frissített, de lehet, hogy valamilyen oknál fogva összehasonlíthatja a régi adathalmazokat. A legtöbb felhasználó figyelmen kívül hagyhatja őket, és a legfrissebb korpuszokra összpontosít.
  6. Állítsa be simítási szintjét. A simítás azt jelenti, hogy a görbe sima legyen a végén. A legpontosabb reprezentáció a 0-os simítási szint, de nehéz lehet olvasni. Az alapértelmezett értéket 3-ra állítja. A legtöbb esetben ezt nem kell módosítani.
  1. Nyomja meg a Keresés sok könyv gombot. (A keresési kérelemnél is csak nyomja meg az Enter billentyűt.)

Mit mutat Ngram?

A Google Könyvek A Ngram Viewer olyan grafikont jelenít meg, amely a könyvekben egy adott kifejezés használatát jelenti időnként. Ha több szót vagy kifejezést adott meg, akkor színkódolt vonalak jelenik meg a különböző keresési kifejezésekkel. Ez nagyon hasonlít a Google trendjeihez , csak a keresés hosszabb ideig terjed.

Itt van egy igazi példa. Az utóbbi időben kíváncsiak voltunk az ecetpelyhekre. A La Prairie-i sorozat Laura Ingalls Wilder Little House- jében említik, de soha nem hallottunk ilyen dolgot. Először az internetes keresést használtam, hogy többet megtudhassunk az ecet pite-ről. Úgy tűnik, az amerikai déli konyha részét képezik, és valójában ecettel készültek. Visszajátszanak olyan időkbe, amikor nem mindenki jutott friss termékekhez az év minden szakában. Ez az egész történet?

Megkerestük a Google Ngram Viewert, és a pie néven említésre került mind az 1800-as évek elején, mind az 1800-as évek végén, sok említést tett az 1940-es években, és az utóbbi időben egyre több megemlítés (esetleg némi nosztalgia). probléma az adatokkal a 3 simítási szintjén. Az 1800-as években van egy fennsíkon a megemlítés. Biztos, hogy évente öt éven keresztül nem egyforma mennyiségű megemlékezést említenek? Mi folyik itt, mert nincs sok könyv megjelent ebben az időben, és mivel adataink simaak, ez torzítja a képet. Valószínűleg volt egy könyve, amely megemlítette az ecet pite-t, és csak átlagolt, hogy elkerülje a tüske. Ha a simítást 0-ra állítjuk, láthatjuk, hogy pontosan ez a helyzet. A tüske központja 1869-ben, és van egy másik tüske 1897-ben és 1900-ban.

Senki nem beszélt az ecet pite-ről az idő múlásával? Valószínűleg ezekről a pitékről beszéltek. Valószínűleg mindenütt lebegtek a receptek . Nem írtak róla a könyvekben, és ez korlátozza ezeket az Ngram kereséseket.

Fejlett Ngram keresések

Emlékszel arra, hogy azt mondtuk, hogy az Ngrams mindenféle szöveges keresést tartalmazhat? A Google lehetővé teszi, hogy eléggé fúrjon egy kicsit az Ngram Viewert is. Ha szeretne halat keresni az ige helyett a halat a névvel, ezt megteheti címkék használatával. Ebben az esetben a "fish_VERB"

A Google teljes listát nyújt a használni kívánt parancsokról és egyéb speciális dokumentációkról a webhelyükön.