Konsolentipps #003: GoogleNgram-Dateien runterladen
Online seit Tue 21 December 2010 in Digital
Bei
Commandlinefu
habe ich einen Befehl entdeckt, wie man die Daten des wirklich
interessanten Tool GoogleNgram runterladen kann.
Möchte man nicht gleich alle, sondern nur die in einer bestimmten
Sprache, auf den heimischen Rechner ziehen möchte hilft folgender
Befehl:
wget -qO - http://ngrams.googlelabs.com/datasets | grep -E href='(.+ger.+\.zip)' | sed -r "s/.*href='(.+ger.+\.zip)'.*/\1/" | uniq | while read line; do echo $line >> liste.txt; done && wget -i liste.txt && rm liste.txt
Nun wird der komplette Datensatz in Deutsch runtergeladen. Möchte man andere Sprachen haben muss man sich die Links auf der Ngram-Datasetseite anschauen und die beiden “ger” durch die gewünschte Sprache ersetzen (z.B. “fra” für Französisch)