Bibel Text Deutsch, Englisch, Französisch
In der heutigen Zeit werden oft Bilder und Filme durchs Netz gesendet mit ziemlichem Umfang.
Die Dateigrösse ist oftmals deutlich grösser als 10MB mit geringem Informationsgehalt.
Verglichen dazu umfasst die gesamte Luther-Bibel (Ausgabe 1912) lediglich 4.27MB reiner Text;
siehe auch:
https://info2.sermon-online.com/german/MartinLuther-1912/.
Die PDF-Version ist sogar nur 3.74MB gross. Hierbei kommt der "Flate/deflate"
compression-Algorithmus bei Adobe Acrobat zum Zug;
Die ZIP-Version der Bibel ist sogar nur 1.39MB gross.
Ich versuchte weiter die Buchstabenverteilung der gesamten Bibel zu erfassen und verwendete dazu MS-Word.
Die Zählung ist jedoch ziemlich zeitaufwendig.
Ein Java-Programm sollte dies vereinfachen und im Ergebnis war das Programm so effizient,
dass die Laufzeit zum Auszählen aller unterschiedlichen Zeichen und Worte bei total 0.66 Sekunden (!) für die gesamte Bibel (in Deutsch) blieb.
Dabei wurden die Buchbezeichnungen und deren Nummern sowie die Versnummern nicht mitgezählt
Angestachelt daraus machte ich dasselbe mit der Englischen und Französische Version der Bibel. Das Ergebnis ist in diesem
PDF
zusammengefasst.
Goethe, Schiller, Kleist
Unter der Internetseite
http://digbib.org/
und insbesondere unter
https://www.projekt-gutenberg.org/
sind u.a. auch die wichtigsten Werke von Johann Wolfgang von Goethe, Friedrich von Schiller und Heinrich von Kleist gespeichert.
Also liegt es nicht fern, auch diese Werke bezüglich Buchstaben-Verteilung zu untersuchen.
Das Ergebnis ist in einem separaten
PDF
zusammengefasst.
Platon, Aristoteles, Kant
Unter der Internetseite
http://opera-platonis.de/Platon_Werke.pdf
sind alle 36 Werke der Tetralogie 1-9 von Platon in einem PDF zusammengefasst.
Es umfasst 4.9MB bzw. 65'000 Zeilen. Zum Zählen dieser Zeichen und Worte benötigt mein Java-Programm weniger als 0.9 Sekunden(!),
wobei noch Seitenüberschriften entfernt werden mussten.
Die Werke von Aristoteles sind als Text einiges schwieriger zu finden.
Dabei half die Suchmaschine duckduckgo wesentlich besser als Google und Bing.
Die wichtigsten Werke sind unter
http://www.linke-buecher.de/texte/romane-etc
zu finden.
Die Hauptwerke von Immanuel Kant liegen zum grossen Teil nur in relativ schwachen OCR-Scans vor
http://www.deutschestextarchiv.de/api/pnd/118559796
und werden aktuell überarbeitet.
Auch diese 3 Text-Bündel sind in einer eigenen
PDF
zusammengefasst.
Wort-Giganten: T. Mann, W. Shakespeare, Molière
Seit langer Zeit schwelgt zwischen den Engländern und Franzosen die Konkurrenz über den
Wortreichtum ihrer Sprache. An Hand der Bibel würde diese Ehre eindeutig ans Französisch
gehen (20’489 unterschiedliche Worte) gegenüber Englisch (12’562) gehen.
Also untersuchte ich die Giganten der Sprache. Hier ging eindeutig Shakespeare (25’583)
gegen Molière (19’781) als Sieger hervor. Dabei hat jedoch sein gesamtes Werk auch fast
den doppelten Umfang.
Überraschenderweise stellte sich dabei heraus, dass Thomas Mann mit
seinen 58'384 unterschiedlichen Worten noch weit wortreicher ist als die beiden andern.
Auch wenn das Deutsche mit den geschlechtsabhängigen Adjektiven leicht mehr unterschiedliche Worte
(Buchstabenfolgen ohne Berücksichtigung von Gross-/Kleinschreibung) erwarten
lässt. Dabei ist jedoch zu bemerken, dass im Zauberberg einige Abschnitte in Französisch
geschrieben sind. Auch dann noch verwendet er mehr Worte als Goethe (28’455)
und Schiller (20’337).
Und dies nur in seinen auf ursprünglich Deutsch erschienen Werke - ohne die Werke die er in den
USA verfasst hat. Er ist also der eindeutige Wortgigant.
Das Ergebnis dieser drei "Giganten bzw. deren Auswertung ist in diesem
PDF
zusammengefasst.
Und: Augustinus, K. Marx, F. Nietzsche
Auf der Suche nach weiteren wortreichen Autoren verwundert es, dass der Kirchenvater
Augustinus von Hippo (354-430) dazu zählt, wurde er doch aus dem Lateinischen
übersetzt. Die Anzahl verschiedene Worte (43’771) ergibt sich wohl auch aus der noch
grossen Anzahl verbliebener lateinischer Worte im Text. Dass Karl Marx
einen sehr grossen Wortschatz (41’227) hat, verwundert nicht. Insbesondere auch durch die vielen
Ausdrücke aus der Ökonomie im Kapital.
Die Wortgewalt von Friedrich Nietzsche (51’085) wird noch gesteigert, wenn
man alle nachgelassenen Fragmente und Brief mitberücksichtigt (79’198 Worte bei 17MB Zeichen).
Anzumerken ist
jedoch, dass auch er viele Lateinische und Französische Zitate in seinen Werken einfügte.
Trotzdem würde ich behaupten, dass
F.Nietzsche der Wortgigant der Deutschen Sprache ist.
Ebenso wurde bei ihm der längste Satz (3497 Zeichen bzw. 490 Worte)
aller untersuchten Texte gefunden.
Das Ergebnis dieser drei Autoren bzw. deren Auswertung ist in diesem
PDF
zusammengefasst.
Tages-Anzeiger, Spektrum, Relativitätstheorie
Weil das alles so gut flutscht, habe ich 4 Ausgaben des Tages-Anzeiger-ePaper
(22.-26.02.2020) inkl. Magazin analysiert.
Der Umfang davon ist mit 1.8MB (reiner Text) nicht besonders gross. Als Besonderheit gegenüber anderen Texten
liegt im relativ hohen Anteil von Zahlen bzw. Ziffern, was leicht nachvollziehbar ist.
Ebenfalls darin enthalten sind
4 Ausgaben (Jan.-Apr.2020) des
Spektrum der Wissenschaft
sowie
Die Grundlage der allgemeinen Relativitätstheorie
der Text von Albert Einstein:
aus den Annalen der Physik. Band 354, Nr. 7, 1916, S. 769-822.
Das Ergebnis ist ebenfalls im
PDF
zusammengefasst.
Koran, Buddhismus, Hinduismus
Um religiöse Präferenzen auszuschliessen, habe ich im weiteren die deutsche
Ausgabe des
Koran
und zusätzlich die Übersetzungen der nicht so eindeutigen heiligen Schriften des
Buddhismus
und des Hinduismus mit der
Rig-Veda
und
anderen
untersucht.
Darin ist die Buchstabenverteilung nicht so relevant, aber die Anzahl verwendeten Worte
zu beachten. Hierbei jedoch auch der Umfang der Hindu-Schriften und, dass darin sehr viele
Eigennamen enthalten sind.
Für die sehr umfangreichen Werke zum Hinduismus
(23MB reiner Text in 290’000 Zeilen)
benötigte mein Java-Programm gerade einmal 3.8 Sekunden zum zählen
aller Buchstaben und Worte des Textes.
Das Ergebnis ist ebenfalls im
PDF
zusammengefasst.
Diese Zusammenfassung ist kein Hinweis auf meine Präferenzen,
sondern beeindruckt einfach durch die riesige Menge von (guten) Informationen,
die sich im Internet aufspüren lassen.
Durch die angeordndete Zurückgezogenheit im Jahr 2020, fand ich die Zeit um solche müssigen
Untersuchungen auszuführen.
Im Übrigen übte ich mich wieder einmal in der einfachen Java-Programmierung.