Bibel Text Deutsch, Englisch, Französisch

In der heutigen Zeit werden oft Bilder und Filme durchs Netz gesendet mit ziemlichem Umfang. Die Dateigrösse ist oftmals deutlich grösser als 10MB mit geringem Informationsgehalt. Verglichen dazu umfasst die gesamte Luther-Bibel (Ausgabe 1912) lediglich 4.27MB reiner Text; siehe auch: https://info2.sermon-online.com/german/MartinLuther-1912/. Die PDF-Version ist sogar nur 3.74MB gross. Hierbei kommt der "Flate/deflate" compression-Algorithmus bei Adobe Acrobat zum Zug; Die ZIP-Version der Bibel ist sogar nur 1.39MB gross.
Ich versuchte weiter die Buchstabenverteilung der gesamten Bibel zu erfassen und verwendete dazu MS-Word. Die Zählung ist jedoch ziemlich zeitaufwendig. Ein Java-Programm sollte dies vereinfachen und im Ergebnis war das Programm so effizient, dass die Laufzeit zum Auszählen aller unterschiedlichen Zeichen und Worte bei total 0.66 Sekunden (!) für die gesamte Bibel (in Deutsch) blieb. Dabei wurden die Buchbezeichnungen und deren Nummern sowie die Versnummern nicht mitgezählt
Angestachelt daraus machte ich dasselbe mit der Englischen und Französische Version der Bibel. Das Ergebnis ist in diesem PDF zusammengefasst.

Goethe, Schiller, Kleist

Unter der Internetseite http://digbib.org/ und insbesondere unter https://www.projekt-gutenberg.org/ sind u.a. auch die wichtigsten Werke von Johann Wolfgang von Goethe, Friedrich von Schiller und Heinrich von Kleist gespeichert. Also liegt es nicht fern, auch diese Werke bezüglich Buchstaben-Verteilung zu untersuchen. Das Ergebnis ist in einem separaten PDF zusammengefasst.

Platon, Aristoteles, Kant

Unter der Internetseite http://opera-platonis.de/Platon_Werke.pdf sind alle 36 Werke der Tetralogie 1-9 von Platon in einem PDF zusammengefasst. Es umfasst 4.9MB bzw. 65'000 Zeilen. Zum Zählen dieser Zeichen und Worte benötigt mein Java-Programm weniger als 0.9 Sekunden(!), wobei noch Seitenüberschriften entfernt werden mussten.
Die Werke von Aristoteles sind als Text einiges schwieriger zu finden. Dabei half die Suchmaschine duckduckgo wesentlich besser als Google und Bing. Die wichtigsten Werke sind unter http://www.linke-buecher.de/texte/romane-etc zu finden.
Die Hauptwerke von Immanuel Kant liegen zum grossen Teil nur in relativ schwachen OCR-Scans vor http://www.deutschestextarchiv.de/api/pnd/118559796 und werden aktuell überarbeitet.
Auch diese 3 Text-Bündel sind in einer eigenen PDF zusammengefasst.

Wort-Giganten: T. Mann, W. Shakespeare, Molière

Seit langer Zeit schwelgt zwischen den Engländern und Franzosen die Konkurrenz über den Wortreichtum ihrer Sprache. An Hand der Bibel würde diese Ehre eindeutig ans Französisch gehen (20’489 unterschiedliche Worte) gegenüber Englisch (12’562) gehen.
Also untersuchte ich die Giganten der Sprache. Hier ging eindeutig Shakespeare (25’583) gegen Molière (19’781) als Sieger hervor. Dabei hat jedoch sein gesamtes Werk auch fast den doppelten Umfang.
Überraschenderweise stellte sich dabei heraus, dass Thomas Mann mit seinen 58'384 unterschiedlichen Worten noch weit wortreicher ist als die beiden andern. Auch wenn das Deutsche mit den geschlechtsabhängigen Adjektiven leicht mehr unterschiedliche Worte (Buchstabenfolgen ohne Berücksichtigung von Gross-/Kleinschreibung) erwarten lässt. Dabei ist jedoch zu bemerken, dass im Zauberberg einige Abschnitte in Französisch geschrieben sind. Auch dann noch verwendet er mehr Worte als Goethe (28’455) und Schiller (20’337). Und dies nur in seinen auf ursprünglich Deutsch erschienen Werke - ohne die Werke die er in den USA verfasst hat. Er ist also der eindeutige Wortgigant. Das Ergebnis dieser drei "Giganten bzw. deren Auswertung ist in diesem PDF zusammengefasst.

Und: Augustinus, K. Marx, F. Nietzsche

Auf der Suche nach weiteren wortreichen Autoren verwundert es, dass der Kirchenvater Augustinus von Hippo (354-430) dazu zählt, wurde er doch aus dem Lateinischen übersetzt. Die Anzahl verschiedene Worte (43’771) ergibt sich wohl auch aus der noch grossen Anzahl verbliebener lateinischer Worte im Text. Dass Karl Marx einen sehr grossen Wortschatz (41’227) hat, verwundert nicht. Insbesondere auch durch die vielen Ausdrücke aus der Ökonomie im Kapital. Die Wortgewalt von Friedrich Nietzsche (51’085) wird noch gesteigert, wenn man alle nachgelassenen Fragmente und Brief mitberücksichtigt (79’198 Worte bei 17MB Zeichen). Anzumerken ist jedoch, dass auch er viele Lateinische und Französische Zitate in seinen Werken einfügte. Trotzdem würde ich behaupten, dass F.Nietzsche der Wortgigant der Deutschen Sprache ist. Ebenso wurde bei ihm der längste Satz (3497 Zeichen bzw. 490 Worte) aller untersuchten Texte gefunden. Das Ergebnis dieser drei Autoren bzw. deren Auswertung ist in diesem PDF zusammengefasst.

Tages-Anzeiger, Spektrum, Relativitätstheorie

Weil das alles so gut flutscht, habe ich 4 Ausgaben des Tages-Anzeiger-ePaper (22.-26.02.2020) inkl. Magazin analysiert. Der Umfang davon ist mit 1.8MB (reiner Text) nicht besonders gross. Als Besonderheit gegenüber anderen Texten liegt im relativ hohen Anteil von Zahlen bzw. Ziffern, was leicht nachvollziehbar ist.
Ebenfalls darin enthalten sind 4 Ausgaben (Jan.-Apr.2020) des Spektrum der Wissenschaft sowie Die Grundlage der allgemeinen Relativitätstheorie der Text von Albert Einstein: aus den Annalen der Physik. Band 354, Nr. 7, 1916, S. 769-822.
Das Ergebnis ist ebenfalls im PDF zusammengefasst.

Koran, Buddhismus, Hinduismus

Um religiöse Präferenzen auszuschliessen, habe ich im weiteren die deutsche Ausgabe des Koran und zusätzlich die Übersetzungen der nicht so eindeutigen heiligen Schriften des Buddhismus und des Hinduismus mit der Rig-Veda und anderen untersucht.
Darin ist die Buchstabenverteilung nicht so relevant, aber die Anzahl verwendeten Worte zu beachten. Hierbei jedoch auch der Umfang der Hindu-Schriften und, dass darin sehr viele Eigennamen enthalten sind.
Für die sehr umfangreichen Werke zum Hinduismus (23MB reiner Text in 290’000 Zeilen) benötigte mein Java-Programm gerade einmal 3.8 Sekunden zum zählen aller Buchstaben und Worte des Textes.
Das Ergebnis ist ebenfalls im PDF zusammengefasst.

Diese Zusammenfassung ist kein Hinweis auf meine Präferenzen, sondern beeindruckt einfach durch die riesige Menge von (guten) Informationen, die sich im Internet aufspüren lassen. Durch die angeordndete Zurückgezogenheit im Jahr 2020, fand ich die Zeit um solche müssigen Untersuchungen auszuführen. Im Übrigen übte ich mich wieder einmal in der einfachen Java-Programmierung.