Canterbury Corpus

Der Canterbury Corpus ist eine Sammlung von Dateien um die Leistung und den Kompressionsgrad verschiedener Kompressionsverfahren der verlustfreien Datenkompression zu messen. Er wurde 1997 von der Universität von Canterbury entwickelt und soll den 1980 entwickelten Calgary Corpus ablösen.

Inhaltsverzeichnis

Zweck

Der Canterbury Corpus wurde als Grundlage zur Anwendung von Metriken auf neu entwickelte Datenkompressionsverfahren entwickelt und dient in erster Linie zur Erstellung von Testfällen zum Testen der Algorithmen während des Entwicklungszyklus. Obwohl er prinzipiell auch zum Vergleich verschiedener Kompressionsverfahren eingesetzt werden kann, distanzieren sich die Autoren hiervon ausdrücklich und verweisen auf ähnliche Sammlungen und Hilfsmittel[1]. Darüber hinaus ist der Canterbury Corpus ausschließlich für den Test verlustfreier Kompressionsverfahren vorgesehen.

Pakete

Der Canterbury Corpus besteht aus verschiedenen Paketen, die je nach Testzweck und Algorithmus teilweise stark spezialisierte Daten enthalten. So bietet das Paket The Canterbury Corpus elf Dateien in Text- und Binärformaten, u.a. einen Auszug aus einem Werk William Shakespeares und dient in erster Linie dem Vergleich des zu testenden Algorithmus mit bereits bestehenden anderen Kompressionsmethoden. Die Pakete Artificial, Large und Miscellaneous bieten Dateien mit synthetisch generierten Inhalten, besonders großen Dateien (z.B. dem vollständigen Inhalt des CIA World Fact Book) oder rein numerischen Inhalten. Diese Pakete dienen zum Testen eines Kompressionsverfahrens in besonderen Situationen.

Webseite der Canterbury University zu Canterbury Corpus

Einzelnachweise

  1. http://corpus.canterbury.ac.nz/purpose.html

© Dieser - Artikel zu Canterbury_Corpus stammt von Wikipedia und ist lizensiert unter GFDL. Hier können Sie den Original-Artikel zu Canterbury_Corpus , die Versionsgeschichte und die Liste der Autoren einsehen. © Dieser Artikel zu stammt von Wikipedia und ist lizensiert
unter GFDL. Hier können Sie den Original-Artikel zu , die Versionsgeschichte
und die Liste der Autoren einsehen.