Home DE

Die Herausforderung: Digitalisierung alter Dokumente

  • Gebrochene Schriften entstanden erstmals im 12. Jahrhun­dert und entwickelten sich im Laufe der Jahrhunderte in vielen verschiedenen Variationen weiter.
  • Die Frakturschrift, vorherrschend in Deutschland, wurde durch Kaiser Maxi­milian eingeführt und hat sich schnell in vielen Teilen Euro­pas etabliert.

  • Die Besonderheiten dieser Schrift beinhalten das verlängerte „s“ und Ligaturen oder zusammenhängen­de Buchstaben bei bestimmten Kombinationen. Die Erscheinungshäufigkeit dieser Eigenart ist entscheidend für das Verständnis von Frakturschrift, wenn man Erkennungs­technologien für Texte, die aus der Zeit zwischen 1800 und 1938 entstanden, entwickeln möchte.
  • Mit zunehmender Digitalisierung wird auch der Informationsfluss digital. Dies führt auch zur Gründung „Digitaler Bibliotheken“. AUs diesem Grund wird es immer wichtiger auch historische Dokumente mit Frakturschrift digital online verfügbar zu machen.
  • Scannen ist nur der erste Schritt - Optische Zeichenerkennung (OCR) ist eine Schlüsseltechnologie um historische Inhalte digital für Menschen, Suchtechnologien und andere Analyseverfahren zu erschließen.

Die Lösung von ABBYY: Standard OCR gegen "Gothic/Fraktur" OCR

ABBYY entwickelt Fraktur OCR seit 2003, da:

  • Keine funktionierende „alte Schrift“ OCR
  • Keine historischen (Computer) Wörterbücher für die OCR
  • Keine Sprachmodelle zur Analyse und Verifizierung alter, gedruckter Dokumente
    verfügbar waren.

*Verarbeitet mit ABBYY Recognition Server: Fraktur de- & aktiviert

Ergebnis:

  • Die Bildbeispiele zeigen klar und deutlich, dass für Fraktur optimierte Erkennungstechnologien eingesetzt werden müssen, wenn es gilt gedrucktes, historisches Material mit alten Schriften zu verarbeiten.
  • Dies gilt natürlich auch für Dokumente in denen „alte“ und „neue“ gemischt Schriften verwendet werden.

Weitere Information

IMPACT Centre of Competence
… is a new, none profit organisation with the mission to make the digitisation of historical printed text “better, faster, cheaper”. It will provide tools, services and facilities to further advance the state-of-the-art in the field of document imaging, language technology and the processing of historic text.