Ende des Produkt-Lebenszyklus
ABBYY FineReader XIX ist eine spezielle Version der vielfach ausgezeichneten OCR Software FineReader für die Erkennung von Texten, die zwischen 1800 und 1938 in Frakturschrift gedruckt wurden. ABBYY FineReader XIX ist die erste Omnifont OCR Software am Markt für Frakturschrift.
Die Herausforderung: Digitalisierung alter Texte Bis heute hatten noch nicht ausgereifte Technologien und die Einzigartigkeit von Texten, die in unterschiedlichen alten Schriftarten verfasst waren, die automatische Erfassung dieser Texte durch Computer erschwert wenn nicht gar unmöglich erscheinen lassen. Anspruchsvolle Wörterbücher und Sprachmodelle, die für die Analyse und Verifizierung der Texte verwendet werden können, gab es bis jetzt noch nicht. Computersysteme, die diese Texte lesen konnten, mussten erst viele Stunden trainiert werden, um Schriftarten und Zeichen zu erkennen, die heute gar nicht mehr verwendet werden.
Die ABBYY Lösung: Erste Omnifont OCR für Frakturschrift
ABBYY FineReader XIX ist die erste Omnifont OCR für Fraktur und somit eine Lösung für Anwender, die alte Texte mit wenig Aufwand scannen und umwandeln möchten. Dies wurde durch Kombination einer besonders intelligenten Erkennungs-Technologie und ausführlichen linguistischen Studien erreicht:
OCR Systeme analysieren Texte und stellen Hypothesen darüber auf, welcher Buchstabe oder welches Wort durch ein Bild dargestellt werden. Diese Hypothesen werden daraufhin im Kontext analysiert und durch den Einsatz anspruchsvoller OCR Wörterbücher, die aus Sprachmodellen bestehen, verifiziert. Diese Sprachmodelle sind komplexe Datenbanken, die das Vokabular einer Sprache beschreiben. Moderne OCR Systeme verfügen jedoch über keine Sprachmodelle für ältere Schriftarten oder Schreibweisen. Nach der ABBYY-eigenen Entwicklung von Modellen für fünf europäische Sprachen speziell für diese Zeit können auch derartige Texte nun verarbeitet werden.
Dabei wurden 10 verschiedene Wörterbücher und mehr als 105 Bücher, die zwischen 1808 und 1930 veröffentlicht wurden, analysiert. Linguisten überprüften Wortstämme, identifizierten Wörter, die bei der Entwicklung der Sprache nicht weitergeführt wurden, und bestimmten die korrekten Paradigmen, um die Sprachmodelle mit der entsprechenden Grammatik jener Zeit abzugleichen.
Mehr als 500.000 Einträge wurden zusätzlich manuell mit bestehenden Wörterbüchern von FineReader verglichen. Grammatikalische Paradigmen und Wortentwicklungen wurden berücksichtigt, um 159 historische Grammatik-Paradigmen, die in den heutigen Sprachmodellen fehlen, hinzuzufügen. Diese Sprachmodelle wurden dann zusammengestellt und an Dokumenten in Frakturschrift getestet.
Um Frakturschrift zu erkennen, haben die Entwicklungsteams von ABBYY spezielle Klassifizierer oder Alphabete erstellt, die Frakturzeichen erkennen können. Das bedeutet, dass für jedes Zeichen durchschnittlich 2.500 Variationen hinterlegt, ein neues Muster-Alphabet angelegt und 31.000 Seiten aus verschiedenen Quellen gesammelt und getestet wurden. Mit einer Vielzahl von Beispieltexten bekam die Erkennungs-Engine die Feinabstimmung, um die Besonderheiten des Fraktur-Alphabets wie Ligaturen oder zusammenhängende Buchstaben zu erlernen. Das neue Alphabet wurde dann FineReader XIX mit einer entsprechenden Oberfläche hinzugefügt und nochmals ausgiebig getestet.
Weitere Informationen: