Gemäß der DFG-Praxisregeln „Digitalisierung“ sind Volltexte von Drucken und Handschriften nach dem Modell der Text Encoding Initiative (TEI) zu kodieren.
Das XML TEI P5 –Schema, das etwa beim Deutschen Textarchiv (DTA) verwendet wird, verfügt – allein vom Datenmodell her – bereits über die nötigen Strukturinformationen, um ein barrierefreies Endformat zu generieren. In praxi jedoch stellt das Textarchiv ein DTA-Basis-Format bereit, bei dem leider nicht alle semantischen Möglichkeiten hierfür genutzt werden. So wird beispielsweise auf die zweifellos aufwendige Auszeichnung von Überschriften und Absätzen verzichtet, doch sind diese für die logische Navigation mit Screenreadern im Text unerlässlich.
Das Potential dieses Angebotes besteht jedoch schon jetzt in den verschiedenen Ausgabeformaten und der Chance der weiteren strukturellen Aufbereitung. Dies im Sinne umfassender Barrierefreiheit zu nutzen, sollte mittelfristig das Ziel sein.
Empfehlung
Maria Federbuchs, Christina Polzin: Volltext via OCR. Möglichkeiten und Grenzen, Online-Ausgabe (PDF), Staatsbibliothek zu Berlin – SPK.