Texterkennung in der Cloud

Gute 50 Jahre ist es schon her, dass das System Optical Character Recognition erfunden wurde, mit dem man Texte aus Bildern oder Scans extrahieren. Der Bedarf dafür ist aber auch heute noch gegeben. Wer sich keine eigene OCR-Software leisten will, kann aber auch auf Webdienste zurückgreifen.

Unter der Adresse www.newocr.com besteht die Möglichkeit, ein Bild oder auch ein PDF hochzuladen und "erkennen" zu lassen. Bei diesem Vorgang wird Schrift, die in einem Bild ja als Pixel und nicht als Textinformation hinterlegt ist, in echten Text umgewandelt. Man kann ihn daraufhin also problemlos in Textverarbeitungsprogramme etc. kopieren und erspart sich somit das händische Tippen. Beim Hochladen der Bilder kann man auch noch verschiedene Parameter einstellen. So kann man beispielsweise angeben, dass der Text in mehreren Spalten angeordnet ist (zB bei Zeitungsartikel). Auch eine Drehung um 90, 180 oder 270 Grad ist nach dem Upload noch möglich. Gibt man auch noch an, in welcher Sprache der Text verfasst ist, kann man die Erkennung noch einmal deutlich verbessern. Wurde das Dokument analysiert, kann man es in verschiedenen Formaten abspeichern, in die Zwischenablage kopieren oder auf Wunsch gleich online publizieren.

Nicht perfekt

Die Ergebnisse sind aber auch immer mit etwas Vorsicht zu genießen. Die Erkennungsrate ist zwar recht gut - aber halt nicht perfekt. Es lohnt sich also auf jeden Fall, das Ergebnis im Nachhinein noch einmal zu kontrollieren. Offen ist bei solchen Angeboten natürlich auch immer die Frage des Datenschutzes. Es wird zwar auf der Startseite darauf hingewiesen, dass die Dokumente nach der Fertigstellung vom Server gelöscht werden (und höchstwahrscheinlich ist das auch der Fall). Eine Garantie dafür wird man aber wohl nur schwer bekommen. Sollte es sich also tatsächlich um Dokumente mit erhöhtem Sicherheitsbedarf handeln, ist eine eigene OCR-Lösung (mit entsprechender kommerzieller Software, die lokal installiert wird) sicherlich ratsamer.