Code-Tipp: OCR-Funktionalität für Ihre C#-Anwendung

closeWie schnell die Zeit vergeht...
Dieser Beitrag wurde vor über 3 Jahren veröffentlicht und enthält evtl. Informationen, die nicht mehr oder nur noch teilweise gültig sind.

Eine kostenlose, funktionierende und gut implementierbare OCR-API für .NET zu finden ist nicht gerade eine einfache Aufgabe.
Mit Tessnet2 bin ich auf eine Open Source OCR assembly gestossen, die auf der kostenlosen Tesseract-Engine von Google basiert.

Nachfolgender Codeschnipsel stellt eine kleine Konsolen-Anwendung dar, die aus einer Tif-Datei den Text extrahiert.
Außer der Tessnet2-assembly wird noch die Sprachdatei für Tesseract benötigt, die hier heruntergeladen werden kann. Zu beachten ist hierbei, dass man die Dateien für Tesseract 2 herunterlädt, für mein Beispiel wäre das z. B. tesseract-2.00.deu.tar.gz.

Das im Paket enthaltene Verzeichnis tessdata sollte in das Verzeichnis kopiert werden, in dem sich die .NET-exe-Datei befindet.

Zuvor installierte Tesseract-.NET-Pakete sollten deinstalliert bzw. noch vorhande Registry-Werte manuell gelöscht werden, da dies sonst zu Fehlern beim Start der Anwendung führen kann (-> Link).

Damit der nachfolgende Code funktionieren kann, sollte natürlich ein Verweis auf die entsprechende tessnet2.dll hinzugefügt werden. In meinem Beispiel ist es die 32Bit-Version (tessnet2_32):

Projektverweise

Der Code:

Kommentar verfassen

Mehr in Allgemein, Snippets
Logfile
Sage CRM-Tuning – Teil 1

In dieser kleinen Artikelserie möchte ich CRM-Anwendern und Administratoren einige Tuning-Tipps aus der täglichen Praxis an die Hand geben, um...

Schließen