So verwenden Sie Tesseract OCR in Java

Autor: Robert Simon
Erstelldatum: 21 Juni 2021
Aktualisierungsdatum: 17 November 2024
Anonim
Optical Character Recognition | Text from Images | Tesseract | Step wise Step Java Tutorial
Video: Optical Character Recognition | Text from Images | Tesseract | Step wise Step Java Tutorial

Inhalt

Bibliotheken für die optische Zeichenerkennung von Tesseract bieten Entwicklern die Möglichkeit, Dokumente und Text in ein Bild zu scannen. Sie dienen zum Speichern von Dokumenten, die Sie nicht mehr auf Papier benötigen. Sie können sie in Java verwenden, indem Sie für jedes Zeichen Kontrollschleifen erstellen und diese jeweils in eine Datei schreiben. Um die Tesseract-Bibliotheken verwenden zu können, müssen Sie den Java-Namespace für die OCR-Funktionen angeben.


Anweisungen

Mit Tesseract-Bibliotheken können Benutzer ihre Dokumente scannen (John Foxx / Stockbyte / Getty Images)
  1. Klicken Sie mit der rechten Maustaste auf die Java-Datei, die Sie zum Erstellen des OCR-Dokuments verwenden möchten. Klicken Sie auf "Öffnen mit" und wählen Sie den gewünschten Java-Editor aus.

  2. Fügen Sie den OCR-Bibliotheks-Namespace oben in der Datei ein. Kopieren Sie den folgenden Code und fügen Sie ihn in Ihre Quelldatei ein:

    com.touch.robot.imagecomparison.tesseractocr

  3. Erstellen Sie den Code, der für das Scannen von Zeichen für eine Datei verantwortlich ist. Mit dem folgenden Code werden beispielsweise Schleifen durch jedes Zeichen in einer Datei erstellt und in eine Bilddatei geschrieben:

    (I = 1; {i} <{lines} +1; i = {i}) ist eine Menge von Werten, die definiert sind als: +1) {Typeline "{_TOCR_LINE {i}}"}


  4. Klicken Sie im Editor auf die Schaltfläche "Speichern" und klicken Sie auf "Ausführen", um den Code in einem Java-Compiler auszuführen.