I've run a test of Textract on a document and found several problems. The language of the document is Dutch. I've boiled down the issues to one short excerpt of the document. In the Texttract demo, I submitted a jpg with a 300 dpi image of the following text:
Naast studenten en meer aselecte groepen zijn gevolgen ook onderzocht
bij specifieke populaties zoals druggebruikers en psychiatrische patiënten.
Onder 200 straatprostituees, die buiten officiële instanties om zijn bena-
derd, is onderzoek gedaan door Silbert & Pines (1981).
In the "Layout" tab of the demo window, the result is:
Naast studenten en meer aselecte groepen zijn gevolgen ook onderzocht bij specifieke populaties zoals druggebruikers en psychiatrische patienten. Onder 200 straatprostituées, die buiten officièle instanties om zijn bena- derd, is onderzoek gedaan door Silbert & Pines (1981).
The test results have the following problems:
- The "ë" in "patiënten" is converted to "e", without the umlaut (two dots above).
- The "ë" in "officiële" is converted to "è", with the wrong accent.
- The hyphenated word "benaderd" is not returned correctly, but is broken up by the hyphen and a space.
- Not evident in the sample above, but another problem observed in the test is that there is no detection of italics.
Are these problems to be expected in Textract, or is there a way to overcome them? If this is the best Textract can do, is there a better OCR engine I should use instead?