关于iPhone:使用Tesseract OCR的中文字符识别

chinese character recognition using Tesseract OCR

我一直在使用Tesseract 3.0.2 OCR SDK提取图像文本。但是,如果我使用中文文本图像并通过OCR,则Tesseract不会提供中文字符,而是提供数字和英文字符。但是我需要使用我所使用的图像中显示的汉字。

我该如何实现?有什么方法可以获取汉字而不是其他任何汉字?


您需要下载中文培训的数据(该文件将为chi_sim.traineddata之类的文件),并将其添加到您的tessdata文件夹中。

下载文件
https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

并像这样使用

1
Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题,可以从以下网站下载我的tessaract实验(具有中文支持)
https://github.com/aryansbtloe/ExperimentWithTesseract.git

我已经测试了这个...希望您会发现它有用。