OpenCV-Python中的简单数字识别OCR

Simple Digit Recognition OCR in OpenCV-Python

我正试图在OpenCvpython(CV2)中实现"数字识别OCR"。它只是为了学习的目的。我想在OpenCV中学习Knearest和SVM功能。

我每个数字有100个样本(即图像)。我想和他们一起训练。

opencv样本附带了一个样本letter_recog.py。但我仍然不知道如何使用它。我不明白什么是示例、响应等。而且,它首先加载了一个txt文件,而我没有首先理解它。

稍后搜索一点,我可以在cpp样本中找到一个字母"recognition.data"。我用它为cv2.knarest编写了一个字母"recog.py"模型的代码(仅用于测试):

1
2
3
4
5
6
7
8
9
10
11
import numpy as np
import cv2

fn = 'letter-recognition.data'
a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
samples, responses = a[:,1:], a[:,0]

model = cv2.KNearest()
retval = model.train(samples,responses)
retval, results, neigh_resp, dists = model.find_nearest(samples, k = 10)
print results.ravel()

它给了我一个2万的数组,我不明白它是什么。

问题:

1)什么是letter_recognition.data文件?如何从我自己的数据集构建该文件?

2)results.reval()表示什么?

3)如何使用Letter_recognition.data文件(Knearest或SVM)编写简单的数字识别工具?


好吧,我决定在我的问题上锻炼自己来解决上面的问题。我想要的是使用OpenCV中的Knearest或SVM功能实现一个简单的OCR。下面是我所做的以及如何做到的。(这只是为了学习如何将Knearest用于简单的OCR目的)。

1)我的第一个问题是关于OpenCV样本附带的letter_recognition.data文件。我想知道那个文件里有什么。

它包含一个字母,以及该字母的16个特征。

埃多克斯1〔0〕帮我找到了它。这16个特点在文件中有解释。(虽然我不理解最后的一些特性)

2)因为我知道,在不了解所有这些特性的情况下,很难做到这一点。我还试了一些其他的试卷,但对初学者来说都有点难。

So I just decided to take all the pixel values as my features.(我不担心准确性或性能,我只是想让它工作,至少是以最低的准确性)

我为我的培训数据拍摄了以下图片:

enter image description here

(我知道培训数据的数量较少。但是,由于所有的字母都是相同的字体和大小,我决定试试这个)。

为了准备培训数据,我在OpenCV中编写了一个小代码。它执行以下操作:

  • 它加载图像。
  • 选择数字(显然是通过轮廓查找和对字母的面积和高度应用约束来避免错误检测)。
  • 围绕一个字母绘制边界矩形,然后等待key press manually。这一次我们自己按数字键来对应框中的字母。
  • 按下相应的数字键后,它会将此框的大小调整为10x10,并在一个数组(此处为示例)中保存100个像素值,并在另一个数组(此处为响应)中保存相应的手动输入数字。
  • 然后将两个数组保存在单独的txt文件中。
  • 在人工数字分类结束时,列车数据(train.png)中的所有数字都是自己手工标注的,图像如下:

    enter image description here

    下面是我用于上述目的的代码(当然,不是很干净):

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    import sys

    import numpy as np
    import cv2

    im = cv2.imread('pitrain.png')
    im3 = im.copy()

    gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
    blur = cv2.GaussianBlur(gray,(5,5),0)
    thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)

    #################      Now finding Contours         ###################

    contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

    samples =  np.empty((0,100))
    responses = []
    keys = [i for i in range(48,58)]

    for cnt in contours:
        if cv2.contourArea(cnt)>50:
            [x,y,w,h] = cv2.boundingRect(cnt)

            if  h>28:
                cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
                roi = thresh[y:y+h,x:x+w]
                roismall = cv2.resize(roi,(10,10))
                cv2.imshow('norm',im)
                key = cv2.waitKey(0)

                if key == 27:  # (escape to quit)
                    sys.exit()
                elif key in keys:
                    responses.append(int(chr(key)))
                    sample = roismall.reshape((1,100))
                    samples = np.append(samples,sample,0)

    responses = np.array(responses,np.float32)
    responses = responses.reshape((responses.size,1))
    print"training complete"

    np.savetxt('generalsamples.data',samples)
    np.savetxt('generalresponses.data',responses)

    现在我们进入培训和测试部分。

    对于测试部分,我使用下面的图片,它和我训练时使用的字母类型相同。

    enter image description here

    培训内容如下:

  • 加载我们之前保存的txt文件
  • 创建一个我们正在使用的分类器实例(这里是Knearest)
  • 然后我们使用knarest.train函数来训练数据
  • 出于测试目的,我们执行以下操作:

  • 我们加载用于测试的图像
  • 像之前一样处理图像,并使用轮廓法提取每个数字
  • 为其绘制边界框,然后将其大小调整为10x10,并如前面所述将其像素值存储在数组中。
  • 然后,我们使用knarest.find_nearest()函数查找与我们给出的项最近的项。(如果幸运的话,它会识别出正确的数字。)
  • 我将最后两个步骤(培训和测试)包含在以下单一代码中:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    import cv2
    import numpy as np

    #######   training part    ###############
    samples = np.loadtxt('generalsamples.data',np.float32)
    responses = np.loadtxt('generalresponses.data',np.float32)
    responses = responses.reshape((responses.size,1))

    model = cv2.KNearest()
    model.train(samples,responses)

    ############################# testing part  #########################

    im = cv2.imread('pi.png')
    out = np.zeros(im.shape,np.uint8)
    gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
    thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)

    contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

    for cnt in contours:
        if cv2.contourArea(cnt)>50:
            [x,y,w,h] = cv2.boundingRect(cnt)
            if  h>28:
                cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
                roi = thresh[y:y+h,x:x+w]
                roismall = cv2.resize(roi,(10,10))
                roismall = roismall.reshape((1,100))
                roismall = np.float32(roismall)
                retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
                string = str(int((results[0][0])))
                cv2.putText(out,string,(x,y+h),0,1,(0,255,0))

    cv2.imshow('im',im)
    cv2.imshow('out',out)
    cv2.waitKey(0)

    它起作用了,下面是我得到的结果:

    enter image description here

    在这里,它可以100%准确地工作。我想这是因为所有的数字都是相同的类型和大小。

    但无论如何,对于初学者来说,这是一个很好的开始(我希望如此)。


    对于那些对C++代码感兴趣的人可以参考下面的代码。感谢阿比德·拉赫曼的解释。

    程序与上面相同,但是轮廓查找只使用第一层次的轮廓,因此算法只对每个数字使用外部轮廓。

    用于创建示例和标签数据的代码

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    //Process image to extract contour
    Mat thr,gray,con;
    Mat src=imread("digit.png",1);
    cvtColor(src,gray,CV_BGR2GRAY);
    threshold(gray,thr,200,255,THRESH_BINARY_INV); //Threshold to find contour
    thr.copyTo(con);

    // Create sample and label data
    vector< vector <Point> > contours; // Vector for storing contour
    vector< Vec4i > hierarchy;
    Mat sample;
    Mat response_array;  
    findContours( con, contours, hierarchy,CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE ); //Find contour

    for( int i = 0; i< contours.size(); i=hierarchy[i][0] ) // iterate through first hierarchy level contours
    {
        Rect r= boundingRect(contours[i]); //Find bounding rect for each contour
        rectangle(src,Point(r.x,r.y), Point(r.x+r.width,r.y+r.height), Scalar(0,0,255),2,8,0);
        Mat ROI = thr(r); //Crop the image
        Mat tmp1, tmp2;
        resize(ROI,tmp1, Size(10,10), 0,0,INTER_LINEAR ); //resize to 10X10
        tmp1.convertTo(tmp2,CV_32FC1); //convert to float
        sample.push_back(tmp2.reshape(1,1)); // Store  sample data
        imshow("src",src);
        int c=waitKey(0); // Read corresponding label for contour from keyoard
        c-=0x30;     // Convert ascii to intiger value
        response_array.push_back(c); // Store label to a mat
        rectangle(src,Point(r.x,r.y), Point(r.x+r.width,r.y+r.height), Scalar(0,255,0),2,8,0);    
    }

    // Store the data to file
    Mat response,tmp;
    tmp=response_array.reshape(1,1); //make continuous
    tmp.convertTo(response,CV_32FC1); // Convert  to float

    FileStorage Data("TrainingData.yml",FileStorage::WRITE); // Store the sample data in a file
    Data <<"data" << sample;
    Data.release();

    FileStorage Label("LabelData.yml",FileStorage::WRITE); // Store the label data in a file
    Label <<"label" << response;
    Label.release();
    cout<<"Training and Label data created successfully....!!"<<endl;

    imshow("src",src);
    waitKey();

    培训与测试规范

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    Mat thr,gray,con;
    Mat src=imread("dig.png",1);
    cvtColor(src,gray,CV_BGR2GRAY);
    threshold(gray,thr,200,255,THRESH_BINARY_INV); // Threshold to create input
    thr.copyTo(con);


    // Read stored sample and label for training
    Mat sample;
    Mat response,tmp;
    FileStorage Data("TrainingData.yml",FileStorage::READ); // Read traing data to a Mat
    Data["data"] >> sample;
    Data.release();

    FileStorage Label("LabelData.yml",FileStorage::READ); // Read label data to a Mat
    Label["label"] >> response;
    Label.release();


    KNearest knn;
    knn.train(sample,response); // Train with sample and responses
    cout<<"Training compleated.....!!"<<endl;

    vector< vector <Point> > contours; // Vector for storing contour
    vector< Vec4i > hierarchy;

    //Create input sample by contour finding and cropping
    findContours( con, contours, hierarchy,CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE );
    Mat dst(src.rows,src.cols,CV_8UC3,Scalar::all(0));

    for( int i = 0; i< contours.size(); i=hierarchy[i][0] ) // iterate through each contour for first hierarchy level .
    {
        Rect r= boundingRect(contours[i]);
        Mat ROI = thr(r);
        Mat tmp1, tmp2;
        resize(ROI,tmp1, Size(10,10), 0,0,INTER_LINEAR );
        tmp1.convertTo(tmp2,CV_32FC1);
        float p=knn.find_nearest(tmp2.reshape(1,1), 1);
        char name[4];
        sprintf(name,"%d",(int)p);
        putText( dst,name,Point(r.x,r.y+r.height) ,0,1, Scalar(0, 255, 0), 2, 8 );
    }

    imshow("src",src);
    imshow("dst",dst);
    imwrite("dest.jpg",dst);
    waitKey();

    结果

    结果,第一行中的点被检测为8,我们还没有对点进行培训。同时,我将第一层次的每一个轮廓作为样本输入,用户可以通过计算面积来避免。

    Results


    如果你对机器学习的最新技术感兴趣,你应该深入学习。您应该有一个支持GPU的CUDA,或者在AmazonWeb服务上使用GPU。

    谷歌Udacity有一个很好的使用张量流的教程。本教程将教您如何在手写数字上训练自己的分类器。我在使用卷积网络的测试集上得到了超过97%的精度。