OpenCV-Python中的简单数字识别OCR

我试图在OpenCV-Python (cv2)中实现“数字识别OCR”。这只是为了学习。我想学习OpenCV中KNearest和SVM的特性。

每个数字都有100个样本(即图像)。我想和他们一起训练。

OpenCV样本中有一个letter_recog.py样本。但我仍然不知道如何使用它。我不明白是什么样本,反应等等。而且,它首先会加载一个txt文件,这是我一开始不理解的。

后来稍微找了一下,我找到了一个字母识别。CPP样本中的数据。我用它做了一个cv2的代码。在letter_recognize .py的模型中KNearest(仅用于测试):

import numpy as np
import cv2


fn = 'letter-recognition.data'
a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
samples, responses = a[:,1:], a[:,0]


model = cv2.KNearest()
retval = model.train(samples,responses)
retval, results, neigh_resp, dists = model.find_nearest(samples, k = 10)
print results.ravel()

它给了我一个大小为20000的数组,我不知道它是什么。

问题:

1)什么是字母识别。数据文件吗?如何从我自己的数据集构建该文件?

2) results.reval()表示什么?

3)如何使用letter_recognition编写一个简单的数字识别工具。数据文件(KNearest或SVM)?

258525 次浏览

好吧,我决定在我的问题上锻炼自己来解决上面的问题。我想要的是在OpenCV中使用KNearest或SVM特征实现一个简单的OCR。下面是我做了什么以及怎么做的。(它只是为了学习如何使用KNearest来实现简单的OCR目的)。

我的第一个问题是关于OpenCV样本附带的letter_recognition.data文件。我想知道那份文件里有什么。

它包含了一封信,以及这封信的16个特征。

this SOF帮助我找到它。这16个特征在论文< >强Letter Recognition Using Holland-Style Adaptive Classifiers < / >强中解释。 (虽然我不明白最后的一些功能)

因为我知道,没有理解所有这些特征,这是很难做到的方法。我试了一些其他的试卷,但对初学者来说都有点难。

所以我决定把所有像素值作为我的特征。(我不担心精度或性能,我只是想让它工作,至少以最低的精度)

我将下图作为我的训练数据:

enter image description here

(我知道训练数据量比较少。但是,因为所有的字母都是相同的字体和大小,我决定试试这个)。

为了准备训练所需的数据,我在OpenCV中编写了一小段代码。它做以下事情:

  1. 它加载图像。
  2. 选择数字(显然是通过轮廓查找并对字母的面积和高度施加限制来避免错误检测)。
  3. 在一个字母周围绘制边界矩形,并等待key press manually。这一次我们我们自己按数字键对应于盒子里的字母。
  4. 一旦按下相应的数字键,它将这个框的大小调整为10x10,并将所有100个像素值保存在一个数组中(这里是样本),并将相应的手动输入的数字保存在另一个数组中(这里是响应)。
  5. 然后将两个数组保存在单独的.txt文件中。

在数字手动分类的最后,训练数据(train.png)中的所有数字都是我们自己手动标记的,图像如下所示:

enter image description here

下面是我用于上述目的的代码(当然,不那么干净):

import sys


import numpy as np
import cv2


im = cv2.imread('pitrain.png')
im3 = im.copy()


gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)


#################      Now finding Contours         ###################


contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)


samples =  np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]


for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)
        

if  h>28:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
cv2.imshow('norm',im)
key = cv2.waitKey(0)


if key == 27:  # (escape to quit)
sys.exit()
elif key in keys:
responses.append(int(chr(key)))
sample = roismall.reshape((1,100))
samples = np.append(samples,sample,0)


responses = np.array(responses,np.float32)
responses = responses.reshape((responses.size,1))
print "training complete"


np.savetxt('generalsamples.data',samples)
np.savetxt('generalresponses.data',responses)

现在我们进入训练和测试部分。

对于测试部分,我使用了下面的图像,它具有与训练阶段相同的字母类型。

enter image description here

对于培训,我们的做法如下:

  1. 加载前面已经保存的.txt文件
  2. 创建一个我们正在使用的分类器的实例(在本例中是KNearest)
  3. 然后我们使用KNearest。训练函数用于训练数据

出于测试目的,我们采取如下措施:

  1. 我们加载用于测试的图像
  2. 对图像进行处理,使用轮廓法提取每个数字
  3. 为其绘制一个边界框,然后将其大小调整为10x10,并将其像素值存储在前面所做的数组中。
  4. 然后使用kneare .find_nearest()函数查找与给定值最近的项。(如果幸运的话,它能识别正确的数字。)

我在下面的代码中包含了最后两个步骤(训练和测试):

import cv2
import numpy as np


#######   training part    ###############
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))


model = cv2.KNearest()
model.train(samples,responses)


############################# testing part  #########################


im = cv2.imread('pi.png')
out = np.zeros(im.shape,np.uint8)
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)


contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)


for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)
if  h>28:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
roismall = roismall.reshape((1,100))
roismall = np.float32(roismall)
retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
string = str(int((results[0][0])))
cv2.putText(out,string,(x,y+h),0,1,(0,255,0))


cv2.imshow('im',im)
cv2.imshow('out',out)
cv2.waitKey(0)

它是有效的,下面是我得到的结果:

enter image description here


在这里,它的准确率是100%。我认为这是因为所有的数字都是相同的类型和大小。

但无论如何,这对初学者来说是一个很好的开始(我希望如此)。

对于那些对c++代码感兴趣的人可以参考下面的代码。 谢谢阿比德拉赫曼的精彩解释

该过程与上述相同,但轮廓查找只使用第一级层次的轮廓,因此算法只使用每个数字的外部轮廓。

用于创建示例和标签数据的代码

//Process image to extract contour
Mat thr,gray,con;
Mat src=imread("digit.png",1);
cvtColor(src,gray,CV_BGR2GRAY);
threshold(gray,thr,200,255,THRESH_BINARY_INV); //Threshold to find contour
thr.copyTo(con);


// Create sample and label data
vector< vector <Point> > contours; // Vector for storing contour
vector< Vec4i > hierarchy;
Mat sample;
Mat response_array;
findContours( con, contours, hierarchy,CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE ); //Find contour


for( int i = 0; i< contours.size(); i=hierarchy[i][0] ) // iterate through first hierarchy level contours
{
Rect r= boundingRect(contours[i]); //Find bounding rect for each contour
rectangle(src,Point(r.x,r.y), Point(r.x+r.width,r.y+r.height), Scalar(0,0,255),2,8,0);
Mat ROI = thr(r); //Crop the image
Mat tmp1, tmp2;
resize(ROI,tmp1, Size(10,10), 0,0,INTER_LINEAR ); //resize to 10X10
tmp1.convertTo(tmp2,CV_32FC1); //convert to float
sample.push_back(tmp2.reshape(1,1)); // Store  sample data
imshow("src",src);
int c=waitKey(0); // Read corresponding label for contour from keyoard
c-=0x30;     // Convert ascii to intiger value
response_array.push_back(c); // Store label to a mat
rectangle(src,Point(r.x,r.y), Point(r.x+r.width,r.y+r.height), Scalar(0,255,0),2,8,0);
}


// Store the data to file
Mat response,tmp;
tmp=response_array.reshape(1,1); //make continuous
tmp.convertTo(response,CV_32FC1); // Convert  to float


FileStorage Data("TrainingData.yml",FileStorage::WRITE); // Store the sample data in a file
Data << "data" << sample;
Data.release();


FileStorage Label("LabelData.yml",FileStorage::WRITE); // Store the label data in a file
Label << "label" << response;
Label.release();
cout<<"Training and Label data created successfully....!! "<<endl;


imshow("src",src);
waitKey();

培训和测试代码

Mat thr,gray,con;
Mat src=imread("dig.png",1);
cvtColor(src,gray,CV_BGR2GRAY);
threshold(gray,thr,200,255,THRESH_BINARY_INV); // Threshold to create input
thr.copyTo(con);




// Read stored sample and label for training
Mat sample;
Mat response,tmp;
FileStorage Data("TrainingData.yml",FileStorage::READ); // Read traing data to a Mat
Data["data"] >> sample;
Data.release();


FileStorage Label("LabelData.yml",FileStorage::READ); // Read label data to a Mat
Label["label"] >> response;
Label.release();




KNearest knn;
knn.train(sample,response); // Train with sample and responses
cout<<"Training compleated.....!!"<<endl;


vector< vector <Point> > contours; // Vector for storing contour
vector< Vec4i > hierarchy;


//Create input sample by contour finding and cropping
findContours( con, contours, hierarchy,CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE );
Mat dst(src.rows,src.cols,CV_8UC3,Scalar::all(0));


for( int i = 0; i< contours.size(); i=hierarchy[i][0] ) // iterate through each contour for first hierarchy level .
{
Rect r= boundingRect(contours[i]);
Mat ROI = thr(r);
Mat tmp1, tmp2;
resize(ROI,tmp1, Size(10,10), 0,0,INTER_LINEAR );
tmp1.convertTo(tmp2,CV_32FC1);
float p=knn.find_nearest(tmp2.reshape(1,1), 1);
char name[4];
sprintf(name,"%d",(int)p);
putText( dst,name,Point(r.x,r.y+r.height) ,0,1, Scalar(0, 255, 0), 2, 8 );
}


imshow("src",src);
imshow("dst",dst);
imwrite("dest.jpg",dst);
waitKey();

结果

在结果中,第一行的点被检测为8,我们没有对点进行训练。同时,我将第一层次的每个轮廓作为样本输入,用户可以通过计算面积来避免它。

Results

我在生成训练数据时遇到了一些问题,因为有时很难识别最后选中的字母,所以我将图像旋转了1.5度。现在每个字符都是按顺序选择的,训练后测试仍然显示100%的准确率。代码如下:

import numpy as np
import cv2


def rotate_image(image, angle):
image_center = tuple(np.array(image.shape[1::-1]) / 2)
rot_mat = cv2.getRotationMatrix2D(image_center, angle, 1.0)
result = cv2.warpAffine(image, rot_mat, image.shape[1::-1], flags=cv2.INTER_LINEAR)
return result


img = cv2.imread('training_image.png')
cv2.imshow('orig image', img)
whiteBorder = [255,255,255]
# extend the image border
image1 = cv2.copyMakeBorder(img, 80, 80, 80, 80, cv2.BORDER_CONSTANT, None, whiteBorder)
# rotate the image 1.5 degrees clockwise for ease of data entry
image_rot = rotate_image(image1, -1.5)
#crop_img = image_rot[y:y+h, x:x+w]
cropped = image_rot[70:350, 70:710]
cv2.imwrite('rotated.png', cropped)
cv2.imshow('rotated image', cropped)
cv2.waitKey(0)

对于示例数据,我对脚本做了一些更改,如下所示:

import sys
import numpy as np
import cv2


def sort_contours(contours, x_axis_sort='LEFT_TO_RIGHT', y_axis_sort='TOP_TO_BOTTOM'):
# initialize the reverse flag
x_reverse = False
y_reverse = False
if x_axis_sort == 'RIGHT_TO_LEFT':
x_reverse = True
if y_axis_sort == 'BOTTOM_TO_TOP':
y_reverse = True
    

boundingBoxes = [cv2.boundingRect(c) for c in contours]
    

# sorting on x-axis
sortedByX = zip(*sorted(zip(contours, boundingBoxes),
key=lambda b:b[1][0], reverse=x_reverse))
    

# sorting on y-axis
(contours, boundingBoxes) = zip(*sorted(zip(*sortedByX),
key=lambda b:b[1][1], reverse=y_reverse))
# return the list of sorted contours and bounding boxes
return (contours, boundingBoxes)


im = cv2.imread('rotated.png')
im3 = im.copy()


gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)


contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)
contours, boundingBoxes = sort_contours(contours, x_axis_sort='LEFT_TO_RIGHT', y_axis_sort='TOP_TO_BOTTOM')


samples =  np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]


for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)


if  h>28 and h < 40:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
cv2.imshow('norm',im)
key = cv2.waitKey(0)


if key == 27:  # (escape to quit)
sys.exit()
elif key in keys:
responses.append(int(chr(key)))
sample = roismall.reshape((1,100))
samples = np.append(samples,sample,0)


responses = np.array(responses,np.ubyte)
responses = responses.reshape((responses.size,1))
print("training complete")


np.savetxt('generalsamples.data',samples,fmt='%i')
np.savetxt('generalresponses.data',responses,fmt='%i')