對于數字識別這個任務而言,它并不是一個新的研究方向,很久之前就有很多的學者們在關注這個問題,并提出了一些可行的解決方案,本小節我們將對這些方案進行簡單的總結。
在現實生活中,我們經常會看到各種各樣的LCD屏幕,小到我們的MP3,大到廣場中的電視等,隨著各種應用的不斷出現,LCD屏幕頻繁的出現在我們現實生活中的多個場景中,而快速、準確的識別出LCD上面的數字就成為了一個新的剛需,這樣可以極大的節約人力和物力成本,下面將對LCD屏幕數字識別的原理進行說明,知其然不許知其所以然。
# coding=utf-8
# 導入一些python包
from imutils.perspective import four_point_transform
from imutils import contours
import imutils
import cv2
# 定義每一個數字對應的字段
DIGITS_LOOKUP = {
(1, 1, 1, 0, 1, 1, 1): 0,
(0, 0, 1, 0, 0, 1, 0): 1,
(1, 0, 1, 1, 1, 1, 0): 2,
(1, 0, 1, 1, 0, 1, 1): 3,
(0, 1, 1, 1, 0, 1, 0): 4,
(1, 1, 0, 1, 0, 1, 1): 5,
(1, 1, 0, 1, 1, 1, 1): 6,
(1, 0, 1, 0, 0, 1, 0): 7,
(1, 1, 1, 1, 1, 1, 1): 8,
(1, 1, 1, 1, 0, 1, 1): 9
}
# 讀取輸入圖片
image = cv2.imread("example.jpg")
# 將輸入圖片裁剪到固定大小
image = imutils.resize(image, height=500)
# 將輸入轉換為灰度圖片
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 進行高斯模糊操作
blurred = cv2.GaussianBlur(gray, (5, 5), 0)
# 執行邊緣檢測
edged = cv2.Canny(blurred, 50, 200, 255)
cv2.imwrite('edge.png', edged)
# 在邊緣檢測map中發現輪廓
cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
# 根據大小對這些輪廓進行排序
cnts = sorted(cnts, key=cv2.contourArea, reverse=True)
displayCnt = None
# 循環遍歷所有的輪廓
for c in cnts:
# 對輪廓進行近似
peri = cv2.arcLength(c, True)
approx = cv2.approxPolyDP(c, 0.02 * peri, True)
# 如果當前的輪廓有4個頂點,我們返回這個結果,即LCD所在的位置
if len(approx) == 4:
displayCnt = approx
break
# 應用視角變換到LCD屏幕上
warped = four_point_transform(gray, displayCnt.reshape(4, 2))
cv2.imwrite('warped.png', warped)
output = four_point_transform(image, displayCnt.reshape(4, 2))
# 使用閾值進行二值化
thresh = cv2.threshold(warped, 0, 255, cv2.THRESH_BINARY_INV | cv2.THRESH_OTSU)[1]
cv2.imwrite('thresh1.png', thresh)
kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (1, 5))
# 使用形態學操作進行處理
thresh = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel)
cv2.imwrite('thresh2.png', thresh)
# 在閾值圖像中查找輪廓,然后初始化數字輪廓列表
cnts = cv2.findContours(thresh.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
digitCnts = []
# 循環遍歷所有的候選區域
for c in cnts:
# 計算輪廓的邊界框
(x, y, w, h) = cv2.boundingRect(c)
# 如果當前的這個輪廓區域足夠大,它一定是一個數字區域
if w >= 15 and (h >= 30 and h = 40):
digitCnts.append(c)
# 從左到右對這些輪廓進行排序
digitCnts = contours.sort_contours(digitCnts, method="left-to-right")[0]
digits = []
# 循環處理每一個數字
i = 0
for c in digitCnts:
# 獲取ROI區域
(x, y, w, h) = cv2.boundingRect(c)
roi = thresh[y:y + h, x:x + w]
# 分別計算每一段的寬度和高度
(roiH, roiW) = roi.shape
(dW, dH) = (int(roiW * 0.25), int(roiH * 0.15))
dHC = int(roiH * 0.05)
# 定義一個7段數碼管的集合
segments = [
((0, 0), (w, dH)), # 上
((0, 0), (dW, h // 2)), # 左上
((w - dW, 0), (w, h // 2)), # 右上
((0, (h // 2) - dHC) , (w, (h // 2) + dHC)), # 中間
((0, h // 2), (dW, h)), # 左下
((w - dW, h // 2), (w, h)), # 右下
((0, h - dH), (w, h)) # 下
]
on = [0] * len(segments)
# 循環遍歷數碼管中的每一段
for (i, ((xA, yA), (xB, yB))) in enumerate(segments): # 檢測分割后的ROI區域,并統計分割圖中的閾值像素點
segROI = roi[yA:yB, xA:xB]
total = cv2.countNonZero(segROI)
area = (xB - xA) * (yB - yA)
# 如果非零區域的個數大于整個區域的一半,則認為該段是亮的
if total / float(area) > 0.5:
on[i]= 1
# 進行數字查詢并顯示結果
digit = DIGITS_LOOKUP[tuple(on)]
digits.append(digit)
cv2.rectangle(output, (x, y), (x + w, y + h), (0, 255, 0), 1)
cv2.putText(output, str(digit), (x - 10, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.65, (0, 255, 0), 2)
# 顯示最終的輸出結果
print(u"{}{}.{} \u00b0C".format(*digits))
cv2.imshow("Input", image)
cv2.imshow("Output", output)
cv2.waitKey(0)
上圖展示了該算法的運行結果和一些中間結果。第1行第1列表示的是原始的輸入圖片,它和代碼中的image對應,我們需要識別的是LCD面板上面的34.5;第1行第2列表示的是Canny邊緣檢測算法的檢測結果,它對應于代碼中的edged,通過該圖我們可以發現Canny邊緣檢測的結果中含有我們感興趣的目標,即中間的LCD;第1行第3列表示的是對輸入的灰度圖片應用視角變換后的結果,即獲得了LCD屏幕所在的位置,它和代碼中的warped相互對應;第2行第1列表示的是對獲取到的LCD屏幕進行二值化后的結果,它和代碼中的thresh 相互對應,由于LCD上面的數字和背景之間具有較大的差異,因而通過簡單的二值化我們就可以獲得我們感興趣的目標-數字;第2行第2列表示的是對二值化結果進行形態學操作之后的結果,它和代碼中的thresh 相互對應,我們可以發現執行了形態學操作之后的結果更多平滑,同時過濾掉很多的噪聲,有利于后續的識別。
上圖展示了算法進行數字識別的實現細節。即通過遍歷每一個數字中的7個段,并統計該段中非零像素的個數,當其統計值大于整個區域的一半時,認為該段是亮的,當統計完所有的這7個段之后,在預定義的數字詞典中進行查找,并輸出最終的結果即可。
到此這篇關于Python+Opencv實現數字識別的示例代碼的文章就介紹到這了,更多相關Opencv 數字識別內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!