1. (源碼分享)利用Python識別提取圖像文字(中文英文都可以)
你想了解怎麼利用程序自動識別網站驗證碼嗎?識別提取圖像文字(中文英文都可以)
分享一點簡單有用的小項目:python
源碼分享如下:
看視頻教程鏈接:(點擊識別圖像文字視頻教程鏈接)
一、首先需要安裝 Tesseract模塊及 語言包
Tesseract OCR光學字元識別
Windows系統:
安裝網站 (放在不需要許可權的純英文路徑下):
: https://digi.bib.uni-mannheim.de/tesseract/
可以下載一些語言包:
https://github.com/tesseract-ocr/
安裝完成後,如果想要在命令行中使用Tesseract,那麼應該設置環境變數。
還有一個環境變數需要設置的是,要把訓練的數據文件路徑也放到環境變數中。
在環境變數中,添加一個TESSDATA_PREFIX=C:path_to_tesseractdata eseractdata。
在Python代碼中操作tesseract。需要安裝一個庫,叫做pytesseract。通過pip的方式即可安裝:
pip install pytesseract
並且,需要讀取圖片,需要藉助一個第三方庫叫做PIL。通過pip list看下是否安裝。如果沒有安裝,通過pip的方式安裝:
pip install PIL
使用pytesseract將圖片上的文字轉換為文本文字的示例代碼如下:
2. 利用python識別出圖片中的文字
from kkb_ocr import ocr_word
url = 'https://xiaoke-asset-prod.kaikeba.com/python_ai/demos/demo1.jpg'
ocr_word(url)
3. python怎麼識別圖片文字
可以調用opencv來進行識別
4. Python使用easyocr模塊完成圖片文字識別
EasyOCR實際上是一個python包,它將pytorch作為後端處理程序。EasyOCR像任何其他OCR(谷歌的tesseract或任何仔腔其他OCR)一樣從圖像中檢測文本,但在我使用念者衫它的參考資料中,我發現它是從圖像中檢測文本的最直接的方法,而且高端深度學習庫(pytorch)在後端支持它,這使它的准確性更可靠。EasyOCR支持42多種語言用於檢測目的。
可以在 easyocr · PyPI 上查看easyocr模塊說明信息以及用法。
easyocr.Reader設置語言列表,可以同時通過多種語言,但並非所有語言都可以一起使用,英語與每種語言兼容。將模型載入到內存中需要一些時間,但它只需要運行一次。
比如下面的設置語言,可根據圖片中的文字類別來選擇。
reader_ch_tra = easyocr.Reader(['ch_tra', 'en']),指定繁體中文和英語
reader_ch_sim = easyocr.Reader(['ch_sim', 'en']),指定簡體中文和英語
reader_ch_en = easyocr.Reader(['en']),指定英語
1、標牌嫌冊文字識別
可以指定detail = 0來簡單的輸出。
可以在命令行中調用easyocr工具來實現命令行解析。
2 、車牌識別
3 、驗證碼識別
4、長篇文字
5. python3.5能用的圖片識別庫,可以識別圖片上的英文數字和漢字
先看看你的Visual Studio 14 運行庫(64位的系統X86/X64的最好都裝上)是不是沒有裝,如果沒有安裝的話先裝上;如果已經安裝了的話,修復一下看看。如果還不行的話那就意味著這些庫暫時還不支持Python 3.5.2,還得耐心等待或者使用其他能實現所需要功能的庫。你可以試試下載EXE文件自己安裝,或者下載源碼自己編譯。
我在我的電腦(XP/Python3.4.4)上用pip安裝試了一下,tesseract-ocr安裝不上,其他兩個沒有問題,估計暫時還不支持Python3.X吧。
tesseract-ocr的EXE安裝包下載地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/?source=navbar
我沒有嘗試使用EXE安裝包安裝樓主可以自己嘗試一下。
希望對樓主有幫助。
6. python有什麼好的本地文字識別
你好,如果是英文的話。你可以用下面的庫。
pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR開源項目的一個模塊,可將圖片中的文字轉換成文本(主要是英文)
如果要識別中文還需要下載對應的訓練集:https://github.com/tesseract-ocr/tessdata
,下載」chi_sim.traineddata」,然後到訓練數據集的存放路徑。下面是一個例子的代碼。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
7. Python實現文字識別,來看看大牛怎麼實現截圖
route('/callback_result', methods = ["POST","GET"])
def callback_result():
try:nm = nmap.PortScanner()
instantiate nmap.PortScanner object
except nmap.PortScannerError:
sys.exit(0)
except:
sys.exit(0)
8. 學一學!Python3一行代碼實現圖片文字識別的示例
自學Python3第5天,今天突發奇想,想用Python識別圖片里的文字。沒想到Python實現圖片文字識別這么簡單,只需要一行代碼就能搞定
?
1
2
3
4
5
from
PIL
import
Image
import
pytesseract
#上面都是導包,只需要下面這一行就能實現圖片文字識別
text
=
pytesseract.image_to_string(Image.
open
(denggao.jpeg),lang
=
chi_sim)
print
(text)
我們以識別詩詞扮輪爛為例
下面是我們要識別的圖片
先看下效果圖
我們運行代碼後識別的結果,有幾個字沒有正確識別,但是大多數字都能識別出來。
?
1
2
3
4
風急天高猿嘯哀 渚芸胄芳少白鳥飛鳳
無邊落木蕭蕭下, 不盡長量工盲袞宕袞來
萬里悲秋常1乍窨, 百年多病獨登氤
艱難苦恨擎霜量 漂倒新停澍酉帆
一行代碼就能識別圖片,我們背後要做些准備工作的
這里我們需要用到兩個庫:pytesseract和PIL
同時我們還需要安裝識別引擎tesseract-ocr
下面就來講講這幾個庫的安裝,因為只有這幾個庫安裝好以後Python才能實現桐扮一行代碼實現圖片文字識別
一,pytesseract和PIL的安裝
安裝這兩個包可以藉助pip
- 1,命令行安裝
?
1
2
pip install PIL
pip install pytesseract
- 2,如果你用的pycharm編輯器,就可以直接藉助pycharm實現快速安裝。
在pycharm的Settings設置頁按照下面步驟操作
這樣就能成功安裝pytesseract,安裝PIL只需要在上面第三步里搜索PIL並點擊安裝即廳漏可
這時我們安轉好了庫,運行下面代碼
?
1
2
3
4
from
PIL
import9. Python如何圖像識別
Python圖片文本識別使用的工具是PIL和pytesser。因為他們使用到很多的python庫文件,為了避免一個個工具的安裝,建議使用pythonxy
pytesser是OCR開源項目的一個模塊,在Python中導入這個模塊即可將圖片中的文字轉換成文本。pytesser調用了tesseract。當在Python中調用pytesser模塊時,pytesser又用tesseract識別圖片中的文字。pytesser的使用步驟如下:
首先,安裝Python2.7版本,這個版本比較穩定,建議使用這個版本。
其次,安裝pythoncv。
然後,安裝PIL工具,pytesser的使用需要PIL庫的支持。
接著下載pytesser
最後,將pytesser解壓,這個是免安裝的,可以將解壓後的文件cut到Python安裝目錄的Lib\site-packages下直接使用,比如我的安裝目錄是:C:\Python27\Lib\site-packages,同時把這個目錄添加到環境變數之中。
完成以上步驟之後,就可以編寫圖片文本識別的Python腳本了。參考腳本如下:
from pytesser import *
import ImageEnhance
image = Image.open('D:\\workspace\\python\\5.png')
#使用ImageEnhance可以增強圖片的識別率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)
tesseract是谷歌的一個對圖片進行識別的開源框架,免費使用,現在已經支持中文,而且識別率非常高,這里簡要來個helloworld級別的認識
下載之後進行安裝,不再演示。
在tesseract目錄下,有個tesseract.exe文件,主要調用這個執行文件,用cmd運行到這個目錄下,在這個目錄下同時放置一張需要識別的圖片,這里是123.jpg
然後運行:tesseract 123.jpg result
會把123.jpg自動識別並轉換為txt文件到result.txt
但是此時中文識別不好
然後找到tessdata目錄,把eng.traineddata替換為chi_sim.traineddata,並且把chi_sim.traineddata重命名為eng.traineddata
ok,現在中文識別基本達到90%以上了
10. Python:截取圖片後識別文字輸出至剪切板
偶爾截取了一張圖片,需要拷貝其中的文字(如下圖),用鍵盤打字嫌麻煩,又容易出錯。現希望對截圖進行文字識別,並將結果保存至剪切板,方便直接粘貼。
1、 安裝keyboard、Pillow、-aip和pyperclip四個第三方庫。
2、 打開 網路API網路圖片文字識別 ,點擊 「立即使用」 。登錄網路賬號,點擊 「創建應用」 。記錄APP_ID,API_KEY和SECRET_KEY這3個關鍵信息。詳細創建和調用過程可以參考 python怎麼使用網路文字識別功能 和 網路API介面說明 。