1. python在圖片上添加指定字體的文字
本文主要介紹如何通過Python在圖片上的指定位置添加文字,主要利用兩個庫OpenCV和PIL。
1.安裝OpenCV
pip install opencv-python
2.利用putText方法來實現在圖片的指定位置添加文字
putText(img, text, org, fontFace, fontScale, color, thickness=None, lineType=None, bottomLeftOrigin=None)
在使用putText方法在圖片上添加文字的時, 無法直接添加中文 和 無法導入字體文件 ,接下來我們利用另一庫PIL來解決這個問題。
1.安裝PIL庫
pip install Pillow
2.添加文字信息
通過載入ttc格式的字體文件,就可以設置顯示文字的字體。
2. 如何使用python+beautifulsoup獲取img中alt的中文信息
你好:
請看下面代碼:
frombs4importBeautifulSoup
html="你的地址"
soup=BeautifulSoup(html)
trs=soup.findAll("img")
length=len(trs)
foriinrange(length):
printtrs[i].attrs["alt"]
記得採納哦!
3. 如何使用python來獲取pdf文件里的文字,最好是不能亂碼
提取pdf文字可以推薦一個工具
第一種文字型PDF比較簡單,可以採用格式轉換的方式直接轉換PDF文件為文本。打開PDF文字識別軟體,執行「文件」-「打開圖像...」導入PDF文件,然後執行「輸出」-「PDF文件轉換為TXT文件」第二種圖像型PDF,有的PDF都是掃描圖片,這個就不能復制文字了,可以採用OCR識別的方式,將PDF文件轉換為可編輯文檔。這也是本文主要講的pdf文字識別方法。還是打開PDF文字提取軟體,執行「文件」-「打開圖像...」導入PDF文件。然後執行「識別」-「開始識別...」。
4. python怎麼識別圖片文字
可以調用opencv來進行識別
5. python如何在中文字元串中定位,並截取其後面的內容詳見例子,拜託
定位某個字元串,可以使用字元串函數find(sub[,start[,end]]),返回匹配sub字元串的第一個對象的起始索引位置,或使用re模塊下的re.search(pattern, string)方法,查找第一個匹配的位置,並返回一個匹配對象(match object,裡麵包含匹配的起始和終止位置信息等)。至於截取的操作,我其實不是很明白,所以給出的回答,僅供參考:
importre
content="我有一個小毛驢可我從來也不騎有一天我騎著它上街區趕集
我想吃有一頭大象可我從來也不騎有一天我騎著它上街區趕集
我買了一頭小野豬可我從來也不騎有一天我騎著它上街區趕集"
deflocation_and_capture(search_str,full_content):
location=re.search(search_str,full_content)#返回一個matchobject
span=location.span()#返回匹配對象起始位置索引和結束位置索引組成的元組,即(start,end)
start,end=span
capture_content=content[start+2:end]
print("位置:",'(',start,end,')',"截取的內容:",capture_content)
donkey=location_and_capture('一個小毛驢',content)
elepphant=location_and_capture('一頭大象',content)
boar=location_and_capture('一頭小野豬',content)
'''
輸出結果:
位置:(27)截取的內容:小毛驢
位置:(4246)截取的內容:大象
位置:(8085)截取的內容:小野豬
[Finishedin0.1s]
'''
6. tesseract 訓練字型檔 python 怎麼調用
1、系統環境
OS X 10.7
MacBook Pro(13英寸,2012年初期)
Python 2.7
2、需要軟體包
a、需要安裝PIL以及pytesseract庫
Python-tesseract是一個基於google's Tesseract-OCR的獨立封裝包;
Python-tesseract功能是識別圖片文件中文字,並作為返回參數返回識別結果;
Python-tesseract默認支持tiff、bmp格式圖片,只有在安裝PIL之後,才能支持jpeg、gif、png等其他圖片格式;
Python-tesseract支持python2.5及更高版本;
PIL[Python Imaging Library]來支持更多的圖片格式;
b、需要安裝google tesseract-ocr
執行命令行 tesseract.exe 1.png output -l eng ,可以識別1.png中文字,並把識別結果輸出到output.txt中;
Pytesseract對上述過程進行了二次封裝,自動調用tesseract.exe,並讀取output.txt文件的內容,作為函數的返回值進行返回。
7. python3.6有沒有自適應識別圖片的位置坐標
需要用python來識別圖片中的字,是否為文字(不用具體識別出來是到底是哪個文字),而不是其它線或者圓,三角形等其它圖形
(用pytesser 做,只能識別出一些比較規整的文字)
8. python怎麼抓取網頁中DIV的文字
1、編寫爬蟲思路:
確定下載目標,找到網頁,找到網頁中需要的內容。對數據進行處理。保存數據。
2、知識點說明:
1)確定網路中需要的信息,打開網頁後使用F12打開開發者模式。
在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件後可以看到response,文字信息都包含在response中。
對於需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前後包含哪些特定欄位。
對於超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節名。
2)注意編碼格式
輸入字元集一定要設置成utf-8。頁面大多為GBK字元集。不設置會亂碼。
9. Python如何圖像識別
Python圖片文本識別使用的工具是PIL和pytesser。因為他們使用到很多的python庫文件,為了避免一個個工具的安裝,建議使用pythonxy
pytesser是OCR開源項目的一個模塊,在Python中導入這個模塊即可將圖片中的文字轉換成文本。pytesser調用了tesseract。當在Python中調用pytesser模塊時,pytesser又用tesseract識別圖片中的文字。pytesser的使用步驟如下:
首先,安裝Python2.7版本,這個版本比較穩定,建議使用這個版本。
其次,安裝pythoncv。
然後,安裝PIL工具,pytesser的使用需要PIL庫的支持。
接著下載pytesser
最後,將pytesser解壓,這個是免安裝的,可以將解壓後的文件cut到Python安裝目錄的Lib\site-packages下直接使用,比如我的安裝目錄是:C:\Python27\Lib\site-packages,同時把這個目錄添加到環境變數之中。
完成以上步驟之後,就可以編寫圖片文本識別的Python腳本了。參考腳本如下:
from pytesser import *
import ImageEnhance
image = Image.open('D:\\workspace\\python\\5.png')
#使用ImageEnhance可以增強圖片的識別率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)
tesseract是谷歌的一個對圖片進行識別的開源框架,免費使用,現在已經支持中文,而且識別率非常高,這里簡要來個helloworld級別的認識
下載之後進行安裝,不再演示。
在tesseract目錄下,有個tesseract.exe文件,主要調用這個執行文件,用cmd運行到這個目錄下,在這個目錄下同時放置一張需要識別的圖片,這里是123.jpg
然後運行:tesseract 123.jpg result
會把123.jpg自動識別並轉換為txt文件到result.txt
但是此時中文識別不好
然後找到tessdata目錄,把eng.traineddata替換為chi_sim.traineddata,並且把chi_sim.traineddata重命名為eng.traineddata
ok,現在中文識別基本達到90%以上了
10. python中關於圖片添加文字
1、在美圖秀秀中打開圖片,然後選擇文字,在靜態文字裡面粘貼大段文字,點擊應用文字後就會自動排版到畫面中;2、但是美圖秀秀的文字排版不支持自動換行功能,所以需要手動在文本框那裡按回車換行。