1. linux下python怎麼寫爬蟲獲取圖片
跟linux有什麼關系,python是跨平台的,爬取圖片的代碼如下:
import urllib.requestimport osimport randomdef url_open(url):
req=urllib.request.Request(url) #為請求設置user-agent,使得程序看起來更像一個人類
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP,使用戶能以不同IP訪問,從而防止被伺服器發現
'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']
proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]
urllib.request.install_opener(opener)'''
response=urllib.request.urlopen(req)
html=response.read() return htmldef get_page(url):
html=url_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a) #print(html[a:b])
return html[a:b]def find_imgs(url):
html=url_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=') while a!=-1:
b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':
img_addrs.append('http:'+html[a+9:b+4]) else:
img_addrs.append(html[a+9:b+4]) else:
b=a+9
a=html.find('img src=',b) for each in img_addrs:
print(each+'我的列印') return img_addrsdef save_imgs(folder,img_addrs):
for each in img_addrs: #print('one was saved')
filename=each.split('/')[-1] with open(filename,'wb') as f:
img=url_open(each)
f.write(img)def download_mm(folder='ooxx',pages=10):
os.mkdir(folder)
os.chdir(folder)
url=""
page_num=int(get_page(url)) for i in range(pages):
page_num=page_num-1
page_url=url+'page-'+str(page_num)+'#comments'
img_addrs=find_imgs(page_url)
save_imgs(folder,img_addrs)if __name__=='__main__':
download_mm()
完成
運行結果
2. python處理圖片數據
生成一張純色的圖片
先設置圖片的顏色,接著利用Image模塊的new方法新生成一張圖片,png格式的圖片需要設置成rgba,類似的還有rgb,L(灰度圖等),尺寸設定為640,480,這個可以根據自己的情況設定,顏色同樣如此。
3. python抓取網頁上圖片
正則表達式匹配的url有錯誤
for x in add:
print x # 這里可以看到報錯的時候是 url 錯誤
dirpath = os.path.join('C:\\Users\\lilinan\\Desktop\\新建文件夾','%s.jpg' % t)
urllib.request.urlretrieve(x,dirpath)
t+=1
4. 如何使用python讀取排版圖片
可以用Pillow庫實現
給個參考:
python利用PIL拼接圖片(九宮格)
5. 用python語言抓取圖片
你先把r去掉。因為這個會容易產生誤會。
reg='src="(.*?.jpg)"action-data'
這樣應該可以吧。
6. 如何用python3.x爬取百度圖片
網路的反爬蟲機制觸發了,它檢測到你是爬蟲所以拒絕了你的請求。
這個東西比較復雜,建議網上搜一搜反爬蟲機制,然後一個一個試解決辦法。
最簡單的就是通過代理伺服器來爬。
最後建議你可以試一試requests庫,我在爬取微博圖床的時候只用requests庫就完美解決了反爬蟲,再沒報過錯。
7. 如何用Python爬取數據
方法/步驟
在做爬取數據之前,你需要下載安裝兩個東西,一個是urllib,另外一個是python-docx。
7
這個爬下來的是源代碼,如果還需要篩選的話需要自己去添加各種正則表達式。
8. python3中如何載入圖片
答: 如下所示。
import cv2
image = cv2.imread('./example.png')
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import numpy as np
image = mpimg.imread('./example.png')
print image.shape
plt.imshow(image) #調用imshow函數
在這里只是說了兩種方法,希望能夠幫助到你。
9. python爬圖片報錯 [Errno 13] Permission denied: 'D:\\python\\test2'
python爬圖片報錯 [Errno 13] Permission denied: 'D:\python\test2',是代碼輸入錯誤造成的,解決方法如下:
1、首先在網頁上抓取圖片時open函數有時會報錯,如圖。
10. 如何利用python爬取圖片
可以參考《瘋狂Python講義》這本書,裡面有詳細地講解怎樣利用python爬取圖片。我就是照著這本書做了一個例子來爬取指定網站上的所有的圖片,其實挺簡單的。