完整程式碼如下:
import time
from urllib import request
# 文章的URL
url_list = ['108668971', '108620289', '108605091', '108601340', '108569697']
url = 'https://blog.csdn.net/qq_43618698/article/details/'
data = '' # 將GET方法中待傳送的資料設定為空
# 請求頭
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/85.0.4183.102 Safari/537.36'}
count = 0 # 初始化計數器
url_i = 0 # 初始化文章序號
while 1: # 開始後不停止
# 組裝GET方法的請求
req = request.Request(url='%s%s%s' % (url + url_list[url_i], '?', data), headers=headers)
rec = request.urlopen(req)
# rec = urllib.request.urlopen(request) # 傳送GET請求,獲取部落格文章頁面資源
page = rec.read() # 讀取頁面內容到記憶體中的變數,這句程式碼可以不要
count += 1 # 計數器加1
url_i += 1
print(str.format("{0:<4}", count), end=" ") # 列印當前迴圈次數
if count % 20 == 0: # 輸出二十個換行
print()
if url_i == len(url_list): # 如果存取到最後一篇文章,則重新初始化文章下標
url_i = 0
if count % 5: # 每5次存取為1個迴圈
time.sleep(1) # 為每次頁面存取設定等待時間是必須的,
else:
time.sleep(55) # 當所有文章存取一遍後,停頓一分鐘,然後繼續從頭回圈