Я создал веб-скрейпер, который извлекает все изображения на веб-сайте. Мой код должен выводить каждый URL-адрес img в стандартный вывод и записывать CSV-файл со всем этим, но сейчас он записывает только последнее найденное изображение в файл и номер этого результата в CSV.
Вот код, который я сейчас использую:
# This program prints a list of all images contained in a web page
#imports library for url/html recognition
from urllib.request import urlopen
from HW_6_CSV import writeListToCSVFile
#imports library for regular expressions
import re
#imports for later csv writing
import csv
#gets user input
address = input("Input a url for a page to get your list of image urls ex. https://www.python.org/: ")
#opens Web Page for processing
webPage = urlopen(address)
#defines encoding
encoding = "utf-8"
#defines resultList variable
resultList=[]
#sets i for later printing
i=0
#defines logic flow
for line in webPage :
line = str(line, encoding)
#defines imgTag
imgTag = '<img '
#goes to next piece of logical flow
if imgTag in line :
i = i+1
srcAttribute = 'src="'
if srcAttribute in line:
#parses the html retrieved from user input
m = re.search('src="(.+?)"', line)
if m:
reline = m.group(1)
#prints results
print("[ ",[i], reline , " ]")
data = [[i, reline]]
output_file = open('examp_output.csv', 'w')
datawriter = csv.writer(output_file)
datawriter.writerows(data)
output_file.close()
webPage.close()
Как заставить эту программу записывать все найденные изображения в файл CSV?
data
, объявленный в 7-й строке снизу, содержит только одну строку. - person mechanical_meat   schedule 15.04.2015