Прежде всего,
Здесь мы установим несколько библиотек.
pip install beautifulsoup4 pip install lxml pip install requests
мы напишем код Python для извлечения данных с веб-сайта, таких как имя работы, навыки работы, время публикации работы, и загрузим его в виде текстового файла в папку.
from bs4 import BeautifulSoup import requests import time def find_jobs() : html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=Machine+Learning&txtLocation=Hyderabad%2F+Secunderabad&cboWorkExp1=0').text #print(html_text) soup = BeautifulSoup(html_text,'lxml') jobs = soup.find_all('li', class_ = 'clearfix job-bx wht-shd-bx') print('Put some skill that you are not familiar with.') unfamiliar_skill = input('>') print(f'Filtering out {unfamiliar_skill}') for index,job in enumerate(jobs) : published_date = job.find('span', class_ = 'sim-posted').span.text if 'few' in published_date : company_name = job.find('h3', class_='joblist-comp-name').text.replace(' ','') skills = job.find('span', class_ = 'srp-skills').text.replace(' ','') more_info = job.header.h2.a['href'] if unfamiliar_skill not in skills : with open(f'posts/{index}.txt','w') as f : # print(f''' # Company Name : {company_name} # Required Skills : {skills} # Job Status : {published_date} # ''') print('-----------------------------------') f.write(f"Company Name : {company_name.strip()}") f.write(f"Required Skills : {skills.strip()}") f.write(f"Published Date : {published_date.strip()}") f.write(f"More Info : {more_info.strip()}") print('-----------------------------------') print(f'File Saved: {index}') if __name__ == '__main__' : while True: find_jobs() time_wait = 10 print(f'Waiting {time_wait} minute...') time.sleep(time_wait * 60)
Вот и все!
Спасибо!