Веб-парсинг веб-сайта с использованием Python и BeautifulSoup4.

Прежде всего,

Здесь мы установим несколько библиотек.

pip install beautifulsoup4
pip install lxml
pip install requests

мы напишем код Python для извлечения данных с веб-сайта, таких как имя работы, навыки работы, время публикации работы, и загрузим его в виде текстового файла в папку.

from bs4 import BeautifulSoup

import requests
import time
def find_jobs() :
  html_text = requests.get('https://www.timesjobs.com/candidate/job-search.html?searchType=personalizedSearch&from=submit&txtKeywords=Machine+Learning&txtLocation=Hyderabad%2F+Secunderabad&cboWorkExp1=0').text

  #print(html_text)

  soup = BeautifulSoup(html_text,'lxml')

  jobs = soup.find_all('li', class_ = 'clearfix job-bx wht-shd-bx')

  print('Put some skill that you are not familiar with.')

  unfamiliar_skill = input('>')

  print(f'Filtering out {unfamiliar_skill}')


  for index,job in enumerate(jobs) :



    published_date = job.find('span', class_ = 'sim-posted').span.text

    if 'few' in published_date :

      company_name = job.find('h3', class_='joblist-comp-name').text.replace('  ','')

      skills = job.find('span', class_ = 'srp-skills').text.replace('  ','')

      more_info = job.header.h2.a['href']

      if unfamiliar_skill not in skills :

        with open(f'posts/{index}.txt','w') as f :
          # print(f'''
          #   Company Name : {company_name}
          #   Required Skills : {skills}
          #   Job Status : {published_date}
          # ''')
          print('-----------------------------------')
          f.write(f"Company Name : {company_name.strip()}")
          f.write(f"Required Skills : {skills.strip()}")
          f.write(f"Published Date : {published_date.strip()}")
          f.write(f"More Info : {more_info.strip()}")
          print('-----------------------------------')

        print(f'File Saved: {index}')


if __name__ == '__main__' :
  while True:
    find_jobs()
    time_wait = 10
    print(f'Waiting {time_wait} minute...')
    time.sleep(time_wait * 60)

Вот и все!

Спасибо!

Веб-парсинг веб-сайта с использованием Python и BeautifulSoup4.

Вопросы по теме