Home / Uncategorized / Robotukai: švarus HTML

Robotukai: švarus HTML

Skaitant HTML kodą su requests biblioteka, tekstas nuskaitomas su visais tarpus nusakančiais simboliais: tarpai, tabai, naujų eilučių žymekliai. Tai nėra patogu, nes apsunkina reguliariaus reiškinio rašymą. Šiame pavyzdyje parodysime, kaip galime normalizuoti nuskaitytą HTML kodą ir ištrinti nereikalingus simbolius.

def from_url(url):
  # fetch HTMK using GET request
  page = requests.get(url)

  # Split ciontent by new line symbols
  content_raw = page.content.split("\n")

  # Remove empty spaces from sides on each line
  content = [x.strip() for x in content_raw]

  # Join lines again
  return ''.join(content).replace("\n", "").replace("\t", "")

Skaitymas iš kodo pasinaudojant pagalbine funkcija:

butai = from_url('https://www.projektas.lt/butai')

Palyginikime kaip supaprastėja regexpo rašymas. Prieš tai:

PVZ. TBD

Po to:

PVZ. TBD

Leave a Reply

Your email address will not be published. Required fields are marked *