Robotukai: švarus HTML

2022-07-19

Skaitant HTML kodą su requests biblioteka, tekstas nuskaitomas su visais tarpus nusakančiais simboliais: tarpai, tabai, naujų eilučių žymekliai. Tai nėra patogu, nes apsunkina reguliariaus reiškinio rašymą. Šiame pavyzdyje parodysime, kaip galime normalizuoti nuskaitytą HTML kodą ir ištrinti nereikalingus simbolius.

def from_url(url):
  # fetch HTMK using GET request
  page = requests.get(url)

  # Split ciontent by new line symbols
  content_raw = page.content.split("\n")

  # Remove empty spaces from sides on each line
  content = [x.strip() for x in content_raw]

  # Join lines again
  return ''.join(content).replace("\n", "").replace("\t", "")

Skaitymas iš kodo pasinaudojant pagalbine funkcija:

butai = from_url('https://www.projektas.lt/butai')

Palyginikime kaip supaprastėja regexpo rašymas. Prieš tai:

PVZ. TBD

Po to:

PVZ. TBD

Robotukai: švarus HTML

Sutelktinio finansavimo būdu bendruomenė susikūrė sau kurortinę darbo erdvę

K125 pristatymas

Leave a Reply Cancel reply

Robotukai: švarus HTML

Sutelktinio finansavimo būdu bendruomenė susikūrė sau kurortinę darbo erdvę

K125 pristatymas

Related Posts

NT investcija Druskininkuose

Baigti statyti projekto „Vilnelės skverai“ Kaukysos etapo namai

Vis daugiau jaunų Vilniaus šeimų renkasi Bajorus: pardavimai čia ...

Leave a Reply Cancel reply