Skaitant HTML kodą su requests biblioteka, tekstas nuskaitomas su visais tarpus nusakančiais simboliais: tarpai, tabai, naujų eilučių žymekliai. Tai nėra patogu, nes apsunkina reguliariaus reiškinio rašymą. Šiame pavyzdyje parodysime, kaip galime normalizuoti nuskaitytą HTML kodą ir ištrinti nereikalingus simbolius.
def from_url(url):
# fetch HTMK using GET request
page = requests.get(url)
# Split ciontent by new line symbols
content_raw = page.content.split("\n")
# Remove empty spaces from sides on each line
content = [x.strip() for x in content_raw]
# Join lines again
return ''.join(content).replace("\n", "").replace("\t", "")
Skaitymas iš kodo pasinaudojant pagalbine funkcija:
butai = from_url('https://www.projektas.lt/butai')
Palyginikime kaip supaprastėja regexpo rašymas. Prieš tai:
PVZ. TBD
Po to:
PVZ. TBD





