Robotukai: strukturizuoti duomenys

2022-07-09

Pagrindai

Rezultatai

Struktūros

Pratimas

Uždirbk €€€

Šiame žingsnyje turėsime praktinę užduotį (užduoties nr. 2), kur reikės papildomai sutvarkyti gautus duomenis prieš siunčiant į platformą.

Šį kartą norime gauti ne tik antraščių sąrašą, bet kartu ir datas kada jos paskelbtos. Tad norime gauti sąrašą struktūrizuotų elementų pagal tokią schemą:

[
  {'published': '2022-05-22', 'title': 'Pirma antraštė'},
  {'published': '2022-06-22', 'title': 'Antra antraštė'},
  ...
]

Pernaudosime kodo dalį iš pareito pratimo. Pirmiausia modifikuosime regexp, kad būtų nuskaityti ir URL. Tuo tikslu tą regexpį dalį turime apskliausti

r = re.compile('<h2 class="entry-title"><a href="(.*)>(.*)</a></h2>')

Toks regexp gražins sąrašą porų, kurių pirmas elementas bus URL ( http://blog.citynow.org/2022/06/22/nemunas-by-citus/ ), kitas – įrašo pavadinimas. Pastebime kad paskelbimo datą galime rasti URL, tiesiog reikia suskaidyti URL pagal “/” simbolį ir ištrinti pradžią.

results_dicts = []
for url, title in results:
  suffix = url.replace('http://blog.citynow.org/', '') 
  parts = suffix.split('/')  
  published = parts[0] + '-' + parts[1] + '-' + parts[2]
  results_dicts.append({
    'published': published,
    'title': title,
  })

print results_dicts

Toks kodas išspaudintų struktūrizuotus duomenis reikiamu formatu:

[
  {
    'published': '2022-07-09', 
    'title': 'Populiariausi prop-tech sprendimai',
  }, 
  {
    'published': '2022-07-01',
    'title': '2022 birželio rinkos apžvalga',
   }, 
   ...
]

Pakeičiame užduoties nr, ir patikriname galutinį rezultatą.

Kitas žingsnis

Sėkmingai sukūrėme robotuką, kuris nuskaito duomenis ir papildomai apdoroja juos sudėliojant į reikiamą struktūrą. Paskutiniame žingsnyje jūsų laukia pratimas, kurį savarankiškai įgyvendinę galėsite rinktis apmokamas užduotis. Pereitį į kitą žingsnį.