Mudanças entre as edições de "Python:Request"
Ir para navegação
Ir para pesquisar
| Linha 22: | Linha 22: | ||
js = link.get('href') | js = link.get('href') | ||
curriculos.append(js) | curriculos.append(js) | ||
| + | |||
| + | == Para ler == | ||
| + | https://acervolima.com/raspar-sites-habilitados-para-javascript-usando-scrapy-selenium/ | ||
Edição atual tal como às 20h58min de 3 de fevereiro de 2023
Índice
Request
Install Requests
pip install requests pip install beautifulsoup4 pip install selenium
Carrega uma pagina
from urllib.request import urlopen
html = urlopen("http://www.pagina_exemplo.com")
BeaultifulSoap
Métodos de coleta
[[1]]
= Recupera todos os href da pagina
############################## Carrega arquivo para memória
html = open('dataset/result/site-01.html')
bs = BeautifulSoup(html, 'html.parser')
############################## Busca todos os A HREF
curriculos = []
for link in bs.find_all('a'):
js = link.get('href')
curriculos.append(js)
Para ler
https://acervolima.com/raspar-sites-habilitados-para-javascript-usando-scrapy-selenium/