Mudanças entre as edições de "Python:Request"

De BrapciWiki
Ir para navegação Ir para pesquisar
(Criou página com '= Request = Install Requests pip install requests pip install beautifulsoup4 pip install selenium')
 
 
(3 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 4: Linha 4:
 
  pip install beautifulsoup4
 
  pip install beautifulsoup4
 
  pip install selenium
 
  pip install selenium
 +
 +
== Carrega uma pagina ==
 +
from urllib.request import urlopen
 +
html = urlopen("http://www.pagina_exemplo.com")
 +
 +
== BeaultifulSoap ==
 +
Métodos de coleta
 +
[[https://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names]]
 +
 +
=== Recupera todos os href da pagina ==
 +
############################## Carrega arquivo para memória
 +
html = open('dataset/result/site-01.html')
 +
bs = BeautifulSoup(html, 'html.parser')
 +
############################## Busca todos os A HREF
 +
curriculos = []
 +
for link in bs.find_all('a'):
 +
    js = link.get('href')
 +
    curriculos.append(js)
 +
 +
== Para ler ==
 +
https://acervolima.com/raspar-sites-habilitados-para-javascript-usando-scrapy-selenium/

Edição atual tal como às 20h58min de 3 de fevereiro de 2023

Request

Install Requests

pip install requests
pip install beautifulsoup4
pip install selenium

Carrega uma pagina

from urllib.request import urlopen 
html = urlopen("http://www.pagina_exemplo.com")

BeaultifulSoap

Métodos de coleta

[[1]]

= Recupera todos os href da pagina

############################## Carrega arquivo para memória
html = open('dataset/result/site-01.html')
bs = BeautifulSoup(html, 'html.parser')
############################## Busca todos os A HREF
curriculos = []
for link in bs.find_all('a'):
   js = link.get('href')
   curriculos.append(js)

Para ler

https://acervolima.com/raspar-sites-habilitados-para-javascript-usando-scrapy-selenium/