Ir para conteúdo
Fórum Script Brasil
  • 0

BeautifulSoup: extrair informações de múltiplos sites


tailerteilor

Pergunta

Olá,
Estou com dificuldades para extrair informações de múltiplos websites via python.
VEJA O CÓDIGO:
==========================================================================

# encoding: utf-8
import urllib2  
from bs4 import BeautifulSoup 

# specify the url
quote_page = 'AQUI EU GOSTARIA DE INSERIR,  APROXIMADAMENTE UNS 100 LINKS

# query the website and return the html to the variable 'page'
page = urllib2.urlopen(quote_page)  

# parse the html using beautiful soap and store in variable `soup`
soup = BeautifulSoup(page, 'html.parser')  

p_tags = soup.findAll('p',text=True)
#print p_tags
print(p_tags) 

======================================================================

Meu objetivo é extrair um conteúdo em texto de inúmeros URL´s de um determinado website.
Esse código funciona separadamente, mas não sei como fazer no caso de múltiplas URL.
Desde já, obrigado.

Link para o comentário
Compartilhar em outros sites

1 resposta a esta questão

Posts Recomendados

  • 0

Acredito que você deveria fazer uma lista e percorrê-la:

# encoding: utf-8
import urllib2  
from bs4 import BeautifulSoup 

# specify the urls
quote_page = ['link1', 'link2', 'link3', ..., 'link100']

for qp in quote_page:
	# query the website and return the html to the variable 'page'
	page = urllib2.urlopen(qp)

	# parse the html using beautiful soap and store in variable `soup`
	soup = BeautifulSoup(page, 'html.parser')  

	p_tags = soup.findAll('p',text=True)
	#print p_tags
	print(p_tags)

Certo?

Abraços!

Link para o comentário
Compartilhar em outros sites

Participe da discussão

Você pode postar agora e se registrar depois. Se você já tem uma conta, acesse agora para postar com sua conta.

Visitante
Responder esta pergunta...

×   Você colou conteúdo com formatação.   Remover formatação

  Apenas 75 emoticons são permitidos.

×   Seu link foi incorporado automaticamente.   Exibir como um link em vez disso

×   Seu conteúdo anterior foi restaurado.   Limpar Editor

×   Você não pode colar imagens diretamente. Carregar ou inserir imagens do URL.



  • Estatísticas dos Fóruns

    • Tópicos
      152,1k
    • Posts
      651,8k
×
×
  • Criar Novo...