Pesquisar na Comunidade

Mostrando resultados para as tags ''beautifulsoup''.

Encontrado 3 registros

Ordenar Por
- Data
- Relevância

Raspagem de dados

uma questão postou Yagami Shizui Python

Bom dia. Estou com dificuldade na raspagem de dados utilizando a biblioteca BeautifulSoup, onde a ausencia de dados dentro das <td> não é coletada. Eu gostaria de saber se existe algum parametro que devo especificar durante a busca find_all() ou se devo fazer um len() no conteudo pego pelo meu for lendo o tamanho do conteudo coletado na tabela e depois guardando em alguma lista #!/usr/bin/python3 import pandas as pd from bs4 import BeautifulSoup import requests import pandas as pd gid = [] cidade = [] lista = pd.read_csv('/home/fabio/Downloads/Nova_lista.csv') for i in lista['gid']: gid.append(i) for p in lista['nome']: cidade.append(p) link = ('http://iridl.ldeo.columbia.edu/SOURCES/SOURCES/.USGS/.LandDAAC/.MODIS/.1km/.8day/.version_005/.Terra/.NSA/.Day/.LST/T/(Jan%202001)/(Mar%202015)/RANGE/X/-82/-34/RANGEEDGES/Y/-38.0/12.0/RANGEEDGES/T/monthlyAverage/home/.jdcorral/.Brazil/.mun_2016_03_21/.the_geom/gid/GID/VALUE/%5BX/Y%5Dweighted-average/T+exch+table-+text+text+skipanyNaN+-table+.html') with open('df_temp_day.csv' , 'a') as f: for i in lista['gid']: page = requests.get(link.replace('GID','%s'%i)) soup = BeautifulSoup(page.text,'lxml') tabela = soup.find_all('table',text=False) for td in tabela: linha = td.find_all('td') k = 0 p = 1 while k <= len(linha) and p <= len(linha): mes = str(linha[k].get_text()) variavel = str(linha[p].get_text()) k +=2 p +=2 n = gid.index(i) f.writelines('"%s", %s, "%s" ,"gid %s"\n' %(mes,variavel,cidade[n],i)) print('"%s", %s, %s %s' %(mes,variavel,cidade[n],i)) Obs : Neste codigo eu já estou testando o parametro text=False, mas não sei realmente o que faz
- Agosto 23, 2017
- - web
  - scrapping
  - (e %d mais)
    Tags:
    
    web
    
    scrapping
    
    raspagem
    
    dados
    
    python3
    
    beautifulsoup
    
    internet
    
    python
Raspagem de dados

uma questão postou Yagami Shizui Python

Bom dia. Estou com dificuldade na raspagem de dados utilizando a biblioteca BeautifulSoup, onde a ausencia de dados dentro das <td> não é coletada. Eu gostaria de saber se existe algum parametro que devo especificar durante a busca find_all() ou se devo fazer um len() no conteudo pego pelo meu for lendo o tamanho do conteudo coletado na tabela e depois guardando em alguma lista #!/usr/bin/python3 import pandas as pd from bs4 import BeautifulSoup import requests import pandas as pd gid = [] cidade = [] lista = pd.read_csv('/home/fabio/Downloads/Nova_lista.csv') for i in lista['gid']: gid.append(i) for p in lista['nome']: cidade.append(p) link = ('http://iridl.ldeo.columbia.edu/SOURCES/SOURCES/.USGS/.LandDAAC/.MODIS/.1km/.8day/.version_005/.Terra/.NSA/.Day/.LST/T/(Jan%202001)/(Mar%202015)/RANGE/X/-82/-34/RANGEEDGES/Y/-38.0/12.0/RANGEEDGES/T/monthlyAverage/home/.jdcorral/.Brazil/.mun_2016_03_21/.the_geom/gid/GID/VALUE/%5BX/Y%5Dweighted-average/T+exch+table-+text+text+skipanyNaN+-table+.html') with open('df_temp_day.csv' , 'a') as f: for i in lista['gid']: page = requests.get(link.replace('GID','%s'%i)) soup = BeautifulSoup(page.text,'lxml') tabela = soup.find_all('table',text=False) for td in tabela: linha = td.find_all('td') k = 0 p = 1 while k <= len(linha) and p <= len(linha): mes = str(linha[k].get_text()) variavel = str(linha[p].get_text()) k +=2 p +=2 n = gid.index(i) f.writelines('"%s", %s, "%s" ,"gid %s"\n' %(mes,variavel,cidade[n],i)) print('"%s", %s, %s %s' %(mes,variavel,cidade[n],i)) Obs : Neste codigo eu já estou testando o parametro text=False, mas não sei realmente o que faz
- Agosto 23, 2017
- - web
  - scrapping
  - (e %d mais)
    Tags:
    
    web
    
    scrapping
    
    raspagem
    
    dados
    
    python3
    
    beautifulsoup
    
    internet
    
    python
BeautifulSoup: extrair informações de múltiplos sites

uma questão postou tailerteilor Python

Olá, Estou com dificuldades para extrair informações de múltiplos websites via python. VEJA O CÓDIGO: ========================================================================== # encoding: utf-8 import urllib2 from bs4 import BeautifulSoup # specify the url quote_page = 'AQUI EU GOSTARIA DE INSERIR, APROXIMADAMENTE UNS 100 LINKS' # query the website and return the html to the variable 'page' page = urllib2.urlopen(quote_page) # parse the html using beautiful soap and store in variable `soup` soup = BeautifulSoup(page, 'html.parser') p_tags = soup.findAll('p',text=True) #print p_tags print(p_tags) ====================================================================== Meu objetivo é extrair um conteúdo em texto de inúmeros URL´s de um determinado website. Esse código funciona separadamente, mas não sei como fazer no caso de múltiplas URL. Desde já, obrigado.
- Dezembro 9, 2016
- 1 resposta
- - webcrawling
  - beautifulsoup
  - (e %d mais)
    Tags:
    
    webcrawling
    
    beautifulsoup
    
    python

Entrar

Pesquisar na Comunidade

Pesquisar por Tags

Pesquisar por Autor

Tipo de Conteúdo

Fóruns

Encontrar resultados em...

Encontrar resultados que...

Data de Criação

Início

FIM

Data de Atualização

Início

FIM

Filtrar pelo número de...

Com o mínimo de comentários

Com o mínimo de respostas

Com o mínimo de visualizações

Data de Registro

Início

FIM

Grupo

AIM

MSN

Website URL

ICQ

Yahoo

Jabber

Skype

Location

Interests

Raspagem de dados

Raspagem de dados

BeautifulSoup: extrair informações de múltiplos sites

Navegação

Atividades