Ir para conteúdo
Fórum Script Brasil

Pesquisar na Comunidade

Mostrando resultados para as tags ''beautifulsoup''.

  • Pesquisar por Tags

    Digite tags separadas por vírgulas
  • Pesquisar por Autor

Tipo de Conteúdo


Fóruns

  • Programação & Desenvolvimento
    • ASP
    • PHP
    • .NET
    • Java
    • C, C++
    • Delphi, Kylix
    • Lógica de Programação
    • Mobile
    • Visual Basic
    • Outras Linguagens de Programação
  • WEB
    • HTML, XHTML, CSS
    • Ajax, JavaScript, XML, DOM
    • Editores
  • Arte & Design
    • Corel Draw
    • Fireworks
    • Flash & ActionScript
    • Photoshop
    • Outros Programas de Arte e Design
  • Sistemas Operacionais
    • Microsoft Windows
    • GNU/Linux
    • Outros Sistemas Operacionais
  • Softwares, Hardwares e Redes
    • Microsoft Office
    • Softwares Livres
    • Outros Softwares
    • Hardware
    • Redes
  • Banco de Dados
    • Access
    • MySQL
    • PostgreSQL
    • SQL Server
    • Demais Bancos
  • Segurança e Malwares
    • Segurança
    • Remoção De Malwares
  • Empregos
    • Vagas Efetivas
    • Vagas para Estágios
    • Oportunidades para Freelances
  • Negócios & Oportunidades
    • Classificados & Serviços
    • Eventos
  • Geral
    • Avaliações de Trabalhos
    • Links
    • Outros Assuntos
    • Entretenimento
  • Script Brasil
    • Novidades e Anúncios Script Brasil
    • Mercado Livre / Mercado Sócios
    • Sugestões e Críticas
    • Apresentações

Encontrar resultados em...

Encontrar resultados que...


Data de Criação

  • Início

    FIM


Data de Atualização

  • Início

    FIM


Filtrar pelo número de...

Data de Registro

  • Início

    FIM


Grupo


AIM


MSN


Website URL


ICQ


Yahoo


Jabber


Skype


Location


Interests

Encontrado 3 registros

  1. Bom dia. Estou com dificuldade na raspagem de dados utilizando a biblioteca BeautifulSoup, onde a ausencia de dados dentro das <td> não é coletada. Eu gostaria de saber se existe algum parametro que devo especificar durante a busca find_all() ou se devo fazer um len() no conteudo pego pelo meu for lendo o tamanho do conteudo coletado na tabela e depois guardando em alguma lista #!/usr/bin/python3 import pandas as pd from bs4 import BeautifulSoup import requests import pandas as pd gid = [] cidade = [] lista = pd.read_csv('/home/fabio/Downloads/Nova_lista.csv') for i in lista['gid']: gid.append(i) for p in lista['nome']: cidade.append(p) link = ('http://iridl.ldeo.columbia.edu/SOURCES/SOURCES/.USGS/.LandDAAC/.MODIS/.1km/.8day/.version_005/.Terra/.NSA/.Day/.LST/T/(Jan%202001)/(Mar%202015)/RANGE/X/-82/-34/RANGEEDGES/Y/-38.0/12.0/RANGEEDGES/T/monthlyAverage/home/.jdcorral/.Brazil/.mun_2016_03_21/.the_geom/gid/GID/VALUE/%5BX/Y%5Dweighted-average/T+exch+table-+text+text+skipanyNaN+-table+.html') with open('df_temp_day.csv' , 'a') as f: for i in lista['gid']: page = requests.get(link.replace('GID','%s'%i)) soup = BeautifulSoup(page.text,'lxml') tabela = soup.find_all('table',text=False) for td in tabela: linha = td.find_all('td') k = 0 p = 1 while k <= len(linha) and p <= len(linha): mes = str(linha[k].get_text()) variavel = str(linha[p].get_text()) k +=2 p +=2 n = gid.index(i) f.writelines('"%s", %s, "%s" ,"gid %s"\n' %(mes,variavel,cidade[n],i)) print('"%s", %s, %s %s' %(mes,variavel,cidade[n],i)) Obs : Neste codigo eu já estou testando o parametro text=False, mas não sei realmente o que faz
  2. Bom dia. Estou com dificuldade na raspagem de dados utilizando a biblioteca BeautifulSoup, onde a ausencia de dados dentro das <td> não é coletada. Eu gostaria de saber se existe algum parametro que devo especificar durante a busca find_all() ou se devo fazer um len() no conteudo pego pelo meu for lendo o tamanho do conteudo coletado na tabela e depois guardando em alguma lista #!/usr/bin/python3 import pandas as pd from bs4 import BeautifulSoup import requests import pandas as pd gid = [] cidade = [] lista = pd.read_csv('/home/fabio/Downloads/Nova_lista.csv') for i in lista['gid']: gid.append(i) for p in lista['nome']: cidade.append(p) link = ('http://iridl.ldeo.columbia.edu/SOURCES/SOURCES/.USGS/.LandDAAC/.MODIS/.1km/.8day/.version_005/.Terra/.NSA/.Day/.LST/T/(Jan%202001)/(Mar%202015)/RANGE/X/-82/-34/RANGEEDGES/Y/-38.0/12.0/RANGEEDGES/T/monthlyAverage/home/.jdcorral/.Brazil/.mun_2016_03_21/.the_geom/gid/GID/VALUE/%5BX/Y%5Dweighted-average/T+exch+table-+text+text+skipanyNaN+-table+.html') with open('df_temp_day.csv' , 'a') as f: for i in lista['gid']: page = requests.get(link.replace('GID','%s'%i)) soup = BeautifulSoup(page.text,'lxml') tabela = soup.find_all('table',text=False) for td in tabela: linha = td.find_all('td') k = 0 p = 1 while k <= len(linha) and p <= len(linha): mes = str(linha[k].get_text()) variavel = str(linha[p].get_text()) k +=2 p +=2 n = gid.index(i) f.writelines('"%s", %s, "%s" ,"gid %s"\n' %(mes,variavel,cidade[n],i)) print('"%s", %s, %s %s' %(mes,variavel,cidade[n],i)) Obs : Neste codigo eu já estou testando o parametro text=False, mas não sei realmente o que faz
  3. Olá, Estou com dificuldades para extrair informações de múltiplos websites via python. VEJA O CÓDIGO: ========================================================================== # encoding: utf-8 import urllib2 from bs4 import BeautifulSoup # specify the url quote_page = 'AQUI EU GOSTARIA DE INSERIR, APROXIMADAMENTE UNS 100 LINKS' # query the website and return the html to the variable 'page' page = urllib2.urlopen(quote_page) # parse the html using beautiful soap and store in variable `soup` soup = BeautifulSoup(page, 'html.parser') p_tags = soup.findAll('p',text=True) #print p_tags print(p_tags) ====================================================================== Meu objetivo é extrair um conteúdo em texto de inúmeros URL´s de um determinado website. Esse código funciona separadamente, mas não sei como fazer no caso de múltiplas URL. Desde já, obrigado.
×
×
  • Criar Novo...