estou desenvolvendo um sistema, no qual preciso procurar informações em um arquivo pdf, que acreditem... cada arquivo é muito extenso.
Uma solução que pensei foi em transformá-lo em .doc e então realizar a busca, mas novamente não encontrei uma forma de fazer isto automaticamente.
Outra solução seria conseguir realizar a pesquisa diretamente no arquivo, mas neste caso simplesmente abrir o arquivo não funciona, pois a codificação de arquivo pdf faz com que leiamos binário o arquivo codificado e não texto.
para tornar mais complexo o problema. em um arquivo pdf onde contem 400 leis, eu digito a palavra organica, eu quero que apareça todas as leis que contenha a palavra organica. ou seja, não vejo outro modo a não ser inserindo todas essas leis uma por uma no BD... o que você acham?
Para arquivos de texto, uma busca pode ser feita assim:
function execute() {
//ARQUIVO A SER PESQUISADO
$arquivo = getcwd() . "/arquivo.pdf";
//ABRE O ARQUIVO
$arq = fopen($arquivo, "r");
//Lê o arquivo
$conteudo = fread($arq , filesize($arquivo) );
//FECHA O ARQUIVO
fclose($ponteiro);
$procurando = "Texto";
$busca = stripos($conteudo, $procurando);
if($busca === false)
{ return "Nenhuma ocorrencia encontrada"; }
else { return "Encontramos os resultados"; }
}
Procurei também referências as bibliotecas de manipulaçao de pdf existentes, tais como fpdf, mas nenhuma resolve meu problema.
Pergunta
igor Br22
Olá a todos,
estou desenvolvendo um sistema, no qual preciso procurar informações em um arquivo pdf, que acreditem... cada arquivo é muito extenso.
Uma solução que pensei foi em transformá-lo em .doc e então realizar a busca, mas novamente não encontrei uma forma de fazer isto automaticamente.
Outra solução seria conseguir realizar a pesquisa diretamente no arquivo, mas neste caso simplesmente abrir o arquivo não funciona, pois a codificação de arquivo pdf faz com que leiamos binário o arquivo codificado e não texto.
para tornar mais complexo o problema. em um arquivo pdf onde contem 400 leis, eu digito a palavra organica, eu quero que apareça todas as leis que contenha a palavra organica. ou seja, não vejo outro modo a não ser inserindo todas essas leis uma por uma no BD... o que você acham?
Para arquivos de texto, uma busca pode ser feita assim:
Procurei também referências as bibliotecas de manipulaçao de pdf existentes, tais como fpdf, mas nenhuma resolve meu problema.
Link para o comentário
Compartilhar em outros sites
1 resposta a esta questão
Posts Recomendados
Participe da discussão
Você pode postar agora e se registrar depois. Se você já tem uma conta, acesse agora para postar com sua conta.