Estou desenvolvendo um módulo para minha monografia onde preciso manipular arquivos PDF. Basicamente o que eu preciso é extrair o texto e a formatação da fonte apenas (se é itálico, negrito e tamanho da fonte). Já li parte da referência do PDF e já sei mais ou menos como funciona a estrutura dos arquivos PDF.
Até o momento minha solução percorre o arquivo linha por linha e separa todos os objetos (com "objetos" eu me refiro à estrutura do próprio PDF que divide todas as partes do arquivo em objetos, definidos pelos marcadores "obj" e "endobj"). Minha intenção é armazenar apenas os objetos referentes à formatação e aos que armazenam os textos.
Tenho de rever algumas coisas no manual de referência pra eu ter certeza que não estou esquecendo de nenhum objeto importante, mas eis o problema: mesmo o conteúdo dos "stream" encodados em gzip estando no tamanho correto na hora do ungzip, não estou conseguindo o resultado correto na descompactação.
Quando eu chegar em casa eu posto a versão mais recente do meu código para quem puder e se dispuser a me ajudar.
Se alguém já manuseou arquivos PDF e tem alguma sugestão de experiência própria eu agradeceria muito.
Pergunta
Carlos Messala
Estou desenvolvendo um módulo para minha monografia onde preciso manipular arquivos PDF. Basicamente o que eu preciso é extrair o texto e a formatação da fonte apenas (se é itálico, negrito e tamanho da fonte). Já li parte da referência do PDF e já sei mais ou menos como funciona a estrutura dos arquivos PDF.
Até o momento minha solução percorre o arquivo linha por linha e separa todos os objetos (com "objetos" eu me refiro à estrutura do próprio PDF que divide todas as partes do arquivo em objetos, definidos pelos marcadores "obj" e "endobj"). Minha intenção é armazenar apenas os objetos referentes à formatação e aos que armazenam os textos.
Tenho de rever algumas coisas no manual de referência pra eu ter certeza que não estou esquecendo de nenhum objeto importante, mas eis o problema: mesmo o conteúdo dos "stream" encodados em gzip estando no tamanho correto na hora do ungzip, não estou conseguindo o resultado correto na descompactação.
Quando eu chegar em casa eu posto a versão mais recente do meu código para quem puder e se dispuser a me ajudar.
Se alguém já manuseou arquivos PDF e tem alguma sugestão de experiência própria eu agradeceria muito.
Forte abraço.
Editado por Carlos MessalaLink para o comentário
Compartilhar em outros sites
1 resposta a esta questão
Posts Recomendados
Participe da discussão
Você pode postar agora e se registrar depois. Se você já tem uma conta, acesse agora para postar com sua conta.