Ir para conteúdo
Fórum Script Brasil
  • 0

Processamento de Texto.


Lucynerios

Pergunta

E aew gente beleza ? Esse é meu primeiro tópico no forum, então desculpa se é uma pergunta meio boba mais é que eu estou com algumas dificuldades para fazer uma tarefa que meu professor passou. O trabalho é sobre processamento de texto usando orientação a objeto. Foram propostos 3 atividades:

1 - Escolher um texto (um artigo qualquer) e coloca-lo em HTML. (eu não sou tão burro assim, então essa parte eu já fiz... shaushaushaus)

2 - Filtrar os códigos HTML desse texto, gerando um segundo texto sem rótulos. (ou seja, tenho que tirar aquelas coisas que o HTML possui: <head>, <body>, etc... Não faço a mínima idéia de como eu faço isso).

3 - Fazer um módulo que fassa a divisão das sentenças. (ou seja, algo que divida o texto em parágrafos... so que ai tem um problema, se eu colocar para dividir sempre que tiver um ponto final haveram alguns problemas, por exemplo se aparecer no texto as abreviações Dr., ou Mrs.)

Se vocês puderem me ajudar eu agradeço, sou iniciante em JAVA ainda, e estou pegando o jeito de programar em geral... por isso estou muito perdido. valeu, gente.

(ps: o texto em HTML que eu vou usar é esse aqui: http://www.4shared.com/document/I5WjEOxb/Texto.html )

Editado por Lucynerios
Link para o comentário
Compartilhar em outros sites

1 resposta a esta questão

Posts Recomendados

  • 0

Boas notícias... consigui fazer o item 2. Retirei todos os tags e tal, so que tem um probleminha... eu acho que a codificação do arquivo HTML está errada, pelo que aindei vendo na net para o arquivo funcionar com todos os acentos e pontuações ele precisa estar na codificação Unicode (UTF-8). Quando eu abro o HTML pelo FireFox ele esta certinho, mais quando eu executo o meu programa o arquivo em HTML fica todo "zuado" (toda palavra que possui um acento fica com caracteres estranhos), como eu arrumo isso ? E outra duvida: alguém sabe como eu posso fazer o item 3 ? Valeu gente.

ps: o item 2 eu fiz da seguinte maneira.

package POO;

import java.io.*;

public class Classe1 {

public static void main (String[] args) throws Exception{

StringBuilder sb = new StringBuilder();

BufferedReader br = new BufferedReader(new FileReader("C:/Texto.html"));

String line;

while ( (line=br.readLine()) != null) {

sb.append(line);

}

String nohtml = sb.toString().replaceAll("\\<.*?>","");

System.out.println(nohtml);

}

}

Link para o comentário
Compartilhar em outros sites

Participe da discussão

Você pode postar agora e se registrar depois. Se você já tem uma conta, acesse agora para postar com sua conta.

Visitante
Responder esta pergunta...

×   Você colou conteúdo com formatação.   Remover formatação

  Apenas 75 emoticons são permitidos.

×   Seu link foi incorporado automaticamente.   Exibir como um link em vez disso

×   Seu conteúdo anterior foi restaurado.   Limpar Editor

×   Você não pode colar imagens diretamente. Carregar ou inserir imagens do URL.



  • Estatísticas dos Fóruns

    • Tópicos
      152,2k
    • Posts
      651,9k
×
×
  • Criar Novo...