Software  
 
Conhecimento computador >> Software >> Portable Document Format >> 
Como Índice e Pesquisar um PDF em Java com Lucene
Apache Lucene é uma biblioteca cheia de recursos motor de busca de texto escrito em Java. Você pode usar o Lucene para indexar e pesquisar qualquer tipo de documento de texto. Para converter um arquivo Portable Document Format (PDF) do arquivo para um formato de texto que pode Lucene índice, você pode usar a classe de código aberto PDFBox que tem métodos especiais especificamente para Lucene. Basta fornecer o nome do arquivo PDF para PDFBox e obter um objeto de documento Lucene que podem ser adicionadas ao índice e procurado , assim como qualquer arquivo de texto. Instruções
1

Selecione um analisador Lucene para usar na criação do índice , por exemplo " StandardAnalyzer ". Crie um objeto " IndexWriter " para lidar com a adição de novos itens para o índice, por exemplo :

IndexWriter myWriter = new IndexWriter ( "index" , novo StandardAnalyzer () , true);
2

Chamada " LucenePDFDocument " para obter um objeto de documento Lucene do seu arquivo PDF. Adicione outros campos-chave para o objeto e adicionar o objeto com o índice Lucene. Por exemplo :

Documento PDFDoc = LucenePDFDocument.getDoument (filename) ;

pdfDoc.add (new Field ( "title" , pdf.getTitle () , Field.Store.YES , Field. Index.TOKENIZED ) );

pdfDoc.add (new Field ( "autor " , pdf.getAuthor () , Field.Store.YES , Field.Index.TOKENIZED ) );

myWriter . addDocument ( PDFDoc );
3

Use a classe " Mecanismo de Pesquisa " para procurar o índice Lucene. " Mecanismo de Pesquisa " retorna um " Acessos " objeto Lucene com uma lista de objetos "hit" . Por exemplo :

Mecanismo de Pesquisa MySearch = new Mecanismo de Pesquisa ();

Acessos myHits = mySearch.performSearch ( searchText );

System.out.println (" Documentos encontrados: " + myHits.length ());
4

Iterate através do " Hit" objetos para obter mais informações sobre cada jogo. A "Hit " objetos são ordenados por relevância para a pesquisa, e você também pode obter a pontuação busca parente com " getScore (). " Por exemplo :

Iterator itr = myHits.iterator ();

while ( itr.hasNext ()) {

Hit theHit = itr.next () ;

Documento TheDoc = theHit.getDocument ();

System.out.println ( theDoc.get ( "title" ) + "-" + theHit.getScore ()); < br >

}

Anterior :

Próximo : No
  Os artigos relacionados
·Como criar um PDF Fillable Sem Adobe 
·Por que você obter memória PDF Erros arquivo do Windo…
·Como usar o Acrobat para Verifique as configurações d…
·Como alterar Mht em PDF 
·Por que eu não posso imprimir um formulário PDF Filla…
·Como escrever dentro de um PDF 
·Como converter PLT para PDF na Brava 
·Como converter um PDF para uma baixa resolução PDF 
·Como converter WPS para PDF 
·Como imprimir PS para PDF 
  Artigos em destaque
·O que é o Adobe Escritor 
·Como gravar imagens em um DVD com o Windows XP 
·Como dobrar espaço no Microsoft Office Word 2007 
·Como mostrar legendas em um Jogador Zoom 
·Como juntar vários de Mesa consultas em Access 2003 
·Como converter Google Livros para os arquivos PDF 
·Como reverter o Windows Media Player 9 
·Como Configurar Variáveis ​​em Drupal 
·Como criar ou substituir os procedimentos em MS SQL 
·Adobe Photoshop Elements Enrolado Tutorial Ribbon 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados