Eu tenho um arquivo HTML de 100 pg longo e quero manter apenas os títulos, ou seja, H2 H3, como isso com o Open Office?

Software

* Rede de conhecimento computador >> Software >> Portable Document Format >> Content

O OpenOffice não possui uma única função interna para extrair apenas os títulos (H2 e H3) de um arquivo HTML de 100 páginas. Você precisará usar uma combinação de recursos ou uma ferramenta externa. Aqui estão algumas abordagens:

1. Usando "Find and Substituir" do OpenOffice Writer (limitado e tedioso):

Este método é viável para um arquivo menor, mas altamente impraticável para um arquivo HTML de 100 páginas.

* importar: Abra o arquivo HTML no escritor do OpenOffice. Provavelmente preservará a formatação, incluindo títulos.
* Encontre e substitua (iterativo): Execute uma operação "Localizar e substituir".
* Encontre: `

.*?

`(Isso encontra tudo entre`

`e`

`Tags. O `.

`Seções)
* Substitua: Mantenha este campo vazio. Clique em "Substitua tudo". Isso excluirá o conteúdo, mas * não * o título. Repita para `

`Tags.
* Repita: Você precisará excluir manualmente tudo , exceto os títulos. Isso consome muito tempo para um arquivo grande.

2. Usando o OpenOffice Calc e expressões regulares (mais avançado, mas potencialmente melhor):

Essa abordagem é mais automatizada, mas requer alguma familiaridade com expressões regulares e funções de planilha.

* importar (como texto): Abra o arquivo HTML no OpenOffice Calc. Importe -o como texto simples, não HTML, para evitar problemas de formatação. Provavelmente importará como uma única célula muito longa.
* dividir o texto: Use a função `textsplit` (disponível em versões mais recentes do OpenOffice) para dividir o texto em linhas com base em um delimitador como retornos de transporte (` \ n`). Isso fornecerá uma linha por linha de código HTML (aproximadamente).
* Expressões regulares (com `regex`): Use a função `regex` do OpenOffice (semelhante à` regexmatch` ou `regexextract` do Excel, dependendo da sua versão) dentro de uma nova coluna. A fórmula deve extrair o texto do cabeçalho. Um exemplo:`=regex (A1,"

(.*?)

"; 2)`
* Esta fórmula procura por `

`ou`

`Tags, capturando o conteúdo dentro. O operador `| |` atua como um "ou" operador. O `(.*?)` Captura o conteúdo sem graça. O `2 'extrai o segundo grupo de captura; Se apenas `

`Foi encontrado que seria uma corda vazia.
* filtro e limpo: Filtre as células não vazias para remover as entradas sem títulos encontrados. Você ainda precisará de alguma limpeza manual para remover qualquer espaço em branco extra ou caracteres perdidos dos resultados.

3. Usando ferramentas externas (recomendadas):

Este é de longe o método mais fácil e eficiente para um arquivo grande. Use uma ferramenta de processamento de texto dedicada ou linguagem de script como Python:

* python com `bela sopa`: Python, com a biblioteca `Beautiful Soup`, é excelente para analisar HTML. Um script curto pode extrair apenas as tags `h2` e` h3` e seu conteúdo. Muitos tutoriais on -line mostram como fazer isso.

Exemplo de script python:

`` `Python
De BS4 Import BeautifulSoup

com open ("your_100page_html_file.html", "r", coding ="utf-8") como f:
html =f.read ()

Sopa =BongeSoup (html, "html.parser")

Cabeçalhos =[]
para h2 em sopa.find_all ("h2"):
Headings.append (h2.text.strip ())
Para H3 em sopa.find_all ("H3"):
Headings.append (h3.text.strip ())

com open ("Extraird_headings.txt", "w", coding ="utf-8") como arquivo de saída:
Para ir em títulos:
outfile.write (cabeçalho + "\ n")

Print ("Cabeças extraídos para extrair_headings.txt")
`` `

Lembre -se de substituir `" your_100page_html_file.html "` pelo nome de arquivo real. Você precisar

A abordagem Python é fortemente recomendada por sua eficiência e precisão. Os métodos do OpenOffice são significativamente mais pesados para um arquivo desse tamanho.

Anterior : Quais são alguns tipos diferentes de espaçamento de linha que você pode usar em um documento?

Próximo : Quais são os benefícios de usar um plano de documento?

Os artigos relacionados

·	Gerenciamento de Requisitos PDF
·	Qual é o documento final criado após a chamada de uma…
·	Como dividir e mesclar páginas em um PDF
·	Como converter PDF para o Excel Online
·	Como configurar o Internet Explorer 7 para baixar um ar…
·	Como converter um PDF para um documento do Word Office …
·	Como converter PDF para DWF Com um download gratuito
·	O que são margens de papel timbrado padrão?
·	Como imprimir um PDF 995
·	Conversão de PDF para Mac

Artigos em destaque

·	Como organizar um PDF em um Mac
·	O que é Rasterize no Photoshop
·	Como colocar uma beira arredondada em Imagens em Photos…
·	Como converter PDF para o Stanza
·	Como converter um 3-D PDF
·	Como fazer Fragmentos & fogos no GIMP
·	Como colocar Sobrescritos no Microsoft Word
·	Quais são os benefícios do sistema de bibliotecas bas…
·	O que você precisa para fazer backup de seus arquivos?…
·	Como usar o Excel Atalhos com a tecla Control

.*?

`e`

`Seções) * Substitua: Mantenha este campo vazio. Clique em "Substitua tudo". Isso excluirá o conteúdo, mas * não * o título. Repita para `

(.*?)

(.*?)

`ou`

`Tags, capturando o conteúdo dentro. O operador `| |` atua como um "ou" operador. O `(.*?)` Captura o conteúdo sem graça. O `2 'extrai o segundo grupo de captura; Se apenas `

`Seções)
* Substitua: Mantenha este campo vazio. Clique em "Substitua tudo". Isso excluirá o conteúdo, mas * não * o título. Repita para `