HTML a texto plano

Descripción

A relação entre texto e marcação na web é uma camada de abstração que a maioria dos usuários nunca vê, mas que todo desenvolvedor conhece bem: o que aparece no browser como um parágrafo em negrito com um link é na realidade uma sequência de caracteres como `texto e <a href='...'>link</a>`. Essa separação entre conteúdo e apresentação foi uma das ideias fundadoras do HTML criado por Tim Berners-Lee em 1991 — o texto e sua estrutura seriam codificados juntos, e a apresentação visual ficaria a cargo do browser. Com o CSS chegando nos anos 1990 e se solidificando no início dos anos 2000, a separação se tornou mais clara, mas a fusão de texto e marcação no HTML nunca desapareceu. Toda vez que você copia texto de uma página web para um editor de texto rico, você sente os efeitos: fontes, cores e espaçamentos são colados junto com o texto, porque o HTML está invisível no meio.

A necessidade de extrair apenas o texto de um HTML aparece em contextos surpreendentemente variados. Web scraping: você baixou o HTML de uma página e precisa apenas do conteúdo editorial sem os menus, rodapés e boilerplate das tags. Processamento de e-mails HTML: clientes de e-mail modernos enviam mensagens em HTML e você precisa indexar ou analisar apenas o texto. Migração de CMS: importando conteúdo de uma plataforma para outra onde o editor não aceita HTML bruto. Análise de sentimento ou análise de texto: modelos de NLP e LLMs funcionam com texto plano, não com HTML. Feeds RSS: muitos feeds incluem a descrição em HTML e você precisa de texto para exibir em interfaces minimalistas. Todos esses casos têm o mesmo padrão: o HTML é o veículo, e você quer apenas a carga útil dentro dele.

Esta ferramenta usa o parser DOM do próprio browser — o mesmo que o Chrome, Firefox ou Safari usa para renderizar páginas — o que tem uma implicação importante: o texto extraído é o que o browser consideraria visível, seguindo as regras reais de parse de HTML. Tags mal fechadas são toleradas. Entidades HTML como `&`, `<` e ` ` são decodificadas corretamente para os caracteres correspondentes. Scripts e estilos `<style>` são descartados junto com as tags. Uma limitação prática: a ferramenta não executa JavaScript, então conteúdo gerado dinamicamente por scripts no HTML colado não será expandido. Para HTML estático — o mais comum nos casos de uso acima — o resultado é fiel ao que você veria num browser.

The relationship between text and markup on the web is a layer of abstraction that most users never see, but every developer knows well: what appears in the browser as a bold paragraph with a link is in reality a sequence of characters like `text and <a href='...'>link</a>`. This separation between content and presentation was one of the founding ideas of the HTML created by Tim Berners-Lee in 1991 — text and structure would be encoded together, and visual presentation would be handled by the browser. With CSS arriving in the 1990s and solidifying in the early 2000s, the separation became clearer, but the fusion of text and markup in HTML never went away. Every time you copy text from a web page into a rich text editor, you feel the effects: fonts, colors, and spacing are pasted along with the text, because the HTML is invisible in the middle.

The need to extract just the text from HTML arises in a surprisingly wide range of contexts. Web scraping: you downloaded the HTML of a page and only need the editorial content without the menus, footers, and tag boilerplate. HTML email processing: modern email clients send messages in HTML and you need to index or analyze just the text. CMS migration: importing content from one platform to another where the editor does not accept raw HTML. Sentiment analysis or text analysis: NLP models and LLMs work with plain text, not HTML. RSS feeds: many feeds include descriptions in HTML and you need plain text to display in minimalist interfaces. All these cases share the same pattern: the HTML is the vehicle, and you want only the payload inside it.

This tool uses the DOM parser built into the browser itself — the same one Chrome, Firefox, or Safari uses to render pages — which has an important implication: the extracted text is what the browser would consider visible, following real HTML parsing rules. Malformed tags are tolerated. HTML entities like `&`, `<`, and ` ` are correctly decoded to their corresponding characters. Scripts and `<style>` tags are discarded along with the markup. One practical limitation: the tool does not execute JavaScript, so content dynamically generated by scripts in the pasted HTML will not be expanded. For static HTML — the most common case in the use cases above — the result faithfully matches what you would see in a browser.

La relación entre texto y marcado en la web es una capa de abstracción que la mayoría de los usuarios nunca ve, pero que todo desarrollador conoce bien: lo que aparece en el navegador como un párrafo en negrita con un enlace es en realidad una secuencia de caracteres como `texto y <a href='...'>enlace</a>`. Esta separación entre contenido y presentación fue una de las ideas fundacionales del HTML creado por Tim Berners-Lee en 1991 — el texto y su estructura se codificarían juntos, y la presentación visual quedaría a cargo del navegador. Con la llegada del CSS en los años noventa y su consolidación a principios de los 2000, la separación se volvió más nítida, pero la fusión de texto y marcado en HTML nunca desapareció. Cada vez que copias texto de una página web en un editor de texto enriquecido, lo sientes: fuentes, colores y espaciados se pegan junto al texto, porque el HTML está invisible en medio de todo.

La necesidad de extraer solo el texto de un HTML surge en contextos sorprendentemente variados. Web scraping: descargaste el HTML de una página y solo necesitas el contenido editorial sin los menús, pies de página y el boilerplate de las etiquetas. Procesamiento de correos HTML: los clientes de correo modernos envían mensajes en HTML y necesitas indexar o analizar únicamente el texto. Migración de CMS: importando contenido de una plataforma a otra donde el editor no acepta HTML en bruto. Análisis de sentimiento o análisis de texto: los modelos de NLP y los LLMs trabajan con texto plano, no con HTML. Feeds RSS: muchos feeds incluyen la descripción en HTML y necesitas texto para mostrar en interfaces minimalistas. Todos estos casos comparten el mismo patrón: el HTML es el vehículo, y tú quieres solo la carga útil que hay dentro.

Esta herramienta usa el parser DOM integrado en el propio navegador — el mismo que Chrome, Firefox o Safari usa para renderizar páginas —, lo que tiene una implicación importante: el texto extraído es el que el navegador consideraría visible, siguiendo las reglas reales de parseo de HTML. Las etiquetas mal cerradas se toleran. Las entidades HTML como `&`, `<` y ` ` se decodifican correctamente a sus caracteres correspondientes. Los scripts y las etiquetas `<style>` se descartan junto con el marcado. Una limitación práctica: la herramienta no ejecuta JavaScript, así que el contenido generado dinámicamente por scripts en el HTML pegado no se expandirá. Para HTML estático — el más habitual en los casos de uso anteriores — el resultado coincide fielmente con lo que verías en un navegador.

Detalle técnico

Ideas claras antes de usar la herramienta

¿Para qué sirve esta herramienta?: Funciona por completo en tu navegador: sirve para validar, formatear o convertir datos en el día a día.
¿Se envían mis datos a algún servidor?: El procesamiento es local con JavaScript. No almacenamos lo que pegas en los campos de texto.
¿Puedo usarlo con datos reales en producción?: Úsalo bajo tu responsabilidad. Para secretos (contraseñas, tokens), prefiere entornos controlados y políticas internas. Recuerda de revisar los contenidos generados. Nunca confies ciegamente en cosas que ves en internet.

Fragmento corto para probar

Debajo aparece también el ejemplo largo en "Fragmentos de Código"; pega esta versión corta: Entrada — Olá mundo → Olá mundo

Guía de la herramienta

Qué es HTML Ver escape HTML. Aquí el objetivo es el texto visible, no la estructura.
Qué hace la herramienta Usa el analizador del navegador para extraer texto de un fragmento HTML (se eliminan etiquetas; los scripts pegados no se ejecutan como en una página viva).
Por qué usarla Pegar fragmentos de página y quedarte solo con texto legible, citar sin marcado o preparar entrada simple para NLP.

Este capítulo en la guía completa Guía de todas las herramientas

Fragmentos de Código

Exemplo de código

<p>Olá <strong>mundo</strong></p> → Olá mundo

Code example

<p>Olá <strong>mundo</strong></p> → Olá mundo

Ejemplo de código

<p>Olá <strong>mundo</strong></p> → Olá mundo

Entrada

<p>Olá <strong>mundo</strong></p> → Olá mundo

Preguntas frecuentes

¿Para qué sirve esta herramienta?

Funciona por completo en tu navegador: sirve para validar, formatear o convertir datos en el día a día.

¿Se envían mis datos a algún servidor?

El procesamiento es local con JavaScript. No almacenamos lo que pegas en los campos de texto.

¿Puedo usarlo con datos reales en producción?

Úsalo bajo tu responsabilidad. Para secretos (contraseñas, tokens), prefiere entornos controlados y políticas internas. Recuerda de revisar los contenidos generados. Nunca confies ciegamente en cosas que ves en internet.

FAQ general de GigaCode

Destacados

Quitar etiquetas HTML

Descripción

Detalhamento técnico

Pontos frequentes

Trecho para testar

Technical deep dive

Common questions summarized

Sample payload to try

Detalle técnico

Ideas claras antes de usar la herramienta

Fragmento corto para probar

Guía de la herramienta

Fragmentos de Código

Entrada

Preguntas frecuentes

Para que serve esta ferramenta?

What is this tool for?

¿Para qué sirve esta herramienta?

Meus dados são enviados a algum servidor?

Are my inputs sent to a server?

¿Se envían mis datos a algún servidor?

Posso usar em produção ou para dados reais?

Can I use this for real production data?

¿Puedo usarlo con datos reales en producción?

Destaque Featured Destacados

Remover tags HTML Strip HTML tags Quitar etiquetas HTML

Descrição Overview Descripción

Detalhamento técnico

Pontos frequentes

Trecho para testar

Technical deep dive

Common questions summarized

Sample payload to try

Detalle técnico

Ideas claras antes de usar la herramienta

Fragmento corto para probar

Guia da ferramenta Tool guide Guía de la herramienta

Exemplo de Código Code Snippets Fragmentos de Código

Entrada Input Entrada

Perguntas frequentes FAQ Preguntas frecuentes

Para que serve esta ferramenta?

What is this tool for?

¿Para qué sirve esta herramienta?

Meus dados são enviados a algum servidor?

Are my inputs sent to a server?

¿Se envían mis datos a algún servidor?

Posso usar em produção ou para dados reais?

Can I use this for real production data?

¿Puedo usarlo con datos reales en producción?

Destacados

Quitar etiquetas HTML

Descripción

Guía de la herramienta

Fragmentos de Código

Entrada

Preguntas frecuentes