Guia de conversió d’HTML a CSV
Visió general
Convertir taules HTML o marcatge estructurat a fitxers CSV permet extreure dades tabulars per a anàlisis, importar-les a fulls de càlcul o alimenta sistemes downstream. El Sheetize HTML Converter per .NET admet la transformació directa d’HTML (o MHTML) a CSV mantenint els valors de les cel·les, els tipus de dades i el format bàsic.
Formats compatibles
- Entrada:
HtmloMHtml(qualsevol document HTML que contingui elements<table>). - Sortida:
Csv(valors separats per comes). Altres destinacions compatibles sónXlsx,Json,Xml,Tsv, etc.
Flux de treball pas a pas
- Crear Load Options – Apunta el convertidor al fitxer HTML d’origen.
- Configurar Save Options – Defineix
SaveFormatcom aFileFormatType.Csvi, opcionalment, indica un delimitador, codificació o si s’han d’incloure les files d’encapçalament. - Executar el procés – Crida
HtmlConverter.Process(loadOptions, saveOptions); l’eina analitza les taules HTML i genera un fitxer CSV.
Exemple de codi (C#)
using Sheetize;
// Carrega el document HTML
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // Html o MHtml d'origen
};
// Defineix la configuració de sortida CSV
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// Executa la conversió
HtmlConverter.Process(loadOptions, saveOptions);Consells i bones pràctiques
- Estructura de la taula – Assegura’t que cada
<table>tingui un<thead>amb les capçaleres de columna; en cas contrari, el convertidor considerarà la primera fila com a dades. - Suport MHTML – Si l’origen és un arxiu
MHtml, indica el camí del fitxer.mht; el convertidor extreu automàticament l’HTML incrustat.
Quan utilitzar HTML → CSV
- Extracció de informes web que es presenten com a taules HTML.
- Conversió de contingut d’e‑books (ePub, AZW3) que inclouen dades tabulars a CSV per a anàlisis.
- Arxiu d’ancians dashboards HTML en un format lleuger i llest per a importar.