HTML til CSV‑konverteringsguide

Oversigt
At konvertere HTML‑tabeller eller struktureret markup til CSV‑filer gør det muligt at udtrække tabeldata til analyse, importere til regneark eller levere til efterfølgende systemer. Sheetize HTML Converter til .NET understøtter direkte transformation fra HTML (eller MHTML) til CSV, mens celleværdier, datatyper og grundlæggende formatering bevares.

Understøttede formater

  • Input: Html eller MHtml (ethvert HTML‑dokument, der indeholder ``‑elementer).
  • Output: Csv (kommaseparerede værdier). Andre understøttede destinationer inkluderer Xlsx, Json, Xml, Tsv osv.

Trin‑for‑trin arbejdsproces

  1. Opret indlæsningsindstillinger – Peg konverteren på kilde‑HTML‑filen.
  2. Konfigurer gemmeindstillinger – Angiv SaveFormat til FileFormatType.Csv og specificer eventuelt en delimiter, kodning eller om header‑rækker skal medtages.
  3. Kør processen – Kald HtmlConverter.Process(loadOptions, saveOptions); værktøjet parser HTML‑tabellerne og skriver en CSV‑fil.

Eksempelkode (C#)

using Sheetize;

// Load the HTML document
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html eller MHtml kilde
};

// Define CSV output settings
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Perform the conversion
HtmlConverter.Process(loadOptions, saveOptions);

Tips & bedste praksis

  • Tabelstruktur – Sørg for, at hver har en til kolonne‑headers; ellers vil konverteren betragte den første række som data.
  • MHTML‑support – Hvis kilden er et MHtml‑arkiv, angiv .mht‑filstien; konverteren udtrækker automatisk den indlejrede HTML.

Hvornår du skal bruge HTML → CSV

  • Udtræk af web‑side‑rapporter, der leveres som HTML‑tabeller.
  • Konvertering af e‑bogindhold (ePub, AZW3), der indeholder tabeldata, til CSV for analyser.
  • Arkivering af ældre HTML‑dashboards i et letvægts‑, importklar format.

Yderligere læsning

 Dansk