Ako konvertovať HTML na CSV

Príručka pre konverziu HTML na CSV

Prehľad
Konverzia tabuliek alebo štruktúrovanej značky HTML do CSV súborov vám umožní extrahovať tabuľkové dáta na analýzu, import do tabuľkových procesorov alebo napojenie na ďalšie systémy. Sheetize HTML Converter pre .NET podporuje priamu transformáciu z HTML (alebo MHTML) do CSV pri zachovaní hodnôt buniek, dátových typov a základného formátovania.

Podporované formáty

  • Vstup: Html alebo MHtml (akýkoľvek HTML dokument obsahujúci <table> elementy).
  • Výstup: Csv (hodnoty oddelené čiarkami). Medzi ďalšie podporované destinácie patrí Xlsx, Json, Xml, Tsv a pod.

Postup krok za krokom

  1. Vytvorenie načítacích možností – Nastavte konvertor na vstupný HTML súbor.
  2. Konfigurácia možností uloženia – Nastavte SaveFormat na FileFormatType.Csv a voliteľne špecifikujte oddeľovač, kódovanie alebo či zahrnúť hlavičkové riadky.
  3. Spustenie procesu – Zavolajte HtmlConverter.Process(loadOptions, saveOptions); nástroj spracuje HTML tabuľky a zapíše CSV súbor.

Ukážkový kód (C#)

using Sheetize;

// Načítanie HTML dokumentu
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // HTML alebo MHTML zdroj
};

// Definovanie nastavení výstupu CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Vykonanie konverzie
HtmlConverter.Process(loadOptions, saveOptions);

Tipy a najlepšie postupy

  • Štruktúra tabuľky – Uistite sa, že každá <thead> obsahuje <th> prvky pre hlavičky stĺpcov; inak konvertor považuje prvý riadok za dáta.
  • Podpora MHTML – Ak je zdrojom archív MHtml, zadajte cestu k .mht súboru; konvertor automaticky extrahuje vložené HTML.

Kedy použiť konverziu HTML → CSV

  • Sťahovanie webových správ vo forme HTML tabuliek.
  • Konverzia obsahu e‑kníh (ePub, AZW3) obsahujúcich tabuľkové dáta do CSV pre analytické účely.
  • Archivácia starých HTML dashboardov do ľahkého, importovateľného formátu.

Ďalšie informácie

 Slovenčina