Jak převést HTML na CSV

Průvodce převodem HTML na CSV

Přehled
Převod HTML tabulek nebo strukturovaného značkovacího jazyka do souborů CSV vám umožní extrahovat tabulková data pro analýzu, import do tabulek nebo napojení na další systémy. Sheetize HTML Converter pro .NET podporuje přímou transformaci z HTML (nebo MHTML) do CSV při zachování hodnot buněk, datových typů a základního formátování.

Podporované formáty

  • Vstup: Html nebo MHtml (libovolný HTML dokument obsahující elementy <table>).
  • Výstup: Csv (comma‑separated values). Další podporovaná cílová formáty zahrnují Xlsx, Json, Xml, Tsv a další.

Krok‑za‑krokem workflow

  1. Vytvoření Load Options – Nastavte konverter na zdrojový soubor HTML.
  2. Nastavení Save Options – Nastavte SaveFormat na FileFormatType.Csv a volitelně specifikujte oddělovač, kódování nebo zda zahrnout řádky hlavičky.
  3. Spuštění procesu – Zavolejte HtmlConverter.Process(loadOptions, saveOptions); nástroj načte HTML tabulky a zapíše CSV soubor.

Ukázkový kód (C#)

using Sheetize;

// Načtení HTML dokumentu
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // HTML nebo MHTML zdroj
};

// Definice nastavení výstupu CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Provedení konverze
HtmlConverter.Process(loadOptions, saveOptions);

Tipy a osvědčené postupy

  • Struktura tabulky – Ujistěte se, že každý <table><thead> s <th> pro názvy sloupců; jinak konvertor považuje první řádek za data.
  • Podpora MHTML – Pokud je zdrojový archiv MHtml, zadejte cestu k souboru .mht; konvertor automaticky extrahuje vložený HTML.

Kdy použít HTML → CSV

  • Sběr reportů z webových stránek, které jsou poskytovány jako HTML tabulky.
  • Převod obsahu e‑knih (ePub, AZW3) obsahujících tabulková data do CSV pro analytické účely.
  • Archivace starších HTML dashboardů do lehkého, připraveného k importu formátu.

Další čtení

 Čeština