Jak konwertować HTML do CSV

Przewodnik konwersji HTML do CSV

Przegląd
Konwersja tabel HTML lub ustrukturyzowanego markupu do plików CSV umożliwia wyodrębnienie danych tabelarycznych do analiz, importu do arkuszy kalkulacyjnych lub przekazania do dalszych systemów. Sheetize HTML Converter dla .NET obsługuje bezpośrednią transformację z HTML (lub MHTML) do CSV, zachowując wartości komórek, typy danych oraz podstawowe formatowanie.

Obsługiwane formaty

  • Wejście: Html lub MHtml (dowolny dokument HTML zawierający elementy <table>).
  • Wyjście: Csv (wartości rozdzielane przecinkami). Inne dostępne cele to Xlsx, Json, Xml, Tsv itp.

Krok‑po‑krokowy proces

  1. Utwórz opcje wczytywania – wskaż konwerterowi plik źródłowy HTML.
  2. Skonfiguruj opcje zapisu – ustaw SaveFormat na FileFormatType.Csv oraz opcjonalnie delimitery, kodowanie lub informację, czy ma być dołączony wiersz nagłówka.
  3. Uruchom proces – wywołaj HtmlConverter.Process(loadOptions, saveOptions); narzędzie sparsuje tabele HTML i zapisze plik CSV.

Przykładowy kod (C#)

using Sheetize;

// Wczytaj dokument HTML
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // źródło Html lub MHtml
};

// Zdefiniuj ustawienia wyjścia CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Wykonaj konwersję
HtmlConverter.Process(loadOptions, saveOptions);

Wskazówki i dobre praktyki

  • Struktura tabeli – upewnij się, że każdy <table> ma wiersz <thead> z nagłówkami kolumn; w przeciwnym razie konwerter potraktuje pierwszy wiersz jako dane.
  • Obsługa MHTML – jeżeli źródłem jest archiwum MHtml, podaj ścieżkę do pliku .mht; konwerter automatycznie wyodrębni osadzony HTML.

Kiedy używać konwersji HTML → CSV

  • Pobieranie raportów ze stron internetowych udostępnianych w postaci tabel HTML.
  • Konwersja treści e‑booków (ePub, AZW3) zawierających dane tabelaryczne do CSV w celu analizy.
  • Archiwizacja starszych pulpitów HTML w lekki, gotowy do importu format.

Dalsza lektura

 Polski