Jak konwertować HTML do CSV
Przewodnik konwersji HTML do CSV
Przegląd
Konwersja tabel HTML lub ustrukturyzowanego markupu do plików CSV umożliwia wyodrębnienie danych tabelarycznych do analiz, importu do arkuszy kalkulacyjnych lub przekazania do dalszych systemów. Sheetize HTML Converter dla .NET obsługuje bezpośrednią transformację z HTML (lub MHTML) do CSV, zachowując wartości komórek, typy danych oraz podstawowe formatowanie.
Obsługiwane formaty
- Wejście:
HtmllubMHtml(dowolny dokument HTML zawierający elementy<table>). - Wyjście:
Csv(wartości rozdzielane przecinkami). Inne dostępne cele toXlsx,Json,Xml,Tsvitp.
Krok‑po‑krokowy proces
- Utwórz opcje wczytywania – wskaż konwerterowi plik źródłowy HTML.
- Skonfiguruj opcje zapisu – ustaw
SaveFormatnaFileFormatType.Csvoraz opcjonalnie delimitery, kodowanie lub informację, czy ma być dołączony wiersz nagłówka. - Uruchom proces – wywołaj
HtmlConverter.Process(loadOptions, saveOptions); narzędzie sparsuje tabele HTML i zapisze plik CSV.
Przykładowy kod (C#)
using Sheetize;
// Wczytaj dokument HTML
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // źródło Html lub MHtml
};
// Zdefiniuj ustawienia wyjścia CSV
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// Wykonaj konwersję
HtmlConverter.Process(loadOptions, saveOptions);Wskazówki i dobre praktyki
- Struktura tabeli – upewnij się, że każdy
<table>ma wiersz<thead>z nagłówkami kolumn; w przeciwnym razie konwerter potraktuje pierwszy wiersz jako dane. - Obsługa MHTML – jeżeli źródłem jest archiwum
MHtml, podaj ścieżkę do pliku.mht; konwerter automatycznie wyodrębni osadzony HTML.
Kiedy używać konwersji HTML → CSV
- Pobieranie raportów ze stron internetowych udostępnianych w postaci tabel HTML.
- Konwersja treści e‑booków (ePub, AZW3) zawierających dane tabelaryczne do CSV w celu analizy.
- Archiwizacja starszych pulpitów HTML w lekki, gotowy do importu format.