Kako pretvoriti HTML u CSV

Vodič za pretvorbu HTML‑a u CSV

Pregled
Pretvorba HTML tablica ili strukturiranog markup‑a u CSV datoteke omogućuje izdvajanje tabličnih podataka za analizu, uvoz u proračunske tablice ili napajanje downstream sustava. Sheetize HTML Converter za .NET podržava izravnu transformaciju iz HTML‑a (ili MHTML‑a) u CSV uz očuvanje vrijednosti ćelija, tipova podataka i osnovnog formatiranja.

Podržani formati

  • Ulaz: Html ili MHtml (bilo koji HTML dokument koji sadrži <table> elemente).
  • Izlaz: Csv (vrijednosti odvojene zarezom). Ostala podržana odredišta uključuju Xlsx, Json, Xml, Tsv i sl.

Korak‑po‑korak radni tok

  1. Stvaranje Load Options – Usmjerite pretvarač na izvorni HTML fajl.
  2. Konfiguracija Save Options – Postavite SaveFormat na FileFormatType.Csv i po želji odredite delimiter, kodiranje ili uključivanje zaglavlja.
  3. Pokretanje procesa – Pozovite HtmlConverter.Process(loadOptions, saveOptions); alat parsira HTML tablice i zapisuje CSV datoteku.

Primjer kôda (C#)

using Sheetize;

// Učitaj HTML dokument
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html ili MHtml izvor
};

// Definiraj postavke za CSV izlaz
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Izvrši konverziju
HtmlConverter.Process(loadOptions, saveOptions);

Savjeti i najbolje prakse

  • Struktura tablice – Provjerite da svaki <table> ima <thead> s <th> elementima za zaglavlja stupaca; inače će pretvarač prvi red tretirati kao podatke.
  • Podrška za MHTML – Ako je izvor MHtml arhiva, navedite putanju do .mht datoteke; pretvarač automatski izvlači ugrađeni HTML.

Kada koristiti HTML → CSV

  • Prikupljanje izvješća s web‑stranica koja su isporučena u obliku HTML tablica.
  • Pretvaranje sadržaja e‑knjiga (ePub, AZW3) koji sadrže tabularne podatke u CSV za analitiku.
  • Arhiviranje starinskih HTML nadzornih ploča u lagani format spreman za uvoz.

Dodatna literatura

 Hrvatski