HTML을 CSV로 변환하는 방법

HTML을 CSV로 변환하는 가이드

개요
HTML 테이블이나 구조화된 마크업을 CSV 파일로 변환하면 표 형식 데이터를 분석용으로 추출하거나 스프레드시트에 가져오거나 downstream 시스템에 전달할 수 있습니다. .NET용 Sheetize HTML Converter는 HTML(또는 MHTML)에서 CSV로 직접 변환하면서 셀 값, 데이터 유형 및 기본 서식을 보존합니다.

지원 형식

  • 입력: Html 또는 MHtml (`` 요소를 포함한 모든 HTML 문서).
  • 출력: Csv (콤마 구분값). 그 외 지원 대상은 Xlsx, Json, Xml, Tsv 등입니다.

단계별 워크플로우

  1. 로드 옵션 생성 – 변환기에 소스 HTML 파일을 지정합니다.
  2. 저장 옵션 구성SaveFormatFileFormatType.Csv로 설정하고, 필요에 따라 구분자, 인코딩, 헤더 행 포함 여부 등을 지정합니다.
  3. 프로세스 실행HtmlConverter.Process(loadOptions, saveOptions)를 호출합니다; 도구가 HTML 테이블을 파싱해 CSV 파일을 작성합니다.

샘플 코드 (C#)

using Sheetize;

// Load the HTML document
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // Html or MHtml source
};

 // Define CSV output settings
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// Perform the conversion
HtmlConverter.Process(loadOptions, saveOptions);

팁 및 모범 사례

  • 테이블 구조 – 각 에 컬럼 헤더용 가 존재하도록 합니다; 그렇지 않으면 변환기가 첫 번째 행을 데이터로 처리합니다.
  • MHTML 지원 – 소스가 MHtml 아카이브인 경우 .mht 파일 경로를 제공하면 변환기가 임베디드 HTML을 자동으로 추출합니다.

HTML → CSV를 사용할 때

  • HTML 테이블 형태로 제공되는 웹 페이지 보고서를 스크래핑할 때.
  • 표 형식 데이터를 포함하는 전자책(ePub, AZW3) 콘텐츠를 분석용 CSV로 변환할 때.
  • 레거시 HTML 대시보드를 가볍고 가져오기 쉬운 포맷으로 아카이빙할 때.

추가 자료

 한국어