HTML을 CSV로 변환하는 방법
HTML을 CSV로 변환하는 가이드
개요
HTML 테이블이나 구조화된 마크업을 CSV 파일로 변환하면 표 형식 데이터를 분석용으로 추출하거나 스프레드시트에 가져오거나 downstream 시스템에 전달할 수 있습니다. .NET용 Sheetize HTML Converter는 HTML(또는 MHTML)에서 CSV로 직접 변환하면서 셀 값, 데이터 유형 및 기본 서식을 보존합니다.
지원 형식
- 입력:
Html또는MHtml(`` 요소를 포함한 모든 HTML 문서). - 출력:
Csv(콤마 구분값). 그 외 지원 대상은Xlsx,Json,Xml,Tsv등입니다.
단계별 워크플로우
- 로드 옵션 생성 – 변환기에 소스 HTML 파일을 지정합니다.
- 저장 옵션 구성 –
SaveFormat을FileFormatType.Csv로 설정하고, 필요에 따라 구분자, 인코딩, 헤더 행 포함 여부 등을 지정합니다. - 프로세스 실행 –
HtmlConverter.Process(loadOptions, saveOptions)를 호출합니다; 도구가 HTML 테이블을 파싱해 CSV 파일을 작성합니다.
샘플 코드 (C#)
using Sheetize;
// Load the HTML document
var loadOptions = new LoadOptions
{
InputFile = @"D:\\Report.html", // Html or MHtml source
};
// Define CSV output settings
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\\Report.csv",
};
// Perform the conversion
HtmlConverter.Process(loadOptions, saveOptions);팁 및 모범 사례
- 테이블 구조 – 각
에 컬럼 헤더용가 존재하도록 합니다; 그렇지 않으면 변환기가 첫 번째 행을 데이터로 처리합니다. - MHTML 지원 – 소스가
MHtml아카이브인 경우.mht파일 경로를 제공하면 변환기가 임베디드 HTML을 자동으로 추출합니다.
HTML → CSV를 사용할 때
- HTML 테이블 형태로 제공되는 웹 페이지 보고서를 스크래핑할 때.
- 표 형식 데이터를 포함하는 전자책(ePub, AZW3) 콘텐츠를 분석용 CSV로 변환할 때.
- 레거시 HTML 대시보드를 가볍고 가져오기 쉬운 포맷으로 아카이빙할 때.