HTML を CSV に変換する方法
HTML → CSV 変換ガイド
概要
HTML のテーブルや構造化されたマークアップを CSV ファイルに変換すれば、表形式のデータを抽出して分析に利用したり、スプレッドシートにインポートしたり、他システムへ渡すことができます。Sheetize HTML Converter for .NET は、HTML(または MHTML)から CSV への直接変換をサポートし、セルの値・データ型・基本的な書式を保持します。
対応フォーマット
- 入力:
HtmlまたはMHtml(`` 要素を含む任意の HTML ドキュメント) - 出力:
Csv(カンマ区切り値)。その他にXlsx、Json、Xml、Tsvなども利用可能です。
手順(ステップバイステップ)
- LoadOptions の作成 – 変換元となる HTML ファイルへのパスを指定します。
- SaveOptions の設定 –
SaveFormatをFileFormatType.Csvにし、必要に応じて区切り文字・エンコーディング・ヘッダー行の有無などを設定します。 - 変換実行 –
HtmlConverter.Process(loadOptions, saveOptions)を呼び出すだけで、HTML テーブルを解析し CSV ファイルが生成されます。
サンプルコード(C#)
using Sheetize;
// HTML ドキュメントを読み込む
var loadOptions = new LoadOptions
{
InputFile = @"D:\Report.html", // Html または MHtml ソース
};
// CSV 出力設定を定義
var saveOptions = new HtmlSaveOptions
{
SaveFormat = FileFormatType.Csv,
OutputFile = @"D:\Report.csv",
};
// 変換を実行
HtmlConverter.Process(loadOptions, saveOptions);コツ & ベストプラクティス
- テーブル構造 – 各
に(<th>)があるか確認してください。ヘッダーが無い場合、最初の行はデータとして扱われます。 - MHTML 対応 – ソースが
MHtmlアーカイブの場合は.mhtファイルを指定すれば、埋め込まれた HTML を自動的に抽出します。
HTML → CSV を使うシーン
- HTML テーブル形式で提供されるウェブレポートのスクレイピング。
- 電子書籍(ePub、AZW3 など)に含まれる表データを分析用に CSV 化。
- 旧式の HTML ダッシュボードを軽量かつインポートしやすい形式で保存。