HTML を CSV に変換する方法

HTML → CSV 変換ガイド

概要
HTML のテーブルや構造化されたマークアップを CSV ファイルに変換すれば、表形式のデータを抽出して分析に利用したり、スプレッドシートにインポートしたり、他システムへ渡すことができます。Sheetize HTML Converter for .NET は、HTML(または MHTML)から CSV への直接変換をサポートし、セルの値・データ型・基本的な書式を保持します。

対応フォーマット

  • 入力: Html または MHtml(`` 要素を含む任意の HTML ドキュメント)
  • 出力: Csv(カンマ区切り値)。その他に XlsxJsonXmlTsv なども利用可能です。

手順(ステップバイステップ)

  1. LoadOptions の作成 – 変換元となる HTML ファイルへのパスを指定します。
  2. SaveOptions の設定SaveFormatFileFormatType.Csv にし、必要に応じて区切り文字・エンコーディング・ヘッダー行の有無などを設定します。
  3. 変換実行HtmlConverter.Process(loadOptions, saveOptions) を呼び出すだけで、HTML テーブルを解析し CSV ファイルが生成されます。

サンプルコード(C#)

using Sheetize;

// HTML ドキュメントを読み込む
var loadOptions = new LoadOptions
{
    InputFile = @"D:\Report.html", // Html または MHtml ソース
};

// CSV 出力設定を定義
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\Report.csv",
};

// 変換を実行
HtmlConverter.Process(loadOptions, saveOptions);

コツ & ベストプラクティス

  • テーブル構造 – 各 <th>)があるか確認してください。ヘッダーが無い場合、最初の行はデータとして扱われます。
  • MHTML 対応 – ソースが MHtml アーカイブの場合は .mht ファイルを指定すれば、埋め込まれた HTML を自動的に抽出します。

HTML → CSV を使うシーン

  • HTML テーブル形式で提供されるウェブレポートのスクレイピング。
  • 電子書籍(ePub、AZW3 など)に含まれる表データを分析用に CSV 化。
  • 旧式の HTML ダッシュボードを軽量かつインポートしやすい形式で保存。

参考情報

 日本語