วิธีแปลง Html เป็น Csv

คู่มือแปลง HTML เป็น CSV

ภาพรวม
การแปลงตาราง HTML หรือมาร์กอัปที่มีโครงสร้างเป็น CSV ช่วยให้คุณดึงข้อมูลเชิงตารางเพื่อทำการวิเคราะห์, นำเข้าลงสเปรดชีต หรือส่งต่อให้ระบบอื่น ๆ ได้ง่ายขึ้น Sheetize HTML Converter สำหรับ .NET รองรับการแปลงโดยตรงจาก HTML (หรือ MHTML) ไปเป็น CSV พร้อมคงค่าของเซลล์, ชนิดข้อมูล, และรูปแบบพื้นฐานไว้

รูปแบบที่รองรับ

  • อินพุต: Html หรือ MHtml (ไฟล์ HTML ใด ๆ ที่มีองค์ประกอบ <table>)
  • เอาต์พุต: Csv (ค่าที่คั่นด้วยเครื่องหมายคอมม่า)  รูปแบบปลายทางอื่นที่รองรับได้แก่ Xlsx, Json, Xml, Tsv เป็นต้น

ขั้นตอนการทำงานแบบเป็นขั้นตอน

  1. สร้าง Load Options – ระบุไฟล์ HTML ต้นทางให้กับคอนเวอร์เตอร์
  2. กำหนด Save Options – ตั้งค่า SaveFormat เป็น FileFormatType.Csv พร้อมกำหนดตัวคั่น, การเข้ารหัส, หรือว่าต้องการรวมแถวหัวตารางหรือไม่ (ตามต้องการ)
  3. รันกระบวนการ – เรียก HtmlConverter.Process(loadOptions, saveOptions); เครื่องมือจะทำการพาร์สตาราง HTML และเขียนไฟล์ CSV

ตัวอย่างโค้ด (C#)

using Sheetize;

// โหลดเอกสาร HTML
var loadOptions = new LoadOptions
{
    InputFile = @"D:\\Report.html", // แหล่งที่มาของ Html หรือ MHtml
};

// กำหนดการบันทึกเป็น CSV
var saveOptions = new HtmlSaveOptions
{
    SaveFormat = FileFormatType.Csv,
    OutputFile = @"D:\\Report.csv",
};

// ทำการแปลง
HtmlConverter.Process(loadOptions, saveOptions);

เคล็ดลับ & แนวทางปฏิบัติที่ดีที่สุด

  • โครงสร้างตาราง – ควรให้แต่ละ <table> มี <thead> สำหรับหัวคอลัมน์; ถ้าไม่มี ตัวแปลงจะถือแถวแรกเป็นข้อมูล
  • รองรับ MHTML – หากแหล่งเป็นไฟล์ MHtml ให้ระบุพาธไฟล์ .mht คอนเวอร์เตอร์จะดึง HTML ที่ฝังอยู่โดยอัตโนมัติ

เมื่อใดที่ควรใช้ HTML → CSV

  • ดึงข้อมูลรายงานจากหน้าเว็บที่ให้ผลลัพธ์เป็นตาราง HTML
  • แปลงเนื้อหา e‑book (ePub, AZW3) ที่มีตารางข้อมูลเป็น CSV เพื่อการวิเคราะห์
  • เก็บสำรองแดชบอร์ด HTML เก่าเป็นรูปแบบที่เบาและพร้อมนำเข้าใช้งาน

อ่านเพิ่มเติม

 แบบไทย