HtmlImageExtractor

A powerful C# library that automatically extracts base64-encoded images from HTML content and converts them to file references. Perfect for content management systems, email processors, and web applications that need to handle embedded images efficiently.

🚀 Why Use HtmlImageExtractor?

The Problem

When working with rich HTML content (from WYSIWYG editors, email clients, or CMS systems), images are often embedded as base64 data URLs. This creates several issues:

Large HTML Files: Base64 encoding increases file size by ~33%
Poor Performance: Browsers can't cache inline images
Memory Issues: Large embedded images consume excessive memory
SEO Problems: Search engines can't index embedded images
CDN Limitations: Can't leverage CDN for image delivery

The Solution

HtmlImageExtractor automatically:

✅ Finds all base64-encoded images in HTML content
✅ Extracts them to separate files (PNG, JPEG, WebP)
✅ Updates HTML to reference external files
✅ Optimizes images for web delivery
✅ Preserves image quality and transparency
✅ Operates entirely in memory for performance

📦 Installation

# Package Manager Console
Install-Package HtmlImageExtractor

# .NET CLI
dotnet add package HtmlImageExtractor

# PackageReference (add to .csproj)
<PackageReference Include="HtmlImageExtractor" Version="1.0.0" />

🔧 Quick Start

Basic Usage

using HtmlImageExtractor;

var htmlContent = @"
    <div>
        <h1>My Blog Post</h1>
        <img src=""data:image/png;base64,iVBORw0KGgo..."" alt=""Screenshot"" />
        <p>Regular image: <img src=""/uploads/photo.jpg"" /></p>
    </div>";

// Extract images with default settings
var result = HtmlImageExtractor.ExtractImagesFromHtml(htmlContent);

Console.WriteLine($"Extracted {result.ImageFiles.Count} images");
Console.WriteLine($"Modified HTML: {result.ModifiedHtml}");

// Save extracted images to disk
foreach (var image in result.ImageFiles)
{
    await File.WriteAllBytesAsync($"images/{image.FileName}", image.FileData);
    Console.WriteLine($"Saved: {image.FileName} ({image.FileSizeBytes:N0} bytes)");
}

Advanced Usage

// Customize extraction settings
var result = HtmlImageExtractor.ExtractImagesFromHtml(
    htmlContent: htmlWithEmbeddedImages,
    baseUrl: "https://cdn.mysite.com/images",     // CDN URL
    imageFormat: ImageOutputFormat.WebP,          // Modern format
    imageNamePrefix: "blog_post_img"              // Custom naming
);

// Result HTML will contain:
// <img src="https://cdn.mysite.com/images/blog_post_img_1.webp" />

🎯 Real-World Use Cases

1. Content Management System (CMS)

public async Task<string> ProcessBlogPost(string htmlContent, int postId)
{
    // Extract images from rich text editor content
    var result = HtmlImageExtractor.ExtractImagesFromHtml(
        htmlContent,
        baseUrl: $"/content/posts/{postId}/images",
        imageFormat: ImageOutputFormat.WebP,
        imageNamePrefix: $"post_{postId}_img"
    );

    // Upload images to storage
    foreach (var image in result.ImageFiles)
    {
        await cloudStorage.UploadAsync($"posts/{postId}/{image.FileName}", image.FileData);
    }

    return result.ModifiedHtml;
}

2. Email Processing System

public async Task ProcessIncomingEmail(EmailMessage email)
{
    var result = HtmlImageExtractor.ExtractImagesFromHtml(
        email.HtmlBody,
        baseUrl: "https://attachments.mailservice.com",
        imageFormat: ImageOutputFormat.Jpeg
    );

    // Save images as email attachments
    foreach (var image in result.ImageFiles)
    {
        email.Attachments.Add(new Attachment(image.FileName, image.FileData));
    }

    // Store cleaned HTML
    email.HtmlBody = result.ModifiedHtml;
}

📊 API Reference