前言:

在工作当中,遇到了需要把HTML页面转化为PDF文档,有很多中实现,如下进行一个对比,大家个借鉴去进行使用

各实现对比表

于Windows平台进行测试:

此博客仅基于IText和基于WKHtmlToPdf来介绍并使用,均为博主亲测

其他两个可自行研究哈

1、基于IText(推荐)

iText 是业界使用最为广泛的创建 PDF 的框架,从 iText 5 升级到 iText 7 后,功能模块的划分更加清晰,两者在使用上,有较为明显的区别。

此处就不进行区别的赘述了,直接上代码,本次使用的是iText7

1.1、引入依赖

注意两个依赖的版本对应,进入html2pdf的pom文件就能看到itext的版本,font-asian的版本最低也要是html2pdf中itext7的版本。

<!-- itext7html转pdf  -->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>html2pdf</artifactId>
    <version>3.0.2</version>
</dependency>
<!-- 中文字体支持 -->
<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>font-asian</artifactId>
    <version>7.1.13</version>
</dependency>

1.2、水印和页码

导出pdf一般是需要水印和页码的,我们只要实现com.itextpdf.kernel.events.IEventHandler接口就可以了

 

水印

水印代码
/**
 * 水印
 */
public class WaterMarkEventHandler implements IEventHandler {

    /**
     * 水印内容
     */
    private String waterMarkContent;

    /**
     * 一页中有几列水印
     */
    private int waterMarkX;

    /**
     * 一页中每列有多少水印
     */
    private int waterMarkY;

    public WaterMarkEventHandler(String waterMarkContent) {
        this(waterMarkContent, 5, 5);
    }

    public WaterMarkEventHandler(String waterMarkContent, int waterMarkX, int waterMarkY) {
        this.waterMarkContent = waterMarkContent;
        this.waterMarkX = waterMarkX;
        this.waterMarkY = waterMarkY;
    }

    @Override
    public void handleEvent(Event event) {

        PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;
        PdfDocument document = documentEvent.getDocument();
        PdfPage page = documentEvent.getPage();
        Rectangle pageSize = page.getPageSize();

        PdfFont pdfFont = null;
        try {
            pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
        } catch (IOException e) {
            e.printStackTrace();
        }

        PdfCanvas pdfCanvas = new PdfCanvas(page.newContentStreamAfter(), page.getResources(), document);

        Paragraph waterMark = new Paragraph(waterMarkContent).setOpacity(0.5f);
        Canvas canvas = new Canvas(pdfCanvas, pageSize)
            .setFontColor(WebColors.getRGBColor("lightgray"))
            .setFontSize(16)
            .setFont(pdfFont);

        for (int i = 0; i < waterMarkX; i++) {
            for (int j = 0; j < waterMarkY; j++) {
                canvas.showTextAligned(waterMark, (150 + i * 300), (160 + j * 150), document.getNumberOfPages(), TextAlignment.CENTER, VerticalAlignment.BOTTOM, 120);
            }
        }
        canvas.close();
    }
}

 页码

页码代码
/**
 * 页码
 */
public class PageEventHandler implements IEventHandler {

    @Override
    public void handleEvent(Event event) {
        PdfDocumentEvent documentEvent = (PdfDocumentEvent) event;
        PdfDocument document = documentEvent.getDocument();
        PdfPage page = documentEvent.getPage();
        Rectangle pageSize = page.getPageSize();

        PdfFont pdfFont = null;
        try {
            pdfFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
        } catch (IOException e) {
            e.printStackTrace();
        }

        PdfCanvas pdfCanvas = new PdfCanvas(page.getLastContentStream(), page.getResources(), document);
        Canvas canvas = new Canvas(pdfCanvas, pageSize);
        float  x = (pageSize.getLeft() + pageSize.getRight()) / 2;
        float  y = pageSize.getBottom() + 15;
        Paragraph paragraph = new Paragraph("第" + document.getPageNumber(page) + "页/共" + document.getNumberOfPages() + "页")
            .setFontSize(10)
            .setFont(pdfFont);
        canvas.showTextAligned(paragraph, x, y, TextAlignment.CENTER);
        canvas.close();
    }
}

 1.3、转换工具类

转换工具类
/**
 * Itext7转换工具类
 */
@Slf4j
public class HtmlToPdfUtils {

    /**
     * html转pdf
     *
     * @param inputStream  输入流
     * @param waterMark    水印
     * @param fontPath     字体路径,ttc后缀的字体需要添加<b>,0<b/>
     * @param outputStream 输出流
     * @date : 2021/1/15 14:07
     */
    public static void convertToPdf(InputStream inputStream, String waterMark, String fontPath, OutputStream outputStream) throws IOException {

        PdfWriter pdfWriter = new PdfWriter(outputStream);
        PdfDocument pdfDocument = new PdfDocument(pdfWriter);
        //设置为A4大小
        pdfDocument.setDefaultPageSize(PageSize.A4);
        //添加水印
        pdfDocument.addEventHandler(PdfDocumentEvent.END_PAGE, new WaterMarkEventHandler(waterMark));

        //添加中文字体支持
        ConverterProperties properties = new ConverterProperties();
        FontProvider fontProvider = new FontProvider();

        //        设置字体
        /*PdfFont sysFont = PdfFontFactory.createFont("STSongStd-Light", "UniGB-UCS2-H", false);
        fontProvider.addFont(sysFont.getFontProgram(), "UniGB-UCS2-H");*/

        //添加自定义字体,例如微软雅黑
        if (StringUtils.isNotBlank(fontPath)) {
            PdfFont microsoft = PdfFontFactory.createFont(fontPath, PdfEncodings.IDENTITY_H, false);
            fontProvider.addFont(microsoft.getFontProgram(), PdfEncodings.IDENTITY_H);
        }

        properties.setFontProvider(fontProvider);
        //        读取Html文件流,查找出当中的&nbsp;或出现类似的符号空格字符
        inputStream = readInputStrem(inputStream);
        if (inputStream != null) {
            //        生成pdf文档
            HtmlConverter.convertToPdf(inputStream, pdfDocument, properties);
            pdfWriter.close();
            pdfDocument.close();
            return;
        } else {
            log.error("转换失败!");
        }
    }

    /**
     * 读取HTML 流文件,并查询当中的&nbsp;或类似符号直接替换为空格
     *
     * @param inputStream
     * @return
     */
    private static InputStream readInputStrem(InputStream inputStream) {
        // 定义一些特殊字符的正则表达式 如:
        String regEx_special = "\\&[a-zA-Z]{1,10};";
        try {
            //<1>创建字节数组输出流,用来输出读取到的内容
            ByteArrayOutputStream baos = new ByteArrayOutputStream();
            //<2>创建缓存大小
            byte[] buffer = new byte[1024]; // 1KB
            //每次读取到内容的长度
            int len = -1;
            //<3>开始读取输入流中的内容
            while ((len = inputStream.read(buffer)) != -1) { //当等于-1说明没有数据可以读取了
                baos.write(buffer, 0, len);   //把读取到的内容写到输出流中
            }
            //<4> 把字节数组转换为字符串
            String content = baos.toString();
            //<5>关闭输入流和输出流
            //            inputStream.close();
            baos.close();
            //            log.info("读取的内容:{}", content);
            //            判断HTML内容是否具有HTML的特殊字符标记
            Pattern compile = Pattern.compile(regEx_special, Pattern.CASE_INSENSITIVE);
            Matcher matcher = compile.matcher(content);
            String replaceAll = matcher.replaceAll("");
            //            log.info("替换后的内容:{}", replaceAll);
            //            将字符串转化为输入流返回
            InputStream stringStream = getStringStream(replaceAll);
            //<6>返回结果
            return stringStream;
        } catch (Exception e) {
            e.printStackTrace();
            log.error("错误信息:{}", e.getMessage());
            return null;
        }
    }

    /**
     * 将一个字符串转化为输入流
     * @param sInputString 字符串
     * @return
     */
    public static InputStream getStringStream(String sInputString) {
        if (sInputString != null && !sInputString.trim().equals("")) {
            try {
                ByteArrayInputStream tInputStringStream = new ByteArrayInputStream(sInputString.getBytes());
                return tInputStringStream;
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return null;
    }

}

1.4、测试类

测试代码
@Slf4j
public class Test {

    public static void main(String[] args) throws IOException {
        long startTime = System.currentTimeMillis();
        //       html文件所在相对路径
        String htmlFile = "src/main/resources/html/index2.html";
        //       pdf文件存储相对路径
        String pdfFile = "src/main/resources/x6.pdf";
        //        自定义水印
        String waterMarkText =  "";
        InputStream inputStream = new FileInputStream(htmlFile);
        OutputStream outputStream = new FileOutputStream(pdfFile);
        //微软雅黑在windows系统里的位置如下,linux系统直接拷贝该文件放在linux目录下即可
        //        String fontPath = "src/main/resources/font/STHeiti Light.ttc,0";
        String fontPath = "src/main/resources/font/simsun.ttc,0";
        HtmlToPdfUtils.convertToPdf(inputStream, waterMarkText, fontPath, outputStream);
        log.info("转换结束,耗时:{}ms",System.currentTimeMillis()-startTime);
    }
}

1.5、注意事项

  1. 页面中不能出现html的特殊字符标记,如&nbsp;等(代码中已经处理,所有都替换为空)可忽略
  2. 页面中的图片路径,必须是在项目根路径后面的所有地址(相对路径)例如:
  3. 页面中的标签要符合规范,必须都具有结束标签等

展示:

HTML

PDF

 

2、基于WKHtmlToPdf

wkhtmltopdf是一个用webkit网页渲染引擎开发的用来将html转成 pdf的工具,可跟多种脚本语言进行集成来转换文档,有windows、linux等平台版本。

Wkhtmltopdf可直接把浏览器中浏览的网页转换成一个pdf,他是一个把html页面转换成pdf的软件(需要安装在服务器上)。使用时可通过java代码调用cmd指令完成网页转换为pdf的功能。

下载wkhtmltopdf官网地址:https://wkhtmltopdf.org/downloads.html

蓝奏云地址:https://aerfazhe.lanzouw.com/b01pc4uib
密码:h01i

2.1、安装

2.1.1、Windows

功能测试:

在安装目录 bin 执行如下命令生成 PDF

wkhtmltopdf.exe https://www.baidu.com/ C:\Users\wk\Desktop\1\1.pdf

效果图:

为了方便使用:可自行配置全局环境变量哈

注意事项:

如果是转换本地HTML页面,可能会出现图片禁止访问类型的错误,可加上以下命令进行转换,这是因为wkhtmltopdf升级版本之后默认禁止了访问

# 允许访问
--enable-local-file-access

整合后命令:

wkhtmltopdf.exe --enable-local-file-access D:\1.html C:\Users\wk\Desktop\1\1.pdf

 2.1.2、Linux

安装

#  -ivh 安装
rpm -ivh wkhtmltox-0.12.6-1.centos7.x86_64.rpm

配置环境变量

vim /etc/profile

在最后一行加 export PATH=$DIR/wkhtmltox/bin:$PATH 保存退出、

# 刷新环境
source /etc/profile

功能测试

运行 wkhtmltopdf

报:以下错误

报wkhtmltopdf: error while loading shared libraries: libXrender.so.1: cannot open shared object file: No such file or directory这个错,请运行 apt-get/yum install libXrender*

运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libfontconfig.so.1: cannot open shared object file: No such file or directory这个错,请运行apt-get/yum install libfontconfig*

运行 wkhtmltopdf 报wkhtmltopdf: error while loading shared libraries: libXext.so.6: cannot open shared object file: No such file or directory这个错,请运行 apt-get/yum install libXext*

总的来说就是缺少依赖,下载安装依赖

yum install xorg-x11-fonts-75dpi.noarch -g

yum install xorg-x11-fonts-Type1.noarch -g

yum install icu.x86_64 -g

yum install libjpeg -g

yum install libpng -g

优点:

支持中文、图片、CSS等

缺点:

有时对于html文件的转化可能比较慢,对于url的转化速度较快。存在失真情况

2.2、代码实现

2.2.1、wkhtmltopdf工具安装bin地址

wkhtmltopdf工具安装bin地址
public class Consts {

    /**
     * 0.12.6版本默认禁用本地文件访问(图片等)
     * cmd 命令 加上以下命令参数即可
     * 表示启动本地文件访问
     */
    private final static String PARAMETER = "--enable-local-file-access";

    /**
     * 允许本地文件访问
     */
    private final static String ALLOW = "--allow";

    /**
     * wkhtmltopdf在系统中的路径(全路径)
     */
    public final static String CONVERSION_PLUGSTOOL_PATH_WINDOW = "D:/Software/Software-1/JAVA/wkhtmltopdf/bin/wkhtmltopdf.exe "+PARAMETER;


    /**
     * wkhtmltopdf在Linux系统中的路径
     */
    public final static String CONVERSION_PLUGSTOOL_PATH_LINUX = " "+PARAMETER;

}

2.2.2、转换工具类

转换工具类
/**
 * wkhtmltopdf 转换工具类
 */
@Slf4j
public class HtmlToPdfUtil {

    /**
     * wkhtmltopdf在系统中的路径
     */
    private static String toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_WINDOW;

    /**
     * html转pdf
     *
     * @param srcPath  html路径,可以是硬盘上的路径,也可以是网络路径
     * @param destPath pdf保存路径
     * @return 转换成功返回true
     */
    public static boolean convert(String srcPath, String destPath) {

        log.info("convert.req srcPath={} ,destPath={}",srcPath,destPath);
        File file = new File(destPath);
        File parent = file.getParentFile();
        // 如果pdf保存路径不存在,则创建路径
        if (!parent.exists()) {
            parent.mkdirs();
        }
        StringBuilder cmd = new StringBuilder();
        String property = System.getProperty("os.name");
        log.info("当前运行系统:{}",property);
        if (property.indexOf("Windows") == -1) {
            // 非windows 系统
            toPdfTool = Consts.CONVERSION_PLUGSTOOL_PATH_LINUX;
        }
        cmd.append(toPdfTool);
        cmd.append(" ");
        cmd.append(" \"");
        cmd.append(srcPath);
        cmd.append("\" ");
        cmd.append(" ");
        cmd.append(destPath);

        System.out.println(cmd.toString());
        boolean result = true;
        try {
            //            打开系统命令
            Process proc = Runtime.getRuntime().exec(cmd.toString());
            HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream());
            HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream());
            error.start();
            output.start();
            proc.waitFor();
        } catch (Exception e) {
            result = false;
            e.printStackTrace();
        }

        return result;
    }

    public static void main(String[] args) {
        long startTime = System.currentTimeMillis();
        log.info("generate pdf start ... ");
        // 源HTML页面地址或路径
        String srcPath = "src/main/resources/html/index2.html";
        // pdf文档存储路径
        String destPath = "src/main/resources/x5.pdf";
        HtmlToPdfUtil.convert(srcPath, destPath);
        log.info("Time-consuming to generate pdf time(ms)={}",System.currentTimeMillis()-startTime);
    }
}

2.2.3、开启线程执行

线程执行类
/**
 * 线程执行
 */
public class HtmlToPdfInterceptor extends Thread {

    private InputStream is;

    protected HtmlToPdfInterceptor(InputStream is){
        this.is = is;
    }

    @Override
    public void run(){
        try{
            InputStreamReader isr = new InputStreamReader(is, StandardCharsets.UTF_8);
            BufferedReader br = new BufferedReader(isr);
            String line ;
            while ((line = br.readLine()) != null) {
                System.out.println(line); //输出内容
            }
        }catch (IOException e){
            e.printStackTrace();
        }
    }
}

3、Spire.Doc系列(扩展)

将文档从一种格式转换为另一种格式是Spire.Doc的主要功能之一。这种转换只不过是加载和保存操作的组合。因此,使用Spire.DOC可以将文档从任何受支持的加载格式转换为任何受支持的保存格式。

注意:spire.doc分为商业版和免费版,免费版只支持转换前3页,本次示例采用免费版演示

3.1、pom.xml引入Maven仓库路径和依赖

Maven仓库路径

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <url>http://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>

引入依赖

<!--    免费版,只支持前三页转化 -->
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.doc.free</artifactId>
    <version>3.9.0</version>
</dependency>

3.2、转换工具类

spire转换工具类
/**
 * @Author:wk
 * @Create:2022/4/19/18:04
 * @Description:html转换pdf
 * @Version:1.0
 */
public class Html3Pdf {

    public static void main(String[] args) throws IOException {

    }

    /**
     * 免费版,只支持前三页转换
     * @param inputHtml HTML地址
     * @param pdfName pdf保存地址
     * @throws IOException
     */
    public void  spireDoc(String inputHtml,String pdfName) throws IOException {
        inputHtml = "src/main/resources/html/index2.html";
        //新建Document对象
        Document doc = new Document();
        //添加section
        Section sec = doc.addSection();

//        将html转化为流字符串
        String htmlText = readTextFromFile(inputHtml);
        //添加段落并写入HTML文本
        sec.addParagraph().appendHTML(htmlText);
        pdfName = "src/main/resources/x4.pdf";
        //将文档另存为PDF
        doc.saveToFile(pdfName, FileFormat.PDF);
        doc.dispose();
    }


    /**
     * 将该路径的HTML页面转化为流字符串
     * @param fileName 文件地址
     * @return
     * @throws IOException
     */
    public static String readTextFromFile(String fileName) throws IOException {
        StringBuffer sb = new StringBuffer();
        BufferedReader br = new BufferedReader(new FileReader(fileName));
        String content;
        while ((content = br.readLine()) != null) {
            sb.append(content);
        }
        return sb.toString();
    }
}

至此就完结啦,可自行根据需求进行选择哦,测试效果和上面截图一样,此处就不进行展示啦