一个小工具,实现doc > html > pdf > image的逻辑。
使用到的技术:
- freemarker
- itextpdf
- pdfbox
步骤:
- 将提供的word文档格式合同文件,另存为html文件(注意用office打开,不用其他办公软件,选择文件->另存为,保存类型选“筛选过的网页(.htm;.html)”)
- 全局搜索文本
EN-US
,如果发现有lang=EN-US
,则全局搜索删除文本lang=EN-US
- 全局正则匹配替换
<span >(\d+)</span>
->$1
- 全局正则匹配替换
<span\n>(\d+)</span>
->$1
- 在合同需要填写的地方使用变量,如:
${userName}
- 文件改为ftl后缀
- 如果报错了,就按照提示修改html文件中不符合规则的标签。 (程序对html校验比较严格,每个标签都必须要有对应的结束符,根据提示修改几个一般就可以了)