UB-Mannheim · aborel · Feb 9, 2025
diff --git a/screenshots/Zotero-OCR-Preferences.png b/screenshots/Zotero-OCR-Preferences.png
diff --git a/src/chrome/content/preferences.xul b/src/chrome/content/preferences.xul
@@ -65,7 +65,7 @@
               <label value="Maximum number of pages for which an individual HTML attachment is created:"/>
               <textbox id="pref-zoteroocr-max-html-pages" preference="pref-zoteroocr-max-html-pages" width="20"/>
             </hbox>
-            <checkbox preference="pref-zoteroocr-output-png" label="Save the intermediate PNGs as well in the folder"/>
+            <checkbox preference="pref-zoteroocr-output-png" label="Save the intermediate images as well in the folder"/>
             <checkbox preference="pref-zoteroocr-output-as-copy-attachment" label="Import the resulting PDF as a copy instead of as a file link"/>
         </groupbox>
     </prefpane>

diff --git a/src/chrome/content/zoteroocr.js b/src/chrome/content/zoteroocr.js
@@ -133,6 +133,26 @@ Zotero.OCR = new function() {
 			let ocrbase = Zotero.Prefs.get("zoteroocr.overwritePDF") ? base : base + '.ocr';
 			// TODO filter out PDFs which have already a text layer
 
+			// build the pdftoppm arguments based on hidden preferences:
+            // => will produce a PDF output with reasonable size and image quality
+            // File format: JPEG by default instead of PNG
+            // JPEG quaility 70/100 (pdftoppm default is 75)
+            // JPEG Hufmann tables optimization: yes (pdftoppm default is no)
+            // Use progressive JPEF: yes (pdftoppm default is no)
+            let imageFormat = Zotero.Prefs.get("zoteroocr.imageFormat");
+            let pdftoppmCmdArgs;
+            if (imageFormat == "jpg" || imageFormat == "jpeg") {
+                imageFormat = "jpg";
+                let jpegQuality = Zotero.Prefs.get("zoteroocr.jpegQuality");
+                let jpegProgressive = Zotero.Prefs.get("zoteroocr.jpegProgressive");
+                let jpegOptimization = Zotero.Prefs.get("zoteroocr.jpegOptimization");
+                pdftoppmCmdArgs = ['-jpeg', '-jpegopt', 'quality='+jpegQuality+',progressive='+jpegProgressive+',optimize='+jpegOptimization, '-r', Zotero.Prefs.get("zoteroocr.outputDPI"), pdf, dir + '/page'];
+
+            } else {
+                imageFormat = "png";
+                pdftoppmCmdArgs = ['-png', '-r', Zotero.Prefs.get("zoteroocr.outputDPI"), pdf, dir + '/page'];
+            }
+
 			// extract images from PDF
 			let imageList = OS.Path.join(dir, 'image-list.txt');
 			if (!(yield OS.File.exists(imageList))) {
@@ -141,7 +161,6 @@ Zotero.OCR = new function() {
 					Zotero.debug("Running " + pdfinfo + ' ' + pdfinfoCmdArgs.join(' '));
 					yield Zotero.Utilities.Internal.exec(pdfinfo, pdfinfoCmdArgs);
 
-					let pdftoppmCmdArgs = ['-png', '-r', Zotero.Prefs.get("zoteroocr.outputDPI"), pdf, dir + '/page'];
 					Zotero.debug("Running " + pdftoppm + ' ' + pdftoppmCmdArgs.join(' '));
 					yield Zotero.Utilities.Internal.exec(pdftoppm, pdftoppmCmdArgs);
 				}

diff --git a/src/defaults/preferences/defaults.js b/src/defaults/preferences/defaults.js
@@ -9,3 +9,9 @@ pref("extensions.zotero.zoteroocr.maximumPagesAsHtml", "5");
 pref("extensions.zotero.zoteroocr.outputDPI", "300");
 pref("extensions.zotero.zoteroocr.PSMMode", "3");
 pref("extensions.zotero.zoteroocr.outputAsCopyAttachment", true);
+// Hidden pdftoppm preferences
+pref("extensions.zotero.zoteroocr.imageFormat", "jpg");
+pref("extensions.zotero.zoteroocr.jpegQuality", "70");
+pref("extensions.zotero.zoteroocr.jpegProgressive", "y");
+pref("extensions.zotero.zoteroocr.jpegOptimization", "y");
+
diff --git a/src/prefs.js b/src/prefs.js
@@ -9,3 +9,9 @@ pref("extensions.zotero.zoteroocr.maximumPagesAsHtml", "5");
 pref("extensions.zotero.zoteroocr.outputDPI", "300");
 pref("extensions.zotero.zoteroocr.PSMMode", "3");
 pref("extensions.zotero.zoteroocr.outputAsCopyAttachment", true);
+// Hidden pdftoppm preferences
+pref("extensions.zotero.zoteroocr.imageFormat", "jpg");
+pref("extensions.zotero.zoteroocr.jpegQuality", "70");
+pref("extensions.zotero.zoteroocr.jpegProgressive", "y");
+pref("extensions.zotero.zoteroocr.jpegOptimization", "y");
+
diff --git a/src/prefs.xhtml b/src/prefs.xhtml
@@ -29,7 +29,7 @@
               <label value="Maximum number of pages for which an individual HTML attachment is created:"/>
               <html:input type="text" id="pref-zoteroocr-max-html-pages" preference="extensions.zotero.zoteroocr.maximumPagesAsHtml" width="20"/>
             </hbox>
-            <checkbox preference="extensions.zotero.zoteroocr.outputPNG" label="Save the intermediate PNGs as well in the folder"/>
+            <checkbox preference="extensions.zotero.zoteroocr.outputPNG" label="Save the intermediate images as well in the folder"/>
             <checkbox preference="extensions.zotero.zoteroocr.outputAsCopyAttachment" label="Import the resulting PDF as a copy instead of as a file link"/>
         </groupbox>
     </vbox>
diff --git a/src/zotero-ocr.js b/src/zotero-ocr.js
@@ -171,11 +171,30 @@ ZoteroOCR = {
             let ocrbase = Zotero.Prefs.get("zoteroocr.overwritePDF") ? base : base + '.ocr';
             // TODO filter out PDFs which have already a text layer
 
+            // build the pdftoppm arguments based on hidden preferences:
+            // => will produce a PDF output with reasonable size and image quality
+            // File format: JPEG by default instead of PNG
+            // JPEG quaility 70/100 (pdftoppm default is 75)
+            // JPEG Hufmann tables optimization: yes (pdftoppm default is no)
+            // Use progressive JPEF: yes (pdftoppm default is no)
+            let imageFormat = Zotero.Prefs.get("zoteroocr.imageFormat");
+            let pdftoppmCmdArgs;
+            if (imageFormat == "jpg" || imageFormat == "jpeg") {
+                imageFormat = "jpg";
+                let jpegQuality = Zotero.Prefs.get("zoteroocr.jpegQuality");
+                let jpegProgressive = Zotero.Prefs.get("zoteroocr.jpegProgressive");
+                let jpegOptimization = Zotero.Prefs.get("zoteroocr.jpegOptimization");
+                pdftoppmCmdArgs = ['-jpeg', '-jpegopt', 'quality='+jpegQuality+',progressive='+jpegProgressive+',optimize='+jpegOptimization, '-r', Zotero.Prefs.get("zoteroocr.outputDPI"), pdf, dir + '/page'];
+
+            } else {
+                imageFormat = "png";
+                pdftoppmCmdArgs = ['-png', '-r', Zotero.Prefs.get("zoteroocr.outputDPI"), pdf, dir + '/page'];
+            }
+
             // extract images from PDF
             let imageList = PathUtils.join(dir, 'image-list.txt');
             if (!(await IOUtils.exists(imageList))) {
                 try {
-                    let pdftoppmCmdArgs = ['-png', '-r', Zotero.Prefs.get("zoteroocr.outputDPI"), pdf, dir + '/page'];
                     Zotero.debug("Running " + pdftoppm + ' ' + pdftoppmCmdArgs.join(' '));
                     await Zotero.Utilities.Internal.exec(pdftoppm, pdftoppmCmdArgs);
                 }
@@ -189,8 +208,14 @@ ZoteroOCR = {
                     (entries) => {
                         for (const entry of entries) {
                             Zotero.debug('IOutils.getChildren() ran', entry);
-                            if (entry.match(/-\d+\.png$/)) {
-                                        imageListArray.push(entry);
+                            if (imageFormat == "jpg") {
+                                if (entry.match(/-\d+\.jpg$/)) {
+                                    imageListArray.push(entry);
+                                }
+                            } else {
+                                if (entry.match(/-\d+\.png$/)) {
+                                    imageListArray.push(entry);
+                                }
                             }
                         }
                         Zotero.debug('Files are now:')