hpi-dhc
diff --git a/‎pom.xml
+20 b/‎pom.xml
+20
diff --git a/‎resources/gs2017DocsJson.zip
856 KB b/‎resources/gs2017DocsJson.zip
856 KB
diff --git a/‎scripts/doc2VecInferer.py
+36 b/‎scripts/doc2VecInferer.py
+36
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/Document.java
+30-2 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/Document.java
+30-2
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/InstancePreparator.java
+5 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/InstancePreparator.java
+5
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/apps/CrossVal.java
+63 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/apps/CrossVal.java
+63
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/Doc2VecPipe.java
+52 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/Doc2VecPipe.java
+52
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/HasDiseasePipe.java
+1-1 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/HasDiseasePipe.java
+1-1
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/HasKeywordPipe.java
+29 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/HasKeywordPipe.java
+29
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/HasPubTypePipe.java
+21 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/HasPubTypePipe.java
+21
diff --git a/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/TopicModelPipe.java
+63 b/‎src/main/java/at/medunigraz/imi/bst/pmclassifier/featurepipes/TopicModelPipe.java
+63
@@ -153,6 +153,26 @@
 
     <dependencies>
         <dependency>
+            <groupId>ch.qos.logback</groupId>
+            <artifactId>logback-classic</artifactId>
+            <version>1.2.3</version>
+        </dependency>
+        <dependency>
+            <groupId>de.julielab</groupId>
+            <artifactId>jcore-topic-indexing-ae</artifactId>
+            <version>2.3.0-SNAPSHOT</version>
+            <exclusions>
+                <exclusion>
+                    <groupId>commons-beanutils</groupId>
+                    <artifactId>commons-beanutils-core</artifactId>
+                </exclusion>
+            </exclusions>
+        </dependency>
+        <dependency>
+            <groupId>de.julielab</groupId>
+            <artifactId>java-stdio-ipc</artifactId>
+            <version>1.0.0-SNAPSHOT</version>
+        </dependency><dependency>
             <groupId>com.wcohen</groupId>
             <artifactId>com.wcohen.secondstring</artifactId>
             <version>0.1</version>
 
@@ -0,0 +1,36 @@
+import os
+import sys
+import zipfile
+import gzip
+from struct import *
+
+import gensim
+from gensim.test.utils import common_texts
+from gensim.models.doc2vec import Doc2Vec, TaggedDocument
+
+import time
+
+def infervector(text):
+	tokens = list(gensim.utils.tokenize(text, lower=True))
+	return model.infer_vector(tokens)
+
+print("Reading doc2vec model...", file=sys.stderr)
+model = Doc2Vec.load(sys.argv[1])
+vectorSize = model.vector_size
+
+print("Waiting for input on STDIN, one text document batch per line", file=sys.stderr)
+for line in sys.stdin:
+	alltime = time.time()
+	if line.strip() == "quit":
+		sys.exit(0)
+	classifytime = time.time()
+	vector = infervector(line)
+	classifytime = time.time() - classifytime
+	bytes = pack('>%sd' % len(vector), *vector)
+	sys.stdout.buffer.write(pack('>i', len(bytes)))
+	sys.stdout.buffer.write(bytes)
+	print(end='')
+	alltime = time.time() - alltime
+
+	#print("Timing: vector inference time: ", classifytime, file=sys.stderr)
+	#print("Timing: allover time: ", alltime, file=sys.stderr)
@@ -1,5 +1,6 @@
 package at.medunigraz.imi.bst.pmclassifier;
 
+import com.fasterxml.jackson.annotation.JsonIgnore;
 import com.fasterxml.jackson.annotation.JsonProperty;
 
 import java.util.List;
@@ -14,7 +15,36 @@ public class Document {
     private List<String> organisms;
     private List<String> meshTags;
     private List<String> meshTagsMajor;
+    private List<String> keywords;
     private String pmLabel;
+    private List<String> meshMinor;
+    private List<String> publicationTypes;
+    @JsonIgnore
+    private double[] topicWeight;
+
+    public double[] getTopicWeight() {
+        return topicWeight;
+    }
+
+    public void setTopicWeight(double[] topicWeight) {
+        this.topicWeight = topicWeight;
+    }
+
+    public List<String> getPublicationTypes() {
+        return publicationTypes;
+    }
+
+    public void setPublicationTypes(List<String> publicationTypes) {
+        this.publicationTypes = publicationTypes;
+    }
+
+    public List<String> getKeywords() {
+        return keywords;
+    }
+
+    public void setKeywords(List<String> keywords) {
+        this.keywords = keywords;
+    }
 
     public List<String> getMeshTags() {
         return meshTags;
@@ -40,8 +70,6 @@ public void setMeshMinor(List<String> meshMinor) {
         this.meshMinor = meshMinor;
     }
 
-    private List<String> meshMinor;
-
     public String getId() {
         return id;
     }
 
@@ -112,6 +112,11 @@ private Collection<Pipe> getTfIdfPipes() {
         pipes.add(new TfIdfPipe());
         pipes.add(new HasGenesPipe());
         pipes.add(new MeshTagsForTokenPipe());
+        //pipes.add(new HasDiseasePipe());
+        //pipes.add(new HasKeywordPipe());
+        //pipes.add(new Doc2VecPipe());
+        //pipes.add(new HasPubTypePipe());
+        pipes.add(new TopicModelPipe());
         pipes.add(new Token2FeatureVector());
         return pipes;
     }
 
@@ -2,8 +2,21 @@
 
 import at.medunigraz.imi.bst.pmclassifier.*;
 import cc.mallet.types.InstanceList;
+import de.julielab.jcore.ae.topicindexing.TopicIndexer;
+import de.julielab.jcore.ae.topicindexing.TopicModelProvider;
+import de.julielab.jcore.types.DocumentTopics;
 import org.apache.logging.log4j.LogManager;
 import org.apache.logging.log4j.Logger;
+import org.apache.uima.UIMAException;
+import org.apache.uima.analysis_engine.AnalysisEngine;
+import org.apache.uima.analysis_engine.AnalysisEngineDescription;
+import org.apache.uima.analysis_engine.AnalysisEngineProcessException;
+import org.apache.uima.fit.factory.AnalysisEngineFactory;
+import org.apache.uima.fit.factory.ExternalResourceFactory;
+import org.apache.uima.fit.factory.JCasFactory;
+import org.apache.uima.fit.util.JCasUtil;
+import org.apache.uima.jcas.JCas;
+import org.apache.uima.jcas.cas.DoubleArray;
 
 import java.io.File;
 import java.io.IOException;
@@ -21,6 +34,7 @@ public static void main(String args[]) throws DataReadingException, IOException,
         int numFolds = 10;
 
         Map<String, Document> documents = DataReader.readDocuments(new File("resources/gs2017DocsJson.zip"));
+        inferTopics(documents.values());
         InstancePreparator ip = InstancePreparator.getInstance();
         classifier.setInstancePreparator(ip);
 
@@ -69,6 +83,55 @@ public static void main(String args[]) throws DataReadingException, IOException,
 
     }
 
+    private static void inferTopics(Collection<Document> values) {
+        try {
+            AnalysisEngine sentenceDetector = AnalysisEngineFactory.createEngine(
+                    "de.julielab.jcore.ae.jsbd.desc.jcore-jsbd-ae-biomedical-english");
+            AnalysisEngine tokenizer = AnalysisEngineFactory.createEngine(
+                    "de.julielab.jcore.ae.jtbd.desc.jcore-jtbd-ae-biomedical-english");
+            AnalysisEngine posTagger = AnalysisEngineFactory.createEngine(
+                    "de.julielab.jcore.ae.opennlp.postag.desc.jcore-opennlp"
+                            + "-postag-ae-biomedical-english");
+            AnalysisEngine bioLemmatizer = AnalysisEngineFactory.createEngine(
+                    "de.julielab.jcore.ae.biolemmatizer.desc.jcore-biolemmatizer-ae");
+            AnalysisEngineDescription desc = AnalysisEngineFactory.createEngineDescription("de.julielab.jcore.ae.topicindexing.desc.jcore-topic-indexing-ae",
+                    TopicIndexer.PARAM_TOPIC_MODEL_CONFIG, "uima/topicmodels/nt100-a1.0-b0.1-genedocs1m.xml",
+                    TopicIndexer.PARAM_NUM_DISPLAYED_TOPIC_WORDS, 0,
+                    TopicIndexer.PARAM_STORE_IN_MODEL_INDEX, false);
+            ExternalResourceFactory.createDependencyAndBind(desc, TopicIndexer.RESOURCE_KEY_MODEL_FILE_NAME, TopicModelProvider.class, new File("uima/topicmodels/nt100-a1.0-b0.1-genedocs1m.mod.gz").toURI().toURL().toString());
+            AnalysisEngine topicIndexer = AnalysisEngineFactory.createEngine(desc);
+            JCas jCas = JCasFactory.createJCas("de.julielab.jcore.types.jcore-document-meta-pubmed-types",
+                    "de.julielab.jcore.types.jcore-xmi-splitter-types",
+                    "de.julielab.jcore.types.extensions.jcore-document-meta-extension-types",
+                    "de.julielab.jcore.types.jcore-document-structure-pubmed-types",
+                    "de.julielab.jcore.types.jcore-morpho-syntax-types");
+
+            values.parallelStream().forEach(d -> {
+                jCas.setDocumentText(d.getTitle() + " " + d.getAbstractText());
+                try {
+                    sentenceDetector.process(jCas);
+                    tokenizer.process(jCas);
+                    posTagger.process(jCas);
+                    bioLemmatizer.process(jCas);
+                    topicIndexer.process(jCas);
+                    DocumentTopics documentTopics = JCasUtil.selectSingle(jCas, DocumentTopics.class);
+                    DoubleArray weights = documentTopics.getWeights();
+                    double[] doubles = weights.toArray();
+                    d.setTopicWeight(doubles);
+                    jCas.reset();
+                } catch (AnalysisEngineProcessException e) {
+                    e.printStackTrace();
+                }
+
+
+            });
+        } catch (IOException e) {
+            e.printStackTrace();
+        } catch (UIMAException e) {
+            e.printStackTrace();
+        }
+    }
+
     private static List<List<Document>> makeStratifiedPartitions(List<Document> pmList, List<Document> notPmList, int numFolds) {
         List<List<Document>> ret = new ArrayList<>(numFolds);
         for (int i = 0; i < numFolds; i++)
 
@@ -0,0 +1,52 @@
+package at.medunigraz.imi.bst.pmclassifier.featurepipes;
+
+import cc.mallet.pipe.Pipe;
+import cc.mallet.types.Instance;
+import cc.mallet.types.Token;
+import de.julielab.ipc.javabridge.Options;
+import de.julielab.ipc.javabridge.StdioBridge;
+
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.DoubleBuffer;
+import java.util.Optional;
+import java.util.stream.Stream;
+
+public class Doc2VecPipe extends Pipe {
+
+    private final StdioBridge<byte[]> bridge;
+
+    public Doc2VecPipe() {
+        Options<byte[]> options = new Options(byte[].class);
+        options.setExecutable("python");
+        options.setExternalProgramTerminationSignal("quit");
+        bridge = new StdioBridge(options, "-u", "scripts/doc2VecInferer.py", "/Users/faessler/Research/trecpm2018/doc2vec/doc2vec_vs300_w15_500k.mod");
+        try {
+            bridge.start();
+        } catch (IOException e) {
+            e.printStackTrace();
+        }
+    }
+static int docnum = 0;
+    @Override
+    public Instance pipe(Instance inst) {
+        Token token = (Token) inst.getData();
+        String text = token.getText();
+        try {
+            long time = System.nanoTime();
+            Stream<byte[]> stream = bridge.sendAndReceive(text);
+            time = System.nanoTime() - time;
+            System.out.println("Doc " + docnum++ + ": " + time + " " + text.length());
+            Optional<byte[]> any = stream.findAny();
+            if (!any.isPresent())
+                throw new IllegalStateException("The STDIO bridge to the Gensim Doc2vec program didn't return a value.");
+            DoubleBuffer db = ByteBuffer.wrap(any.get()).asDoubleBuffer();
+            for (int i = 0; i < db.capacity(); i++) {
+                token.setFeatureValue("doc2vec_pos_" + i, db.get(i));
+            }
+        } catch (InterruptedException e) {
+            e.printStackTrace();
+        }
+        return inst;
+    }
+}
@@ -26,7 +26,7 @@ public HasDiseasePipe() {
     @Override
     public Instance pipe(Instance inst) {
         Token token = (Token) inst.getData();
-        ac.match(token.getText(), (start,end,matched) -> token.setFeatureValue("hasDisease=", 1));
+        ac.match(token.getText(), (start,end,matched) -> token.setFeatureValue("hasDisease="+matched, 1));
         return inst;
     }
 }
@@ -0,0 +1,29 @@
+package at.medunigraz.imi.bst.pmclassifier.featurepipes;
+
+import at.medunigraz.imi.bst.pmclassifier.AhoCorasickOptimized;
+import at.medunigraz.imi.bst.pmclassifier.Document;
+import cc.mallet.pipe.Pipe;
+import cc.mallet.types.Instance;
+import cc.mallet.types.Token;
+import de.julielab.java.utilities.FileUtilities;
+
+import java.io.BufferedReader;
+import java.io.File;
+import java.io.IOException;
+import java.util.Arrays;
+import java.util.stream.Collectors;
+
+public class HasKeywordPipe extends Pipe {
+
+    @Override
+    public Instance pipe(Instance inst) {
+        Token token = (Token) inst.getData();
+        Document document = (Document) inst.getSource();
+        if (document.getKeywords() != null) {
+            for (String kw : document.getKeywords()) {
+                token.setFeatureValue("hasKeyword="+kw, 1);
+            }
+        }
+        return inst;
+    }
+}
@@ -0,0 +1,21 @@
+package at.medunigraz.imi.bst.pmclassifier.featurepipes;
+
+import at.medunigraz.imi.bst.pmclassifier.Document;
+import cc.mallet.pipe.Pipe;
+import cc.mallet.types.Instance;
+import cc.mallet.types.Token;
+
+public class HasPubTypePipe extends Pipe {
+
+    @Override
+    public Instance pipe(Instance inst) {
+        Token token = (Token) inst.getData();
+        Document document = (Document) inst.getSource();
+        if (document.getPublicationTypes() != null) {
+            for (String pt : document.getPublicationTypes()) {
+                token.setFeatureValue("hasPubType="+pt, 1);
+            }
+        }
+        return inst;
+    }
+}
@@ -0,0 +1,63 @@
+package at.medunigraz.imi.bst.pmclassifier.featurepipes;
+
+import at.medunigraz.imi.bst.pmclassifier.Document;
+import cc.mallet.pipe.Pipe;
+import cc.mallet.types.Instance;
+import cc.mallet.types.InstanceList;
+import cc.mallet.types.Token;
+import cc.mallet.types.TokenSequence;
+import de.julielab.ipc.javabridge.Options;
+import de.julielab.ipc.javabridge.StdioBridge;
+import de.julielab.jcore.ae.topicindexing.TopicIndexer;
+import de.julielab.jcore.ae.topicindexing.TopicModelProvider;
+import de.julielab.jcore.types.DocumentTopics;
+import de.julielab.topicmodeling.businessobjects.Model;
+import de.julielab.topicmodeling.businessobjects.Topic;
+import de.julielab.topicmodeling.services.MalletTopicModeling;
+import org.apache.commons.configuration2.XMLConfiguration;
+import org.apache.commons.configuration2.ex.ConfigurationException;
+import org.apache.uima.UIMAException;
+import org.apache.uima.analysis_engine.AnalysisEngine;
+import org.apache.uima.analysis_engine.AnalysisEngineDescription;
+import org.apache.uima.analysis_engine.AnalysisEngineProcessException;
+import org.apache.uima.fit.factory.AnalysisEngineFactory;
+import org.apache.uima.fit.factory.ExternalResourceFactory;
+import org.apache.uima.fit.factory.JCasFactory;
+import org.apache.uima.fit.util.JCasUtil;
+import org.apache.uima.jcas.JCas;
+import org.apache.uima.jcas.cas.DoubleArray;
+import org.apache.uima.resource.ResourceInitializationException;
+import org.apache.uima.util.InvalidXMLException;
+import scala.annotation.bridge;
+
+import java.io.File;
+import java.io.IOException;
+import java.nio.ByteBuffer;
+import java.nio.DoubleBuffer;
+import java.util.Collections;
+import java.util.List;
+import java.util.Map;
+import java.util.Optional;
+import java.util.stream.Stream;
+
+public class TopicModelPipe extends Pipe {
+
+
+    @Override
+    public Instance pipe(Instance inst) {
+        Token token = (Token) inst.getData();
+        Document document = (Document) inst.getSource();
+        String text = token.getText();
+
+
+        double[] topicWeight = document.getTopicWeight();
+        for (int i = 0; i < topicWeight.length; ++i) {
+            double w = topicWeight[i];
+            token.setFeatureValue("topic_" + i, w);
+            //System.out.println("topic_" + i + ": " + w);
+        }
+
+
+        return inst;
+    }
+}
Original file line number	Diff line number	Diff line change
`@@ -26,7 +26,7 @@ public HasDiseasePipe() {`
`26`	`26`	`@Override`
`27`	`27`	`public Instance pipe(Instance inst) {`
`28`	`28`	`Token token = (Token) inst.getData();`
`29`		`- ac.match(token.getText(), (start,end,matched) -> token.setFeatureValue("hasDisease=", 1));`
	`29`	`+ ac.match(token.getText(), (start,end,matched) -> token.setFeatureValue("hasDisease="+matched, 1));`
`30`	`30`	`return inst;`
`31`	`31`	`}`
`32`	`32`	`}`