NiMaZi
diff --git a/‎failed_attempts/RNN/e2vtrain.py
+68 b/‎failed_attempts/RNN/e2vtrain.py
+68
diff --git a/‎failed_attempts/RNN/emb_evaluation.py
+157 b/‎failed_attempts/RNN/emb_evaluation.py
+157
diff --git a/‎failed_attempts/RNN/gpu_score.py
+111 b/‎failed_attempts/RNN/gpu_score.py
+111
@@ -0,0 +1,68 @@
+import json
+from gensim.models import word2vec
+
+# sentences=word2vec.LineSentence("/home/ubuntu/thesiswork/source/corpus/fullcorpus10000.txt")
+sentences=word2vec.LineSentence("/home/ubuntu/thesiswork/source/corpus/corpus_all.txt")
+# sentences=word2vec.LineSentence("/home/ubuntu/results/hivo_corpus.txt")
+
+f=open("/home/ubuntu/results/statistics/tf_all.json",'r')
+tf_all=json.load(f)
+f.close()
+
+tf_all_com={}
+for k in tf_all.keys():
+	_k=k.split("#")[1]
+	tf_all_com[_k]=tf_all[k]+1e-10
+
+# model=word2vec.Word2Vec(sg=0,size=128,window=10,min_count=0,sample=1e-3,hs=0,negative=1,sorted_vocab=1)
+# model.build_vocab_from_freq(tf_all_com)
+# model.train(sentences,total_examples=10000,epochs=100)
+# path="/home/ubuntu/results/models/e2v_sg_5000_e100_d128.model"
+# # path="/home/ubuntu/results/e2v_sg_e100.model"
+# model.save(path)
+
+# path="/home/ubuntu/results/models/e2v_sg_10000_e200_d64.model"
+# model=word2vec.Word2Vec.load(path)
+
+# ======
+
+model=word2vec.Word2Vec(sg=0,size=64,window=10,min_count=0,sample=1e-3,hs=0,negative=5,workers=4,sorted_vocab=1,compute_loss=True)
+model.build_vocab_from_freq(tf_all_com)
+model.train(sentences,total_examples=140000,epochs=200)
+path="/home/ubuntu/results/models/e2v_sg_140k_e200_d64.model"
+# path="/home/ubuntu/results/e2v_sg_e100.model"
+model.save(path)
+
+# ======
+
+# model=word2vec.Word2Vec(sg=0,size=32,window=10,min_count=0,sample=1e-3,hs=0,negative=1,sorted_vocab=1)
+# model.build_vocab_from_freq(tf_all_com)
+# model.train(sentences,total_examples=10000,epochs=100)
+# path="/home/ubuntu/results/models/e2v_sg_5000_e100_d32.model"
+# # path="/home/ubuntu/results/e2v_sg_e100.model"
+# model.save(path)
+
+# model=word2vec.Word2Vec(sg=1,size=128,window=10,min_count=0,sample=1e-3,hs=0,negative=1,sorted_vocab=1)
+# model.build_vocab_from_freq(tf_all_com)
+# model.train(sentences,total_examples=10000,epochs=100)
+# path="/home/ubuntu/results/models/e2v_cbow_5000_e100_d128.model"
+# # path="/home/ubuntu/results/e2v_cbow_e100.model"
+# model.save(path)
+
+# ======
+
+model=word2vec.Word2Vec(sg=1,size=64,window=10,min_count=0,sample=1e-3,hs=0,negative=5,workers=4,sorted_vocab=1,compute_loss=True)
+model.build_vocab_from_freq(tf_all_com)
+model.train(sentences,total_examples=140000,epochs=200)
+path="/home/ubuntu/results/models/e2v_cbow_140k_e200_d64.model"
+# path="/home/ubuntu/results/e2v_cbow_e100.model"
+model.save(path)
+
+# ======
+
+# model=word2vec.Word2Vec(sg=1,size=32,window=10,min_count=0,sample=1e-3,hs=0,negative=1,sorted_vocab=1)
+# model.build_vocab_from_freq(tf_all_com)
+# model.train(sentences,total_examples=10000,epochs=100)
+# path="/home/ubuntu/results/models/e2v_cbow_5000_e100_d32.model"
+# # path="/home/ubuntu/results/e2v_cbow_e100.model"
+# model.save(path)
@@ -0,0 +1,157 @@
+
+# coding: utf-8
+
+# In[23]:
+
+
+import json
+import numpy as np
+from gensim.models import word2vec as w2v
+
+
+# In[24]:
+
+
+f=open("/home/ubuntu/thesiswork/source/coded_syns.json",'r')
+coded_syns=json.load(f)
+f.close()
+
+
+# In[25]:
+
+
+def load_models():
+    path="/home/ubuntu/results/models/e2v_sg_140k_e200_d64.model"
+    e2v_model=w2v.Word2Vec.load(path)
+    f=open("/home/ubuntu/results/ontology/KG_n2v_d64.json",'r')
+    n2v_model=json.load(f)
+    f.close()
+    return e2v_model,n2v_model
+
+e2v_model,n2v_model=load_models()
+
+def load_sups():
+    f=open("/home/ubuntu/results/ontology/c2id.json",'r')
+    c2id=json.load(f)
+    f.close()
+    prefix='http://ncicb.nci.nih.gov/xml/owl/EVS/Thesaurus.owl#'
+    return c2id,prefix
+
+c2id,prefix=load_sups()
+
+
+# In[26]:
+
+
+f=open("/home/ubuntu/results/ontology/full_word_list.json",'r')
+word_list=json.load(f)[1:]
+f.close()
+
+
+# In[27]:
+
+
+def get_emb(_code):
+    e_vec=list(e2v_model.wv[_code])
+    n_vec=n2v_model[str(c2id[prefix+_code])]
+    return e_vec+n_vec
+
+def get_embe(_code):
+    e_vec=list(e2v_model.wv[_code])
+    # n_vec=n2v_model[str(c2id[prefix+_code])]
+    return e_vec
+
+def get_embn(_code):
+    # e_vec=list(e2v_model.wv[_code])
+    n_vec=n2v_model[str(c2id[prefix+_code])]
+    return n_vec
+
+
+# In[28]:
+
+
+from scipy.spatial.distance import cosine
+
+
+# In[ ]:
+
+f=open("/home/ubuntu/results/logs/emb_evaluation_sg.txt","w")
+
+avg_pos_syn0=0.0
+avg_pos_syn1=0.0
+for i,syn in enumerate(coded_syns):
+    res_dict_syn0={}
+    res_dict_syn1={}
+    emb_syn0=np.array(get_embe(syn[0]))
+    emb_syn1=np.array(get_embe(syn[1]))
+    for w in word_list:
+        _w=w.split('#')[1]
+        emb_w=np.array(get_embe(_w))
+        dist_syn0=cosine(emb_syn0,emb_w)
+        dist_syn1=cosine(emb_syn1,emb_w)
+        res_dict_syn0[_w]=dist_syn0
+        res_dict_syn1[_w]=dist_syn1
+    cur_pos_syn0=sorted(res_dict_syn0,key=res_dict_syn0.get).index(syn[1])
+    cur_pos_syn1=sorted(res_dict_syn1,key=res_dict_syn1.get).index(syn[0])
+    f.write("%s,%d,%s,%d\n"%(syn[0],cur_pos_syn0,syn[1],cur_pos_syn1))
+    avg_pos_syn0+=cur_pos_syn0
+    avg_pos_syn1+=cur_pos_syn1
+avg_pos_syn0/=len(coded_syns)
+avg_pos_syn1/=len(coded_syns)
+
+
+f.write("%f,%f\n"%(avg_pos_syn0,avg_pos_syn1))
+
+
+# avg_pos_syn0=0.0
+# avg_pos_syn1=0.0
+# for i,syn in enumerate(coded_syns):
+#     res_dict_syn0={}
+#     res_dict_syn1={}
+#     emb_syn0=np.array(get_embn(syn[0]))
+#     emb_syn1=np.array(get_embn(syn[1]))
+#     for w in word_list:
+#         _w=w.split('#')[1]
+#         emb_w=np.array(get_embn(_w))
+#         dist_syn0=cosine(emb_syn0,emb_w)
+#         dist_syn1=cosine(emb_syn1,emb_w)
+#         res_dict_syn0[_w]=dist_syn0
+#         res_dict_syn1[_w]=dist_syn1
+#     cur_pos_syn0=sorted(res_dict_syn0,key=res_dict_syn0.get).index(syn[1])
+#     cur_pos_syn1=sorted(res_dict_syn1,key=res_dict_syn1.get).index(syn[0])
+#     f.write("%s,%d,%s,%d\n"%(syn[0],cur_pos_syn0,syn[1],cur_pos_syn1))
+#     avg_pos_syn0+=cur_pos_syn0
+#     avg_pos_syn1+=cur_pos_syn1
+# avg_pos_syn0/=len(coded_syns)
+# avg_pos_syn1/=len(coded_syns)
+
+
+# f.write("%f,%f\n"%(avg_pos_syn0,avg_pos_syn1))
+
+
+# avg_pos_syn0=0.0
+# avg_pos_syn1=0.0
+# for i,syn in enumerate(coded_syns):
+#     res_dict_syn0={}
+#     res_dict_syn1={}
+#     emb_syn0=np.array(get_emb(syn[0]))
+#     emb_syn1=np.array(get_emb(syn[1]))
+#     for w in word_list:
+#         _w=w.split('#')[1]
+#         emb_w=np.array(get_emb(_w))
+#         dist_syn0=cosine(emb_syn0,emb_w)
+#         dist_syn1=cosine(emb_syn1,emb_w)
+#         res_dict_syn0[_w]=dist_syn0
+#         res_dict_syn1[_w]=dist_syn1
+#     cur_pos_syn0=sorted(res_dict_syn0,key=res_dict_syn0.get).index(syn[1])
+#     cur_pos_syn1=sorted(res_dict_syn1,key=res_dict_syn1.get).index(syn[0])
+#     f.write("%s,%d,%s,%d\n"%(syn[0],cur_pos_syn0,syn[1],cur_pos_syn1))
+#     avg_pos_syn0+=cur_pos_syn0
+#     avg_pos_syn1+=cur_pos_syn1
+# avg_pos_syn0/=len(coded_syns)
+# avg_pos_syn1/=len(coded_syns)
+
+
+# f.write("%f,%f\n"%(avg_pos_syn0,avg_pos_syn1))
+f.close()
+
@@ -0,0 +1,111 @@
+import os
+import json
+import numpy as np
+from scipy.spatial.distance import cosine
+from keras.models import Sequential, load_model
+from keras.layers import LSTM,Bidirectional,Masking,BatchNormalization
+from keras.callbacks import EarlyStopping
+from gensim.models import word2vec as w2v
+
+dim=128
+maxlen=512
+volume=1000
+homedir=os.environ['HOME']
+
+def load_models():
+    path=homedir+"/results/models/e2v_sg_10000_e100_d64.model"
+    e2v_model=w2v.Word2Vec.load(path)
+    f=open(homedir+"/results/ontology/KG_n2v_d64.json",'r')
+    n2v_model=json.load(f)
+    f.close()
+    return e2v_model,n2v_model
+
+e2v_model,n2v_model=load_models()
+
+def load_sups():
+    f=open(homedir+"/results/ontology/c2id.json",'r')
+    c2id=json.load(f)
+    f.close()
+    f=open(homedir+"/results/ontology/full_word_list.json",'r')
+    word_list=json.load(f)
+    f.close()
+    prefix='http://ncicb.nci.nih.gov/xml/owl/EVS/Thesaurus.owl#'
+    return c2id,prefix,word_list[1:]
+
+c2id,prefix,word_list=load_sups()
+
+def get_emb(_code):
+    e_vec=list(e2v_model.wv[_code])
+    n_vec=n2v_model[str(c2id[prefix+_code])]
+    return e_vec+n_vec
+
+def load_corpus(_path):
+    f=open(_path,'r')
+    pre_corpus=f.read()
+    f.close()
+    pre_list=pre_corpus.split("\n")[:-1]
+    corpus=[]
+    for i,p in enumerate(pre_list):
+        _p=p.split(" ")[:-1]
+        corpus.append(_p)
+    return corpus[volume:volume+200]
+
+path=homedir+"/thesiswork/source/corpus/fullcorpusall.txt"
+corpus=load_corpus(path)
+
+def find_match(vec,num):
+    min_dis=np.inf
+    min_word=None
+    for w in word_list:
+        dis=cosine(vec,get_emb(w.split('#')[1]))
+        if dis<min_dis:
+            min_dis=dis
+            min_word=w.split('#')[1]
+    return min_word,min_dis
+
+def test_on_data(_corpus,_maxlen,_model):
+    i=0
+    comp_vec=[0.0 for i in range(0,128)]
+    ndata=[]
+    hit=0.0
+    while(i<len(_corpus)-1):
+        _body=_corpus[i]
+        i+=1
+        _rbody=set(_corpus[i])
+        b_emb=[]
+        if len(_body)<_maxlen:
+            for w in _body:
+                b_emb.append(get_emb(w))
+            for j in range(len(b_emb),_maxlen):
+                b_emb.append(comp_vec)
+            ndata=np.array([b_emb])
+            y_out=model.predict(ndata)
+            match,dis=find_match(y_out[0],1)
+            if match in _rbody:
+                hit+=1.0
+        else:
+            all_match=[]
+            for j in range(0,len(_body)-_maxlen+1):
+                b_emb=[]
+                for wj in range(0,_maxlen):
+                    w=_body[j+wj]
+                    b_emb.append(get_emb(w))
+                ndata=[b_emb]
+                y_out=model.predict(ndata)
+                match,dis=find_match(y_out[0],1)
+                all_match.append((match,dis))
+            best_match=min(all_match,key=lambda x:x[1])[0]
+            if best_match in _rbody:
+                hit+=1.0
+        i+=1
+    hit/=len(_corpus)/2.0
+    return hit
+
+mod_no=140
+logf=open(homedir+"/results/logs/BiLSTMGPU_log.txt",'a')
+while mod_no<=170:
+    model=load_model(homedir+"/results/models/BiLSTMGPU"+str(mod_no)+".h5")
+    hit=test_on_data(corpus,maxlen,model)
+    logf.write("%d,%.3f\n"%(mod_no,hit))
+    mod_no+=10
+logf.close()