✅ add unit test for read_infernal

bneron · bneron · commit b70479bd0e88 · 2024-02-22T13:38:28.000+01:00
test when attc site model is found found on first or last position and model is trucated check that seq beg and end are correct see #114
diff --git a/tests/data/fictive_results/37_0_200_subseq_overflow_attc_table.res b/tests/data/fictive_results/37_0_200_subseq_overflow_attc_table.res
@@ -0,0 +1,8 @@
+#target name         accession query name           accession mdl mdl from   mdl to seq from   seq to strand trunc pass   gc  bias  score   E-value inc description of target
+#------------------- --------- -------------------- --------- --- -------- -------- -------- -------- ------ ----- ---- ---- ----- ------ --------- --- ---------------------
+37                   -         attC_4               -          cm        4       44      123        1      -    no    1 0.55   0.0   16.8    0.0024 !   -
+37                   -         attC_4               -          cm        1       41     3065     3109      +    no    1 0.53   0.0   16.8    0.0023 !   -
+#
+# Program:         cmsearch
+# edited by hand to simulate truncated attc model on firts and last pos
+
diff --git a/tests/test_read_infernal.py b/tests/test_read_infernal.py
@@ -48,6 +48,7 @@ def setUp(self):
         """
         self.replicon_name = "acba.007.p01.13"
         self.replicon_id = "ACBA.007.P01_13"
+        self.replicon_size = 20301
         self.length_cm = 47  # length in 'CLEN' (value for model attc_4.cm)
         self.dtype = {"Accession_number": "str",
                       "cm_attC": "str",
@@ -65,7 +66,9 @@ def test_nofile(self):
 
         """
         filename = "infernal.txt"
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm)
         expect = pd.DataFrame(columns=["Accession_number", "cm_attC", "cm_debut",
                                        "cm_fin", "pos_beg", "pos_end", "sens", "evalue"])
         expect = expect.astype(self.dtype)
@@ -77,7 +80,9 @@ def test_nohit(self):
         inside, it returns an empty dataframe.
         """
         filename = self.find_data(os.path.join("fictive_results", "{}_attc_table-empty.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm)
         expect = pd.DataFrame(columns=["Accession_number", "cm_attC", "cm_debut",
                                        "cm_fin", "pos_beg", "pos_end", "sens", "evalue"])
         expect = expect.astype(self.dtype)
@@ -92,7 +97,9 @@ def test_evalue_thres(self):
         filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
                                                "tmp_{}".format(self.replicon_id),
                                                "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, evalue=1e-10)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm, evalue=1e-10)
         expect = pd.DataFrame(columns=["Accession_number", "cm_attC", "cm_debut",
                                        "cm_fin", "pos_beg", "pos_end", "sens", "evalue"])
         expect = expect.astype(self.dtype)
@@ -107,7 +114,9 @@ def test_generate_df(self):
         filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
                                                "tmp_{}".format(self.replicon_id),
                                                "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm)
         expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id, self.replicon_id,],
                                 "cm_attC": ["attc_4", "attc_4", "attc_4",],
                                 "cm_debut": [1, 1, 1],
@@ -126,7 +135,9 @@ def test_attcsize_minthres(self):
         filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
                                                "tmp_{}".format(self.replicon_id),
                                                "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, size_min_attc=60)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm, size_min_attc=60)
         expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id],
                                 "cm_attC": ["attc_4", "attc_4"],
                                 "cm_debut": [1, 1],
@@ -146,7 +157,9 @@ def test_attcsize_maxthres(self):
         filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
                                                "tmp_{}".format(self.replicon_id),
                                                "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, size_max_attc=100)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm, size_max_attc=100)
         expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id],
                                "cm_attC": ["attc_4", "attc_4"],
                                "cm_debut": [1, 1],
@@ -165,11 +178,18 @@ def test_filter_evalue_thres(self):
         filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
                                                "tmp_{}".format(self.replicon_id),
                                                "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, evalue=1e-8)
-        expect = pd.DataFrame({"Accession_number": self.replicon_id, "cm_attC": "attc_4",
-                               "cm_debut": 1, "cm_fin": 47, "pos_beg": 17825,
-                               "pos_end": 17884, "sens": "-", "evalue": 1e-9},
-                              ignore_index=True)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm, evalue=1e-8)
+        expect = pd.DataFrame({"Accession_number": [self.replicon_id],
+                               "cm_attC": ["attc_4"],
+                               "cm_debut": [1],
+                               "cm_fin": [47],
+                               "pos_beg": [17825],
+                               "pos_end": [17884],
+                               "sens": ["-"],
+                               "evalue": [1e-9]}
+                              )
         expect = expect.astype(self.dtype)
         pdt.assert_frame_equal(df, expect)
 
@@ -178,9 +198,12 @@ def test_no_total_cm_match_strandp(self):
         Test that when the model did not completely match on the sequence,
         the start and end positions of hit are well recalculated. All hits are on strand +
         """
-        filename = self.find_data(
-            os.path.join("fictive_results", "{}_attc_table-partial.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm)
+        filename = self.find_data("fictive_results",
+                                  f"{self.replicon_id}_attc_table-partial.res")
+
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm)
         expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id, self.replicon_id],
                                "cm_attC": ["attc_4", "attc_4", "attc_4"],
                                "cm_debut": [1, 1, 10],
@@ -199,9 +222,11 @@ def test_no_total_cm_match_strandm(self):
         """
         filename = self.find_data(
             os.path.join("fictive_results", "{}_attc_table-partialm.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm)
+        df = infernal.read_infernal(filename,
+                                    self.replicon_id, self.replicon_size,
+                                    self.length_cm)
         expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id, self.replicon_id],
-                               "cm_attC": ["attc_4", "attc_4", "attc_4", ],
+                               "cm_attC": ["attc_4", "attc_4", "attc_4"],
                                "cm_debut": [1, 1, 10],
                                "cm_fin": [40, 47, 47],
                                "pos_beg": [17818, 19080, 19618],
@@ -212,61 +237,24 @@ def test_no_total_cm_match_strandm(self):
         expect = expect.astype(self.dtype)
         pdt.assert_frame_equal(df, expect)
 
-    def test_attcsize_minthres(self):
-        """
-        Test that the filter by a minimum attc size works.
-        """
-        filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
-                                               "tmp_{}".format(self.replicon_id),
-                                               "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, size_min_attc=60)
-        expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id],
-                               "cm_attC": ["attc_4", "attc_4"],
-                               "cm_debut": [1, 1],
-                               "cm_fin": [47, 47],
-                               "pos_beg": [19080, 19618],
-                               "pos_end": [19149, 19726],
-                               "sens": ["-", "-"],
-                               "evalue": [1e-4, 1.1e-7]})
-        expect = expect.astype(self.dtype)
-        pdt.assert_frame_equal(df, expect)
+    def test_attc_overflow_pos(self):
+        """test when model is truncated and on very first or last replicon pos"""
+        filename = self.find_data('fictive_results', '37_0_200_subseq_overflow_attc_table.res')
+        replicon_id = '37'
+        replicon_size = 3109
+        model_len = 47
+        df = infernal.read_infernal(filename,
+                                    replicon_id, replicon_size,
+                                    model_len)
 
-    def test_attcsize_maxthres(self):
-        """
-        Test that the filter by a maximum attc size works.
-        """
-        filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
-                                               "tmp_{}".format(self.replicon_id),
-                                               "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, size_max_attc=100)
-        expect = pd.DataFrame({"Accession_number": [self.replicon_id, self.replicon_id],
+        expect = pd.DataFrame({"Accession_number": [replicon_id, replicon_id],
                                "cm_attC": ["attc_4", "attc_4"],
-                               "cm_debut": [1, 1],
-                               "cm_fin": [47, 47],
-                               "pos_beg": [17825, 19080],
-                               "pos_end": [17884, 19149],
-                               "sens": ["-", "-"],
-                               "evalue": [1e-9, 1e-4]})
-        expect = expect.astype(self.dtype)
-        pdt.assert_frame_equal(df, expect)
+                               "cm_debut": [4, 1],
+                               "cm_fin": [44, 41],
+                               "pos_beg": [1, 3065],
+                               "pos_end": [126, 3109],
+                               "sens": ["-", "+"],
+                               "evalue": [0.0024,0.0023]})
 
-    def test_filter_evalue_thres(self):
-        """
-        Test that the filter by a maximum attc size works.
-        """
-        filename = self.find_data(os.path.join("Results_Integron_Finder_{}".format(self.replicon_name),
-                                               "tmp_{}".format(self.replicon_id),
-                                               "{}_attc_table.res".format(self.replicon_id)))
-        df = infernal.read_infernal(filename, self.replicon_id, self.length_cm, evalue=1e-8)
-        expect =pd.DataFrame({"Accession_number": self.replicon_id,
-                              "cm_attC": "attc_4",
-                              "cm_debut": 1,
-                              "cm_fin": 47,
-                              "pos_beg": 17825,
-                              "pos_end": 17884,
-                              "sens": "-",
-                              "evalue": 1e-9},
-                             index=[0])
         expect = expect.astype(self.dtype)
-        pdt.assert_frame_equal(df, expect)
-
+        pdt.assert_frame_equal(df, expect)