broadinstitute · krithikanathamuni · Jun 28, 2022 · Jun 30, 2022 · Aug 3, 2022 · asmirnov239
diff --git a/src/sv-pipeline/scripts/aggregate_picard.py b/src/sv-pipeline/scripts/aggregate_picard.py
@@ -0,0 +1,276 @@
+def read_in(file_name, label):
+    started = False
+    newlist = []
+    wgsfile = file_name
+
+    with tfio.gfile.GFile(file_name, "r") as inp:
+        for line in inp:
+            intable = line.startswith(label)
+            if intable == True:
-            intable = line.startswith(label)
-            if intable == True:
+            if line.startswith(label):
-            intable = line.startswith(label)
-            if intable == True:
+            if line.startswith(label):
+                started = True
+                continue
+            if started:
+                if line != '\n':
+                    newlist.append(line.rstrip('\n'))
+            if started and line == '\n':
+                return newlist
+                break
+
+def newtable(file_name, label):
+    columnnames = read_in(file_name, label)[0].split("\t")
+    values = read_in(file_name, label)[1].split("\t")
+    dataframe = pd.DataFrame(columnnames).T
+    dataframe.columns = columnnames
+    dataframe_length = len(dataframe)
+    dataframe.loc[dataframe_length] = values
+    dataframe = dataframe.drop(0)
+    return dataframe
-    dataframe = pd.DataFrame(columnnames).T
-    dataframe.columns = columnnames
-    dataframe_length = len(dataframe)
-    dataframe.loc[dataframe_length] = values
-    dataframe = dataframe.drop(0)
-    return dataframe
+    return pd.DataFrame(data=[values], columns=columns)
-    dataframe = pd.DataFrame(columnnames).T
-    dataframe.columns = columnnames
-    dataframe_length = len(dataframe)
-    dataframe.loc[dataframe_length] = values
-    dataframe = dataframe.drop(0)
-    return dataframe
+    return pd.DataFrame(data=[values], columns=columns)
+
+def addrows(file_name, label):
+    onerow = newtable(file_name, label)
+    for i in range(len(read_in(file_name, label))):
+        nextrow = read_in(file_name, label)[i].split("\t")
+        onerow.loc[i] = nextrow
+    onerow = onerow.drop(0)
+    return onerow
+
+def concatrows(table, suffix):
+    newdata = pd.DataFrame()
+    for row in range(1, len(table) + 1):
+        addrow = pd.DataFrame(table.loc[row]).T.reset_index(drop=True)
+        addrow = addrow.add_suffix(suffix[row-1])
+        newdata = pd.concat([newdata, addrow], axis = 1)
+    return newdata
+
+def window_metrics_mean(table, window):
+    dataframe1 = pd.DataFrame(table[0:window]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    dataframe2 = pd.DataFrame(table[window:window*2]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    dataframe3 = pd.DataFrame(table[window*2:window*3]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    dataframe4 = pd.DataFrame(table[window*3:window*4]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    dataframe5 = pd.DataFrame(table[window*4:window*5]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    dataframe6 = pd.DataFrame(table[window*5:window*6]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+
+    bddf1mean = dataframe1.mean()
+    bddf2mean = dataframe2.mean()
+    bddf3mean = dataframe3.mean()
+    bddf4mean = dataframe4.mean()
+    bddf5mean = dataframe5.mean()
+    bddf6mean = dataframe6.mean()
+
+    bddf1meanvalues = pd.DataFrame(bddf1mean).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window))
+    bddf2meanvalues = pd.DataFrame(bddf2mean).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*2))
+    bddf3meanvalues = pd.DataFrame(bddf3mean).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*3))
+    bddf4meanvalues = pd.DataFrame(bddf4mean).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*4))
+    bddf5meanvalues = pd.DataFrame(bddf5mean).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*5))
+    bddf6meanvalues = pd.DataFrame(bddf6mean).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*6))
+
+    BDMresult = pd.concat([bddf1meanvalues, bddf2meanvalues, bddf3meanvalues, bddf4meanvalues, bddf5meanvalues, bddf6meanvalues], axis = 1)
+    return BDMresult
+
+def window_metrics_std(table, window):
+    mqdf1 = pd.DataFrame(table[0:window]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    mqdf2 = pd.DataFrame(table[window:window*2]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    mqdf3 = pd.DataFrame(table[window*2:window*3]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    mqdf4 = pd.DataFrame(table[window*3:window*4]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    mqdf5 = pd.DataFrame(table[window*4:window*5]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+    mqdf6 = pd.DataFrame(table[window*5:window*6]).reset_index(drop = True).apply(pd.to_numeric, errors='ignore')
+
+    mqdf1std = mqdf1.std().rename({'MEAN_QUALITY':'SD'})
+    mqdf1stdtable = pd.DataFrame(mqdf1std).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window))
+    mqdf2std = mqdf2.std().rename({'MEAN_QUALITY':'SD'})
+    mqdf2stdtable = pd.DataFrame(mqdf2std).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*2))
+    mqdf3std = mqdf3.std().rename({'MEAN_QUALITY':'SD'})
+    mqdf3stdtable = pd.DataFrame(mqdf3std).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*3))
+    mqdf4std = mqdf4.std().rename({'MEAN_QUALITY':'SD'})
+    mqdf4stdtable = pd.DataFrame(mqdf4std).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*4))
+    mqdf5std = mqdf5.std().rename({'MEAN_QUALITY':'SD'})
+    mqdf5stdtable = pd.DataFrame(mqdf5std).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*5))
+    mqdf6std = mqdf6.std().rename({'MEAN_QUALITY':'SD'})
+    mqdf6stdtable = pd.DataFrame(mqdf6std).T.drop('CYCLE', axis = 1).add_suffix('_'+str(window*6))
+
+    MQMresult = pd.concat([mqdf1stdtable, mqdf2stdtable, mqdf3stdtable, mqdf4stdtable, mqdf5stdtable, mqdf6stdtable], axis = 1)
+    return MQMresult
+
+def sequencing_artifact_metrics(table):
+    sadfone = pd.DataFrame(table.loc[1]).T.reset_index(drop = True)
+    sadf1 = sadfone.add_suffix("_1").drop(['SAMPLE_ALIAS_1', 'LIBRARY_1', 'WORST_CXT_1', 
+                                       'WORST_CXT_QSCORE_1', 'WORST_PRE_CXT_1', 
+                                       'WORST_PRE_CXT_QSCORE_1', 'WORST_POST_CXT_1',
+                                       'WORST_POST_CXT_QSCORE_1'], axis = 1)
+    sadftwo = pd.DataFrame(table.loc[2]).T.reset_index(drop = True)
+    sadf2 = sadftwo.add_suffix("_2").drop(['SAMPLE_ALIAS_2', 'LIBRARY_2', 'WORST_CXT_2', 
+                                       'WORST_CXT_QSCORE_2', 'WORST_PRE_CXT_2', 
+                                       'WORST_PRE_CXT_QSCORE_2', 'WORST_POST_CXT_2',
+                                       'WORST_POST_CXT_QSCORE_2'], axis = 1)
+    sadfthree = pd.DataFrame(table.loc[3]).T.reset_index(drop = True)
+    sadf3 = sadfthree.add_suffix("_3").drop(['SAMPLE_ALIAS_3', 'LIBRARY_3','WORST_CXT_3', 
+                                        'WORST_CXT_QSCORE_3','WORST_PRE_CXT_3', 
+                                         'WORST_PRE_CXT_QSCORE_3', 'WORST_POST_CXT_3',
+                                       'WORST_POST_CXT_QSCORE_3'], axis = 1)
+    sadffour = pd.DataFrame(table.loc[4]).T.reset_index(drop = True)
+    sadf4 = sadffour.add_suffix("_4").drop(['SAMPLE_ALIAS_4', 'LIBRARY_4', 'WORST_CXT_4', 
+                                        'WORST_CXT_QSCORE_4', 'WORST_PRE_CXT_4', 
+                                        'WORST_PRE_CXT_QSCORE_4', 'WORST_POST_CXT_4',
+                                       'WORST_POST_CXT_QSCORE_4'], axis = 1)
+    sadffive = pd.DataFrame(table.loc[5]).T.reset_index(drop = True)
+    sadf5 = sadffive.add_suffix("_5").drop(['SAMPLE_ALIAS_5', 'LIBRARY_5', 
+                                        'WORST_CXT_5', 'WORST_CXT_QSCORE_5', 'WORST_PRE_CXT_5', 
+                                        'WORST_PRE_CXT_QSCORE_5', 'WORST_POST_CXT_5',
+                                       'WORST_POST_CXT_QSCORE_5'], axis = 1)
+    sadfsix = pd.DataFrame(table.loc[6]).T.reset_index(drop = True)
+    sadf6 = sadfsix.add_suffix("_6").drop(['SAMPLE_ALIAS_6', 'LIBRARY_6', 
+                                       'WORST_CXT_6', 'WORST_CXT_QSCORE_6', 
+                                       'WORST_PRE_CXT_6', 'WORST_PRE_CXT_QSCORE_6', 'WORST_POST_CXT_6',
+                                       'WORST_POST_CXT_QSCORE_6'], axis = 1)
+    sadfseven = pd.DataFrame(table.loc[7]).T.reset_index(drop = True)
+    sadf7 = sadfseven.add_suffix("_7").drop(['SAMPLE_ALIAS_7', 'LIBRARY_7', 
+                                         'WORST_CXT_7', 'WORST_CXT_QSCORE_7', 
+                                         'WORST_PRE_CXT_7', 'WORST_PRE_CXT_QSCORE_7', 'WORST_POST_CXT_7',
+                                       'WORST_POST_CXT_QSCORE_7'], axis = 1)
+    sadfeight = pd.DataFrame(table.loc[8]).T.reset_index(drop = True)
+    sadf8 = sadfeight.add_suffix("_8").drop(['SAMPLE_ALIAS_8', 'LIBRARY_8', 'WORST_CXT_8', 
+                                         'WORST_CXT_QSCORE_8', 'WORST_PRE_CXT_8', 
+                                         'WORST_PRE_CXT_QSCORE_8', 'WORST_POST_CXT_8',
+                                       'WORST_POST_CXT_QSCORE_8'], axis = 1)
+    sadfnine = pd.DataFrame(table.loc[9]).T.reset_index(drop = True)
+    sadf9 = sadfnine.add_suffix("_9").drop(['SAMPLE_ALIAS_9', 'LIBRARY_9', 
+                                        'WORST_CXT_9', 'WORST_CXT_QSCORE_9', 
+                                        'WORST_PRE_CXT_9', 'WORST_PRE_CXT_QSCORE_9', 'WORST_POST_CXT_9',
+                                       'WORST_POST_CXT_QSCORE_9'], axis = 1)
+    sadften = pd.DataFrame(table.loc[10]).T.reset_index(drop = True)
+    sadf10 = sadften.add_suffix("_10").drop(['SAMPLE_ALIAS_10', 'LIBRARY_10', 
+                                         'WORST_CXT_10', 'WORST_CXT_QSCORE_10', 
+                                         'WORST_PRE_CXT_10', 'WORST_PRE_CXT_QSCORE_10', 'WORST_POST_CXT_10',
+                                       'WORST_POST_CXT_QSCORE_10'], axis = 1)
+    sadfeleven = pd.DataFrame(table.loc[11]).T.reset_index(drop = True)
+    sadf11 = sadfeleven.add_suffix("_11").drop(['SAMPLE_ALIAS_11', 'LIBRARY_11', 
+                                            'WORST_CXT_11', 'WORST_CXT_QSCORE_11', 
+                                            'WORST_PRE_CXT_11', 'WORST_PRE_CXT_QSCORE_11', 'WORST_POST_CXT_11',
+                                       'WORST_POST_CXT_QSCORE_11'], axis = 1)
+    sadftwelve = pd.DataFrame(table.loc[12]).T.reset_index(drop = True)
+    sadf12 = sadftwelve.add_suffix("_12").drop(['SAMPLE_ALIAS_12', 'LIBRARY_12', 
+                                            'WORST_CXT_12', 'WORST_CXT_QSCORE_12', 'WORST_PRE_CXT_12', 
+                                            'WORST_PRE_CXT_QSCORE_12', 'WORST_POST_CXT_12',
+                                       'WORST_POST_CXT_QSCORE_12'], axis = 1)
+    SAMresult = pd.concat([sadf1,sadf2, sadf3, sadf4, sadf5, sadf6, sadf7, sadf8, sadf9, sadf10, sadf11, sadf12 ], axis = 1)
+    return SAMresult
+
+def windows(table, window):
+    if len(table.columns) == 2:
+        return window_metrics_mean(table, window)
+
+    if len(table.columns) == 7:
+        return window_metrics_std(table, window)
+
+
+def mainfile(index):
+    allsamplecolumns = ['alignment_summary_metrics', 'base_distribution_by_cycle_table', 'gc_bias_summary_metrics', 
+                        'insert_size_metrics', 'mean_quality_by_cycle_table', 
+                        'sequencing_artifact_summary_metrics', 'quality_score_table', 'quality_yield_metrics', 
+                        'raw_wgs_metrics', 'wgs_metrics']
+    table_name = "sample"
+    samples = pd.read_csv(io.StringIO(fiss.fapi.get_entities_tsv(project, workspace, 'sample').text), sep='\t')
+    samples.rename(columns = {'entity:sample_id':'sample'}, inplace = True)
+#     specificcolumns = samples[['alignment_summary_metrics', 'base_distribution_by_cycle_table', 'gc_bias_summary_metrics', 
+#                         'insert_size_metrics', 'mean_quality_by_cycle_table', 
+#                         'sequencing_artifact_summary_metrics', 'quality_score_table', 'quality_yield_metrics', 
+#                         'raw_wgs_metrics', 'wgs_metrics']]
+#     dropemptyrows = specificcolumns.dropna(axis = 0)
+#     dropemptycolumns = dropemptyrows.dropna(axis = 1)
+#     files = ! ls
+
+    Dict = {}
+    for i in index:
+        result = []
+        for column in allsamplecolumns:
+            metric = samples.at[i, column]
+            if type(metric) == float and math.isnan(metric):
+                continue
+            else:
+                result.append(metric)
+        if result != []:
+            key1 = result[0].split('.')[0].split('/')[-1]
+            Dict[key1] = result
+    return Dict
+
+#     for column in allsamplecolumns:
+#         for i in index:
+#             metric = dropemptycolumns[column][i]
+#             if metric == 'NaN':
+#                 continue
+#             else:
+#                 ! gsutil cp $metric .
+#                 result.append(metric.split("/")[-1])
+#         return result
+
+
+sampledict = mainfile(range(50))
+allsamplecolumns = ['alignment_summary_metrics', 'base_distribution_by_cycle_table', 'gc_bias_summary_metrics', 
+                        'insert_size_metrics', 'mean_quality_by_cycle_table', 
+                        'sequencing_artifact_summary_metrics', 'quality_score_table', 'quality_yield_metrics', 
+                        'raw_wgs_metrics', 'wgs_metrics']
+def concattables():
+    result = pd.DataFrame()
+    for k in sampledict.keys():
+        listoftables = []
+        for v in sampledict.get(k):
+            if ('alignment_summary_metrics' in v): 
+                alignment1 = addrows(v, '## METRICS CLASS')
+                suffixes = alignment1['CATEGORY'].tolist()
+                alignment = concatrows(alignment1, suffixes)
+                listoftables.append(alignment)
+            elif ('base_distribution_by_cycle_table' in v):
+                base = windows(addrows(v, '## METRICS CLASS'), 50)
+                listoftables.append(base)
+            elif('gc_bias_summary_metrics' in v):
+                gc = addrows(v, '## METRICS CLASS')
+                gcdrop = gc.reset_index(drop = True)
+                listoftables.append(gcdrop)
+            elif ('insert_size_metrics' in v):
+                insert1 = addrows(v, '## METRICS CLASS')
+                suffixes = insert1['PAIR_ORIENTATION'].tolist()
+                insert = concatrows(insert1, suffixes)
+                listoftables.append(insert)
+            elif('mean_quality_by_cycle_table' in v):
+                meanquality = windows(addrows(v, '## HISTOGRAM'), 50)
+                listoftables.append(meanquality)
+            elif('pre_adapter_summary_metrics' in v):
+                sequencing = sequencing_artifact_metrics(addrows(v, '## METRICS CLASS'))
+                listoftables.append(sequencing)
+            elif('quality_score_distribution' in v):
+                qs1 = addrows(v, '## HISTOGRAM')
+                suffixes = qs1['QUALITY'].tolist()
+                qs = concatrows(qs1, suffixes)
+                listoftables.append(qs)
+            elif('quality_yield_metrics' in v):
+                qym = addrows(v, '## METRICS CLASS')
+                qymdrop = qym.reset_index(drop = True)
+                listoftables.append(qymdrop)
+            elif('raw_wgs_metrics' in v):
+                raw = addrows(v, '## METRICS CLASS')
+                rawdrop = raw.reset_index(drop = True).add_suffix('raw')
+                listoftables.append(rawdrop)
+            elif('wgs_metrics' in v):
+                wgs = addrows(v, '## METRICS CLASS')
+                wgsdrop = wgs.reset_index(drop = True)
+                listoftables.append(wgsdrop)
+        newrow = pd.concat(listoftables, axis = 1)
+        test =[]
+#         for i in range(len(newrow.columns)):
+#             for j in range(i + 1, len(newrow.columns)):
+#                 if newrow.columns[i] == newrow.columns[j]:
+#                     test.append(newrow.columns[i])
+#         print(len(test))
+#         if len(set(newrow.columns)) != len(newrow.columns):
+#             print('duplicate')
+
+
+#         duplicates = find_duplicates(newrow)
+#         print(duplicates)
+        result = result.loc[:, ~result.columns.duplicated()].copy()
+        newrow = newrow.loc[:, ~newrow.columns.duplicated()].copy()
+        result = pd.concat([result, newrow], ignore_index = True)
+    return result
+
+
+