python进行信息匹配

news/2024/7/8 2:24:18 标签: python

最近需要根据样本编号比对信息，故写了脚本进行处理，满足日常的匹配需求，初步编写的脚本如下：

python"># —*—coding:utf-8_*_
# date: 2020-05-04

import xlrd
import csv
import argparse,os,io
def pre_prepration(cur_path,sample_list):
    sample_list_file = open("%s/%s"%(cur_path,args.list),"r")
    for s in sample_list_file:
        sample_list.append(s.strip())

def match_tumor_con(cur_path,sample_list):
    tumor_con_dict = {}
    # write for txt formate
    # out_txt = open(r"D:\PycharmProjects\Tumor\tumor_con.txt","w")
    out_txt = io.open("%s/%s.txt"%(cur_path,args.outfile),"w",encoding="utf-8")
    out_txt.write("SampleID\tTumor_Con\n")
    # write for csv formate
    out_csv = open("%s/%s.csv"%(cur_path,args.outfile),"w",newline="",encoding="utf-8")
    # out_csv = io.open("%s/%s.csv"%(cur_path,args.outfile),"w",encoding="utf-8")
    header = ["SampleID","Tumor_Con"]
    csv_writer = csv.DictWriter(out_csv,fieldnames=header)
    csv_writer.writeheader()
    # read xlsx file
    xls_file = xlrd.open_workbook("%s/%s"%(cur_path,args.excel),"r")
    for i in range(2):
        data = xls_file.sheet_by_index(i)
        n_cols = data.ncols
        n_rows = data.nrows
        for m in range(1,n_rows):
            c_type = data.cell(m,0).ctype
            if c_type == 2 and data.cell(m,0).value % 1 == 0:
                tumor_con_dict[int(data.cell(m,0).value)] = data.cell(m,4).value
                if data.cell(m,4).value == "":
                    out_txt.write(str(int(data.cell(m,0).value)) + "\t" + "-"  + "\n")
                    csv_writer.writerow({"SampleID":int(data.cell(m,0).value),"Tumor_Con":"-"})
                else:
                    out_txt.write(str(int(data.cell(m,0).value)) + "\t" + str(data.cell(m,4).value) + "\n")
                    csv_writer.writerow({"SampleID":data.cell(m,0).value,"Tumor_Con":data.cell(m,4).value})
            else:
                tumor_con_dict[data.cell(m, 0).value] = data.cell(m, 4).value
                if data.cell(m, 4).value == "":
                    out_txt.write(str(data.cell(m, 0).value) + "\t" + "-" + "\n")
                    csv_writer.writerow({"SampleID": data.cell(m, 0).value, "Tumor_Con": "-"})
                else:
                    out_txt.write(str(data.cell(m, 0).value) + "\t" + str(data.cell(m, 4).value) + "\n")
                    csv_writer.writerow({"SampleID": data.cell(m, 0).value, "Tumor_Con": data.cell(m, 4).value})

    with open("%s/%s_match.txt"%(cur_path,args.outfile),"w") as match_file:
        match_file.write("Lib_ID\tTumor_Con\n")
        for sample in list(set(sample_list)):
            if sample[:9] in tumor_con_dict:
                match_file.write(sample + "\t" + tumor_con_dict[sample[:9]] + "\n")
    match_file.close()

if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument("-e","--excel",type=str,help="input file formate like .xls or .xlsx")
    parser.add_argument("-l","--list",type=str,help="the sample list of matching the tumor concentration")
    parser.add_argument("-o","--outfile",type=str,help="output file name")
    args = parser.parse_args()
    sample_list = []
    cur_path = os.getcwd()
    pre_prepration(cur_path,sample_list)
    match_tumor_con(cur_path,sample_list)

python进行信息匹配

相关文章

数据可视化--表格融合练习

练习系列：Python字典：一键对应多值

从分析结果中根据list提取突变信息

bwa mem 报错处理：[mem_sam_pe] paired reads have different names

python windows环境下批量修改文件的创建时间、访问时间、修改时间

pip更新时出错pip install --upgrade pip

pip安装包时ImportError: cannot import name 'main'

Ubuntu18.04安装NVIDIA 显卡驱动(GTX 1060)