前言
在使用私有的数据集进行深度学习工作时,往往需要对dicom数据序列进行预处理。由于dicom文件格式的多样性,在原始的数据下进行诸如查看和打标签的工作变得困难。
本文将介绍如何使用dcm2niix这个工具进行dicom到nii.gz格式的转换。
测试环境:Windows10 + python3
工具准备
可以直接下载工具包,选择相应的系统版本即可:
https://github.com/rordenlab/dcm2niix/releases
也可以使用MRIcroGL 中集成的dcm2niix工具,两者都是一样的:
https://github.com/rordenlab/MRIcroGL12/releases
本人机器安装了MRIcroGL,dcm2niix.exe默认安装在C:\Program Files (x86)\MRIcroGL\Resources
这是一个命令行工具,没有GUI,需要添加环境变量,在用户变量和系统变量中同时添加名为dcm2niix的环境变量,在path路径也添加该目录:
打开powershell或者cmd,输入dcm2niix,如果出现以下界面,则环境变量添加成功:
Powershell中使用
接下来,测试工具的使用,可以打开MRIcroGL,在菜单的import中打开DIOCM to nifty 的对话框,如下图所示,在左侧输入文件名,选择一些参数后,将右侧红框命令复制到命令行运行,只需要复制dcm2niix后面的部分:
具体的命令参数说明可以在命令行输入
此处,一个example是:
1 | dcm2niix.exe -f "outputfilename" -i y -l y -p y -x y -v y -z y -o "E:\datasets" "c:\DicomDir" |
其中,
你可以根据你自己的需要选择各种参数。
Python批处理
本部分介绍如何使用python进行批处理。
首先遍历一个含有非常多个dicom序列的文件夹,然后将其的dicom文件的路径保存到一个txt文件中,然后读取txt中的文件路径,在在for循环中调用dcm2niix进行格式的批处理。
分别执行下面两段代码:
首先,遍历文件:
遍历文件并保存为txt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 | # 当前目录下所有文件夹下的文件名(不带后缀)写入对应txt文件(以文件夹命名)中 import os # 如果文件夹不存在创建文件夹 def Makedir(path): folder = os.path.exists(path) if (not folder): os.makedirs(path) # 利用os.listdir()、os.walk()获取文件夹和文件名 def GetFileName(fileDir, outDir): list_name = [] Makedir(outDir) for dir in os.listdir(fileDir): # 获取当前目录下所有文件夹和文件(不带后缀)的名称 filePath = os.path.join(fileDir, dir) # 得到文件夹和文件的完整路径 if os.path.isdir(filePath) and not (filePath == outDir): txt = outDir+"list.txt" # 获取根目录路径、子目录路径,根目录和子目录下所有文件名 for root, subDir, files in os.walk(filePath): for subfilepath in subDir: f = open(txt, 'a') # 以追加方式打开文件 subfilepath = os.path.join(filePath, subfilepath) # 得到文件上层目录 f.write(subfilepath+'\n') #此处增加了一个换行符,方便txt文件的查看,后面读取的时候需要去掉换行符 f.close() def main(): print("procesiing……\n") fileDir = r"E:\datasets\LiverCT" # 输入文件夹路径 outDir = "E:\datasets\liver_ct_process_output\" files = GetFileName(fileDir, outDir) print("done!\n") # 判断是否是程序主入口而已,如果是程序主入口,则代码块执行,否则代码块不执行 # 主要用于别人调用此代码时,不要进入该代码的入口 if __name__ == "__main__": main() |
然后,读取txt文件,进行批处理转换,这里为了保护病人隐私,去掉了原文件的信息,使用以随机产生的名字:
批处理
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 | import sys #导入sys模块 import os #from PIL import Image #PIL是python的第三方图像处理库 #dcm2niix.exe -f "outputname" -i y -m y -p y -x y -z y -b n -o "E:\datasets\liver_ct_process_output" "E:\datasets\LiverCT\庄健忠\20180105000198" # system command line d2n = 'dcm2niix.exe -f ' para = ' -i y -l y -p y -x y -v y -z y -o ' output_path = "E:\datasets\liver_ct_process_output" ###产生随机命名 import random def ranstr(num): #dictionary H = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789' salt = '' for i in range(num): salt += random.choice(H) return salt # read txt filepaths = [] for line in open("E:\datasets\liver_ct_process_output\list.txt", "r"): # 设置文件对象并读取每一行文件 filepaths.append(line) # deal with format transform for filepath in filepaths: filepath = filepath[:-1] #去掉行位的换行符 outputname = "liver_ct_"+ ranstr(10) cmd = d2n + outputname + para +'"'+ output_path +'" ' + '"'+ filepath +'"' #其中的双引号不可少 os.system(cmd) print("Congratulation, Done!") |
处理好的文件,可以到你的输出目录中去查找,使用MRIcroGL直接打开如下:
完