关于python:python3:创建字典的选择性副本作为新字典

Python3: create selective copy of dictionary as a new dictionary

使用python3.3.0,我从csv文件(header:ID;Col1;Col2;Col3;Col4;Col5创建了一个"字典"):

1
2
3
4
5
ID;Col1;Col2;Col3;Col4;Col5
15345;1;1;nnngngn;vhrhtnz;latest
12345;12;8;gnrghrtthr;tznhltrnhklr;latest
90834;3;4;something;nonsens;latest
12345;34;235;dontcare;muhaha;oldone

用代码

1
2
file ="test.csv"
csv_file = csv.DictReader(open(file, 'r'), delimiter=';', quotechar='"')

我想把id=12345的行复制到新字典中,而不是文件中。我真的想把它复制到字典中,而不是列表中,因为我想能够直接寻址列名。我试着这么做

1
2
3
4
5
cewl = {}
for row in csv_file:
   if row['ID'] == '12345':
   cewl.update(row)
print(cewl)

输出为:

1
{'ID': '12345', 'Col1': '34', 'Col2': '235', 'Col3': 'dontcare', 'Col4': 'muhaha', 'Col5': 'oldone'}

我的问题:只有ID=12345的第二行被复制,第一行被省略了,我不知道为什么。

如果我通过复制到一个新的列表(只是为了测试目的)来尝试这个方法,那么一切都可以正常工作:

1
2
3
4
5
cewl = []
for row in csv_file1:
if row['ID'] == '12345':
    cewl.append(row)
print(cewl)

输出为:

1
2
[{'Col3': 'gnrghrtthr', 'Col2': '8', 'Col1': '12', 'Col5': 'latest', 'Col4': 'tznhltrnhklr', 'ID': '12345'},
{'Col3': 'dontcare', 'Col2': '235', 'Col1': '34', 'Col5': 'oldone', 'Col4': 'muhaha', 'ID': '12345'}]

我不知道为什么通过复制到新字典中这不起作用…似乎没有像.add或.append这样的方法用于dictleader。

如何将数据复制到新字典中而不丢失任何行?


预期产量是多少?对于一个dict来说,这种行为是完全正常的;您正在用一个新值替换每个键的值。

如果您希望值是每个匹配行的值列表,那么使用defaultdictlist工厂更容易:

1
2
3
4
5
6
7
8
9
10
from collections import defaultdict

cewl = defaultdict(list)

for row in csv_file:
   if row['ID'] == '12345':
       for k, v in row.items():
           cewl[k].append(v)

print(cewl)

此输出:

1
defaultdict(<class 'list'>, {'Col1': ['12', '34'], 'ID': ['12345', '12345'], 'Col2': ['8', '235'], 'Col5': ['latest', 'oldone'], 'Col4': ['tznhltrnhklr', 'muhaha'], 'Col3': ['gnrghrtthr', 'dontcare']})

defaultdictdict的一个子类,因此print(cewl['Col1'])将打印['12', '34']

当您使用.update()时,可以有效地执行以下操作:

1
2
for k, v in row.items():
    cewl[k] = v

例如,将cewl中的每个键设置为在正在处理的行中找到的值。当处理最后一行时,它的值将覆盖前一行的值。

如果您只想筛选出符合特定ID条件的行,那么将它们添加到列表中就非常好了。然后循环匹配的结果以处理它们:

1
2
for row in cewl:
    # do something with matched row

或者,您可以构建一个生成器过滤器,将它环绕在您的DictReader()上,以便为您进行筛选,因此您不需要在内存中构建列表:

1
2
3
4
5
6
7
def rowfilter(reader, id):
    for row in reader:
        if row['ID'] == id:
            yield row

for row in rowfilter(csv_file, '12345'):
    # do something with matched row