关于性能：Python快速字符串解析，操作

Python fast string parsing, manipulation

我正在使用python解析传入的逗号分隔字符串。之后我想对这些数据做一些计算。字符串的长度为：800个字符，120个逗号分隔字段。有120万个字符串需要处理。

1
2
3

for v in item.values():
l.extend(get_fields(v.split(',')))
#process l

get_fields使用operator.itemgetter()从120中提取大约20个字段。

整个操作大约需要4-5分钟，但不包括引入数据的时间。在程序的后面部分，我将这些行插入到sqlite内存表中以供进一步使用。但总的来说，仅仅解析和获取列表的4-5分钟时间不适合我的项目。

我在大约6-8个线程中运行这个处理。

切换到C/C++会有帮助吗？

相关讨论

你在用你的档案记录加载口述吗？最好直接处理数据：

1
2
3
4
5

datafile = file("file_with_1point2million_records.dat")
# uncomment next to skip over a header record
# file.next()

l = sum(get_fields(v.split(',')) for v in file, [])

号

这样可以避免创建任何整体数据结构，并且只累积由get_字段返回的所需值。

您的程序可能会放慢速度，试图为1.2米的字符串分配足够的内存。换句话说，速度问题可能不是由字符串解析/操作引起的，而是由l.extend引起的。要测试此低血压，可以在循环中放入print语句：

1
2
3

for v in item.values():
print('got here')
l.extend(get_fields(v.split(',')))

如果打印语句越来越慢，您可能会得出结论：l.extend是罪魁祸首。在这种情况下，如果可以将每一行的处理移动到循环中，您可能会看到显著的速度提高。

PS：您可能应该使用csv模块以更高级的方式为您处理解析，但我认为这不会对速度产生很大的影响。