Python fast string parsing, manipulation
我正在使用python解析传入的逗号分隔字符串。之后我想对这些数据做一些计算。字符串的长度为:800个字符,120个逗号分隔字段。有120万个字符串需要处理。
1 2 3 | for v in item.values(): l.extend(get_fields(v.split(','))) #process l |
get_fields使用operator.itemgetter()从120中提取大约20个字段。
整个操作大约需要4-5分钟,但不包括引入数据的时间。在程序的后面部分,我将这些行插入到sqlite内存表中以供进一步使用。但总的来说,仅仅解析和获取列表的4-5分钟时间不适合我的项目。
我在大约6-8个线程中运行这个处理。
切换到C/C++会有帮助吗?
你在用你的档案记录加载口述吗?最好直接处理数据:
1 2 3 4 5 | datafile = file("file_with_1point2million_records.dat") # uncomment next to skip over a header record # file.next() l = sum(get_fields(v.split(',')) for v in file, []) |
号
这样可以避免创建任何整体数据结构,并且只累积由get_字段返回的所需值。
您的程序可能会放慢速度,试图为1.2米的字符串分配足够的内存。换句话说,速度问题可能不是由字符串解析/操作引起的,而是由
1 2 3 | for v in item.values(): print('got here') l.extend(get_fields(v.split(','))) |
如果打印语句越来越慢,您可能会得出结论:
PS:您可能应该使用