Proper Python data structure for real-time analysis?
社区,
目标:我正在运行一个Pi项目(即Python),它与Arduino进行通信,每秒钟从一个称重传感器获取数据。我应该使用什么数据结构来记录(并对Python中的数据进行实时分析)?
我希望能够做到这样的事情:
目前的尝试:
字典:我在字典中添加了一个带有舍入时间的新键(见下文),但这使切片和分析变得困难。
1 2 3 4 | log = {} def log_data(): log[round(time.time(), 4)] = read_data() |
Pandas DataFrame:这是我跳过的那个,因为它使得时间序列切片和分析变得容易,但是这个(如何使用python pandas处理传入的实时数据)似乎说它是一个坏主意。我不能按照他们的解决方案(即存储在字典中,并且每隔几秒钟
这个问题(Python上的实时信号的ECG数据分析)似乎和我一样有问题,但没有真正的解决方案。
目标:
那么在Python中处理和分析实时时间序列数据的正确方法是什么?这似乎是每个人都需要做的事情,所以我想有必要为此预先构建功能?
谢谢,
迈克尔
首先,我会质疑两个假设:
无论如何,这是一个使用列表的非常天真的方法。 它满足您的需求。 性能可能会成为问题,具体取决于您需要存储的先前数据点的数量。
此外,您可能没有想到这一点,但是您是否需要过去数据的完整记录? 或者你可以放弃东西?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | data = [] new_observation = (timestamp, value) # new data comes in data.append(new_observation) # Slice the data to get the value of the last logged datapoint. data[-1] # Slice the data to get the mean of the datapoints for the last n seconds. mean(map(lambda x: x[1], filter(lambda o: current_time - o[0] < n, data))) # Perform a regression on the last n data points to get g/s. regression_function(data[-n:]) # Remove from the log data points older than n seconds. data = filter(lambda o: current_time - o[0] < n, data) |