关于python：从numpy.datetime64转换为pandas.tslib.Timestamp错误？

Conversion from numpy.datetime64 to pandas.tslib.Timestamp bug?

我有一个python模块，它将数据直接加载到numpy.ndarray的dict中，以便在pandas.dataframe中使用。但是，我注意到了"na"值的一个问题。我的文件格式表示NA值A-9223372036854775808(boost:：integer_traits:：const_min)。我的非NA值按预期加载到pandas.dataframe中(使用正确的值)。我相信正在发生的是，我的模块加载到numpy.datetime64 ndarray中，然后将其转换为pandas.tslib.timestamp的列表。此转换似乎不保留"const_min"整数。尝试以下操作：

1
2
3
4

>>> pandas.tslib.Timestamp(-9223372036854775808)
NaT
>>> pandas.tslib.Timestamp(numpy.datetime64(-9223372036854775808))
<Timestamp: 1969-12-31 15:58:10.448384>

这是熊猫虫吗？我想在这种情况下，我可以让我的模块避免使用numpy.ndarray，并使用熊猫不喜欢的东西(可能预先分配tslib.timestamp本身的列表)。

下面是发生意外事件的另一个例子：

1
2
3
4
5
6

>>> npa = numpy.ndarray(1, dtype=numpy.datetime64)
>>> npa[0] = -9223372036854775808
>>> pandas.Series(npa)
0 NaT
>>> pandas.Series(npa)[0]
<Timestamp: 1969-12-31 15:58:10.448384>

下面是杰夫的评论，我有更多关于问题的信息。

1
2
3
4
5
6
7
8
9

>>> npa = numpy.ndarray(2, dtype=numpy.int64)
>>> npa[0] = -9223372036854775808
>>> npa[1] = 1326834000090451
>>> npa
array([-9223372036854775808, 1326834000090451])
>>> s_npa = pandas.Series(npa, dtype='M8[us]')
>>> s_npa
0 NaT
1 2012-01-17 21:00:00.090451

哎呀！这个系列保留了NA和我的时间戳。但是，如果我试图从这个系列创建一个数据帧，那么NAT就消失了。

1
2
3
4

>>> pandas.DataFrame({'ts':s_npa})
ts
0 1969-12-31 15:58:10.448384
1 2012-01-17 21:00:00.090451

嗬哼。一时兴起，我试着把整数解释成过去一个时代的纳米秒。令我惊讶的是，数据帧工作正常：

1
2
3
4
5
6
7
8

s2_npa = pandas.Series(npa, dtype='M8[ns]')
>>> s2_npa
0 NaT
1 1970-01-16 08:33:54.000090451
>>> pandas.DataFrame({"ts":s2_npa})
ts
0 NaT
1 1970-01-16 08:33:54.000090451

当然，我的时间戳不正确。我的观点是pandas.dataframe在这里的行为不一致。为什么在使用dtype='m8[ns]'时保留nat，而在使用'm8[us]'时不保留？

我目前正在使用此变通方法来转换，这会使速度减慢很多，但会起作用：

1
2
3
4
5

>>> s = pandas.Series([1000*ts if ts != -9223372036854775808 else ts for ts in npa], dtype='M8[ns]')
>>> pandas.DataFrame({'ts':s})
ts
0 NaT
1 2012-01-17 21:00:00.090451

(几个小时后……)

好吧，我有进步。我已经深入研究了代码，以认识到序列上的repr函数最终调用了"format"datetime64，它检查"isull"，并打印出"nat"，解释了这两者之间的区别。

1
2
3
4

>>> pandas.Series(npa)
0 NaT
>>> pandas.Series(npa)[0]
<Timestamp: 1969-12-31 15:58:10.448384>

前者似乎是为了向北美致敬，但只有在印刷时才会这样做。我想可能还有其他熊猫函数调用"isNull"并根据答案进行操作，在这种情况下，这可能在NA时间戳中部分起作用。但是，我知道由于元素0的类型，这个系列是不正确的。它是时间戳，但应该是nattype。我的下一步是深入到系列的构造器中，了解pandas在构建期间何时/如何使用nat值。大概，当我指定dtype='m8[us]'时，它缺少一个事例…(来得更多)。

根据安迪在评论中的建议，我尝试使用熊猫时间戳来解决这个问题。它不起作用。以下是这些结果的示例：

1
2
3
4
5
6
7
8

>>> npa = numpy.ndarray(1, dtype='i8')
>>> npa[0] = -9223372036854775808
>>> npa
array([-9223372036854775808])
>>> pandas.tslib.Timestamp(npa.view('M8[ns]')[0]).value
-9223372036854775808
>>> pandas.tslib.Timestamp(npa.view('M8[us]')[0]).value
-28909551616000