镶木地板#

读写 Parquet 文件支持 format='parquet' if the pyarrow and pandas 包已安装。对于写作,文件扩展名 .parquet.parq 将自动暗示 'parquet' 格式.对于读取,如果文件的前四个字节是 b'PAR1' .在许多情况下,您不需要显式指定 format='parquet' ,但无论如何,如果文件格式存在任何歧义,这可能是一个好主意。

不支持读写多文件拼图数据集。

实例#

从名为的拼图文件中读取表的步骤 observations.parquet ,您可以::

>>> t = Table.read('observations.parquet')

要将表写入新文件,只需执行以下操作::

>>> t.write('new_file.parquet')

与其他格式一样, overwrite=True 参数支持覆盖现有文件。

拼图文件的一大优势是每列都是独立存储的,因此读取列的子集是快速和高效的。若要找出哪些列存储在表中而不读取数据,请使用 schema_only=True 如下所示。这将返回一个包含适当列的零长度表::

>>> schema = Table.read('observations.parquet', schema_only=True)

若要只读取列的子集,请使用 include_names 和/或 exclude_names 关键词::

>>> t_sub = Table.read('observations.parquet', include_names=['mjd', 'airmass'])