镶木地板#
读写 Parquet 文件支持 format='parquet' if the pyarrow and pandas 包已安装。对于写作,文件扩展名 .parquet 或 .parq 将自动暗示 'parquet' 格式.对于读取,如果文件的前四个字节是 b'PAR1' .在许多情况下,您不需要显式指定 format='parquet' ,但无论如何,如果文件格式存在任何歧义,这可能是一个好主意。
不支持读写多文件拼图数据集。
实例#
从名为的拼图文件中读取表的步骤 observations.parquet ,您可以::
>>> t = Table.read('observations.parquet')
要将表写入新文件,只需执行以下操作::
>>> t.write('new_file.parquet')
与其他格式一样, overwrite=True 参数支持覆盖现有文件。
拼图文件的一大优势是每列都是独立存储的,因此读取列的子集是快速和高效的。若要找出哪些列存储在表中而不读取数据,请使用 schema_only=True 如下所示。这将返回一个包含适当列的零长度表::
>>> schema = Table.read('observations.parquet', schema_only=True)
若要只读取列的子集,请使用 include_names 和/或 exclude_names 关键词::
>>> t_sub = Table.read('observations.parquet', include_names=['mjd', 'airmass'])