libcudf: parquet.hpp Source File

 /*

  * Copyright (c) 2020-2024, NVIDIA CORPORATION.

  *

  * Licensed under the Apache License, Version 2.0 (the "License");

  * you may not use this file except in compliance with the License.

  * You may obtain a copy of the License at

  *

  *     http://www.apache.org/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */


 #pragma once


 #include <cudf/ast/expressions.hpp>

 #include <cudf/io/detail/parquet.hpp>

 #include <cudf/io/types.hpp>

 #include <cudf/table/table_view.hpp>

 #include <cudf/types.hpp>

 #include <cudf/utilities/export.hpp>

 #include <cudf/utilities/memory_resource.hpp>


 #include <iostream>

 #include <memory>

 #include <optional>

 #include <string>

 #include <utility>

 #include <vector>


 namespace CUDF_EXPORT cudf {

 namespace io {

 constexpr size_t default_row_group_size_bytes =

   std::numeric_limits<size_t>::max();

 constexpr size_type default_row_group_size_rows = 1'000'000;

 constexpr size_t default_max_page_size_bytes    = 512 * 1024;

 constexpr size_type default_max_page_size_rows  = 20000;

 constexpr int32_t default_column_index_truncate_length = 64;

 constexpr size_t default_max_dictionary_size           = 1024 * 1024;

 constexpr size_type default_max_page_fragment_size     = 5000;


 class parquet_reader_options_builder;


 class parquet_reader_options {

   source_info _source;


   // Path in schema of column to read; `nullopt` is all

   std::optional<std::vector<std::string>> _columns;


   // List of individual row groups to read (ignored if empty)

   std::vector<std::vector<size_type>> _row_groups;

   // Number of rows to skip from the start; Parquet stores the number of rows as int64_t

   int64_t _skip_rows = 0;

   // Number of rows to read; `nullopt` is all

   std::optional<size_type> _num_rows;


   // Predicate filter as AST to filter output rows.

   std::optional<std::reference_wrapper<ast::expression const>> _filter;


   // Whether to store string data as categorical type

   bool _convert_strings_to_categories = false;

   // Whether to use PANDAS metadata to load columns

   bool _use_pandas_metadata = true;

   // Whether to read and use ARROW schema

   bool _use_arrow_schema = true;

   // Whether to allow reading matching select columns from mismatched Parquet files.

   bool _allow_mismatched_pq_schemas = false;

   // Cast timestamp columns to a specific type

   data_type _timestamp_type{type_id::EMPTY};


   std::optional<std::vector<reader_column_schema>> _reader_column_schema;


   explicit parquet_reader_options(source_info src) : _source{std::move(src)} {}


   friend parquet_reader_options_builder;


  public:

   explicit parquet_reader_options() = default;


   static parquet_reader_options_builder builder(source_info src);


   [[nodiscard]] source_info const& get_source() const { return _source; }


   [[nodiscard]] bool is_enabled_convert_strings_to_categories() const

   {

     return _convert_strings_to_categories;

   }


   [[nodiscard]] bool is_enabled_use_pandas_metadata() const { return _use_pandas_metadata; }


   [[nodiscard]] bool is_enabled_use_arrow_schema() const { return _use_arrow_schema; }


   [[nodiscard]] bool is_enabled_allow_mismatched_pq_schemas() const

   {

     return _allow_mismatched_pq_schemas;

   }


   [[nodiscard]] std::optional<std::vector<reader_column_schema>> get_column_schema() const

   {

     return _reader_column_schema;

   }


   [[nodiscard]] int64_t get_skip_rows() const { return _skip_rows; }


   [[nodiscard]] std::optional<size_type> const& get_num_rows() const { return _num_rows; }


   [[nodiscard]] auto const& get_columns() const { return _columns; }


   [[nodiscard]] auto const& get_row_groups() const { return _row_groups; }


   [[nodiscard]] auto const& get_filter() const { return _filter; }


   [[nodiscard]] data_type get_timestamp_type() const { return _timestamp_type; }


   void set_columns(std::vector<std::string> col_names) { _columns = std::move(col_names); }


   void set_row_groups(std::vector<std::vector<size_type>> row_groups);


   void set_filter(ast::expression const& filter) { _filter = filter; }


   void enable_convert_strings_to_categories(bool val) { _convert_strings_to_categories = val; }


   void enable_use_pandas_metadata(bool val) { _use_pandas_metadata = val; }


   void enable_use_arrow_schema(bool val) { _use_arrow_schema = val; }


   void enable_allow_mismatched_pq_schemas(bool val) { _allow_mismatched_pq_schemas = val; }


   void set_column_schema(std::vector<reader_column_schema> val)

   {

     _reader_column_schema = std::move(val);

   }


   void set_skip_rows(int64_t val);


   void set_num_rows(size_type val);


   void set_timestamp_type(data_type type) { _timestamp_type = type; }

 };


 class parquet_reader_options_builder {

   parquet_reader_options options;


  public:

   parquet_reader_options_builder() = default;


   explicit parquet_reader_options_builder(source_info src) : options{std::move(src)} {}


   parquet_reader_options_builder& columns(std::vector<std::string> col_names)

   {

     options._columns = std::move(col_names);

     return *this;

   }


   parquet_reader_options_builder& row_groups(std::vector<std::vector<size_type>> row_groups)

   {

     options.set_row_groups(std::move(row_groups));

     return *this;

   }


   parquet_reader_options_builder& filter(ast::expression const& filter)

   {

     options.set_filter(filter);

     return *this;

   }


   parquet_reader_options_builder& convert_strings_to_categories(bool val)

   {

     options._convert_strings_to_categories = val;

     return *this;

   }


   parquet_reader_options_builder& use_pandas_metadata(bool val)

   {

     options._use_pandas_metadata = val;

     return *this;

   }


   parquet_reader_options_builder& use_arrow_schema(bool val)

   {

     options._use_arrow_schema = val;

     return *this;

   }


   parquet_reader_options_builder& allow_mismatched_pq_schemas(bool val)

   {

     options._allow_mismatched_pq_schemas = val;

     return *this;

   }


   parquet_reader_options_builder& set_column_schema(std::vector<reader_column_schema> val)

   {

     options._reader_column_schema = std::move(val);

     return *this;

   }


   parquet_reader_options_builder& skip_rows(int64_t val)

   {

     options.set_skip_rows(val);

     return *this;

   }


   parquet_reader_options_builder& num_rows(size_type val)

   {

     options.set_num_rows(val);

     return *this;

   }


   parquet_reader_options_builder& timestamp_type(data_type type)

   {

     options._timestamp_type = type;

     return *this;

   }


   operator parquet_reader_options&&() { return std::move(options); }


   parquet_reader_options&& build() { return std::move(options); }

 };


 table_with_metadata read_parquet(

   parquet_reader_options const& options,

   rmm::cuda_stream_view stream      = cudf::get_default_stream(),

   rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


 class chunked_parquet_reader {

  public:

   chunked_parquet_reader();


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream      = cudf::get_default_stream(),

     rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     std::size_t pass_read_limit,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream      = cudf::get_default_stream(),

     rmm::device_async_resource_ref mr = cudf::get_current_device_resource_ref());


   ~chunked_parquet_reader();


   [[nodiscard]] bool has_next() const;


   [[nodiscard]] table_with_metadata read_chunk() const;


  private:

   std::unique_ptr<cudf::io::parquet::detail::chunked_reader> reader;

 };

   // end of group

 struct sorting_column {

   int column_idx{};

   bool is_descending{false};

   bool is_nulls_first{true};

 };


 class parquet_writer_options_base {

   // Specify the sink to use for writer output

   sink_info _sink;

   // Specify the compression format to use

   compression_type _compression = compression_type::SNAPPY;

   // Specify the level of statistics in the output file

   statistics_freq _stats_level = statistics_freq::STATISTICS_ROWGROUP;

   // Optional associated metadata

   std::optional<table_input_metadata> _metadata;

   // Optional footer key_value_metadata

   std::vector<std::map<std::string, std::string>> _user_data;

   // Parquet writer can write INT96 or TIMESTAMP_MICROS. Defaults to TIMESTAMP_MICROS.

   // If true then overrides any per-column setting in _metadata.

   bool _write_timestamps_as_int96 = false;

   // Parquet writer can write timestamps as UTC

   // Defaults to true because libcudf timestamps are implicitly UTC

   bool _write_timestamps_as_UTC = true;

   // Whether to write ARROW schema

   bool _write_arrow_schema = false;

   // Maximum size of each row group (unless smaller than a single page)

   size_t _row_group_size_bytes = default_row_group_size_bytes;

   // Maximum number of rows in row group (unless smaller than a single page)

   size_type _row_group_size_rows = default_row_group_size_rows;

   // Maximum size of each page (uncompressed)

   size_t _max_page_size_bytes = default_max_page_size_bytes;

   // Maximum number of rows in a page

   size_type _max_page_size_rows = default_max_page_size_rows;

   // Maximum size of min or max values in column index

   int32_t _column_index_truncate_length = default_column_index_truncate_length;

   // When to use dictionary encoding for data

   dictionary_policy _dictionary_policy = dictionary_policy::ADAPTIVE;

   // Maximum size of column chunk dictionary (in bytes)

   size_t _max_dictionary_size = default_max_dictionary_size;

   // Maximum number of rows in a page fragment

   std::optional<size_type> _max_page_fragment_size;

   // Optional compression statistics

   std::shared_ptr<writer_compression_statistics> _compression_stats;

   // write V2 page headers?

   bool _v2_page_headers = false;

   // Which columns in _table are used for sorting

   std::optional<std::vector<sorting_column>> _sorting_columns;


  protected:

   explicit parquet_writer_options_base(sink_info sink) : _sink(std::move(sink)) {}


  public:

   parquet_writer_options_base() = default;


   [[nodiscard]] sink_info const& get_sink() const { return _sink; }


   [[nodiscard]] compression_type get_compression() const { return _compression; }


   [[nodiscard]] statistics_freq get_stats_level() const { return _stats_level; }


   [[nodiscard]] auto const& get_metadata() const { return _metadata; }


   [[nodiscard]] std::vector<std::map<std::string, std::string>> const& get_key_value_metadata()

     const

   {

     return _user_data;

   }


   [[nodiscard]] bool is_enabled_int96_timestamps() const { return _write_timestamps_as_int96; }


   [[nodiscard]] auto is_enabled_utc_timestamps() const { return _write_timestamps_as_UTC; }


   [[nodiscard]] auto is_enabled_write_arrow_schema() const { return _write_arrow_schema; }


   [[nodiscard]] auto get_row_group_size_bytes() const { return _row_group_size_bytes; }


   [[nodiscard]] auto get_row_group_size_rows() const { return _row_group_size_rows; }


   [[nodiscard]] auto get_max_page_size_bytes() const

   {

     return std::min(_max_page_size_bytes, get_row_group_size_bytes());

   }


   [[nodiscard]] auto get_max_page_size_rows() const

   {

     return std::min(_max_page_size_rows, get_row_group_size_rows());

   }


   [[nodiscard]] auto get_column_index_truncate_length() const

   {

     return _column_index_truncate_length;

   }


   [[nodiscard]] dictionary_policy get_dictionary_policy() const { return _dictionary_policy; }


   [[nodiscard]] auto get_max_dictionary_size() const { return _max_dictionary_size; }


   [[nodiscard]] auto get_max_page_fragment_size() const { return _max_page_fragment_size; }


   [[nodiscard]] std::shared_ptr<writer_compression_statistics> get_compression_statistics() const

   {

     return _compression_stats;

   }


   [[nodiscard]] auto is_enabled_write_v2_headers() const { return _v2_page_headers; }


   [[nodiscard]] auto const& get_sorting_columns() const { return _sorting_columns; }


   void set_metadata(table_input_metadata metadata);


   void set_key_value_metadata(std::vector<std::map<std::string, std::string>> metadata);


   void set_stats_level(statistics_freq sf);

   void set_compression(compression_type compression);


   void enable_int96_timestamps(bool req);


   void enable_utc_timestamps(bool val);


   void enable_write_arrow_schema(bool val);


   void set_row_group_size_bytes(size_t size_bytes);


   void set_row_group_size_rows(size_type size_rows);


   void set_max_page_size_bytes(size_t size_bytes);


   void set_max_page_size_rows(size_type size_rows);


   void set_column_index_truncate_length(int32_t size_bytes);


   void set_dictionary_policy(dictionary_policy policy);


   void set_max_dictionary_size(size_t size_bytes);


   void set_max_page_fragment_size(size_type size_rows);


   void set_compression_statistics(std::shared_ptr<writer_compression_statistics> comp_stats);


   void enable_write_v2_headers(bool val);


   void set_sorting_columns(std::vector<sorting_column> sorting_columns);

 };


 template <class BuilderT, class OptionsT>

 class parquet_writer_options_builder_base {

   OptionsT _options;


  protected:

   inline OptionsT& get_options() { return _options; }


   explicit parquet_writer_options_builder_base(OptionsT options);


  public:

   explicit parquet_writer_options_builder_base() = default;


   BuilderT& metadata(table_input_metadata metadata);


   BuilderT& key_value_metadata(std::vector<std::map<std::string, std::string>> metadata);


   BuilderT& stats_level(statistics_freq sf);


   BuilderT& compression(compression_type compression);


   BuilderT& row_group_size_bytes(size_t val);


   BuilderT& row_group_size_rows(size_type val);


   BuilderT& max_page_size_bytes(size_t val);


   BuilderT& max_page_size_rows(size_type val);


   BuilderT& column_index_truncate_length(int32_t val);


   BuilderT& dictionary_policy(enum dictionary_policy val);


   BuilderT& max_dictionary_size(size_t val);


   BuilderT& max_page_fragment_size(size_type val);


   BuilderT& compression_statistics(

     std::shared_ptr<writer_compression_statistics> const& comp_stats);


   BuilderT& int96_timestamps(bool enabled);


   BuilderT& utc_timestamps(bool enabled);


   BuilderT& write_arrow_schema(bool enabled);


   BuilderT& write_v2_headers(bool enabled);


   BuilderT& sorting_columns(std::vector<sorting_column> sorting_columns);


   operator OptionsT&&();


   OptionsT&& build();

 };


 class parquet_writer_options_builder;


 class parquet_writer_options : public parquet_writer_options_base {

   // Sets of columns to output

   table_view _table;

   // Partitions described as {start_row, num_rows} pairs

   std::vector<partition_info> _partitions;

   // Column chunks file paths to be set in the raw output metadata. One per output file

   std::vector<std::string> _column_chunks_file_paths;


   friend parquet_writer_options_builder;


   explicit parquet_writer_options(sink_info const& sink, table_view table);


  public:

   parquet_writer_options() = default;


   static parquet_writer_options_builder builder(sink_info const& sink, table_view const& table);


   static parquet_writer_options_builder builder();


   [[nodiscard]] table_view get_table() const { return _table; }


   [[nodiscard]] std::vector<partition_info> const& get_partitions() const { return _partitions; }


   [[nodiscard]] std::vector<std::string> const& get_column_chunks_file_paths() const

   {

     return _column_chunks_file_paths;

   }


   void set_partitions(std::vector<partition_info> partitions);


   void set_column_chunks_file_paths(std::vector<std::string> file_paths);

 };


 class parquet_writer_options_builder

   : public parquet_writer_options_builder_base<parquet_writer_options_builder,

                                                parquet_writer_options> {

  public:

   explicit parquet_writer_options_builder() = default;


   explicit parquet_writer_options_builder(sink_info const& sink, table_view const& table);


   parquet_writer_options_builder& partitions(std::vector<partition_info> partitions);


   parquet_writer_options_builder& column_chunks_file_paths(std::vector<std::string> file_paths);

 };


 std::unique_ptr<std::vector<uint8_t>> write_parquet(

   parquet_writer_options const& options, rmm::cuda_stream_view stream = cudf::get_default_stream());


 std::unique_ptr<std::vector<uint8_t>> merge_row_group_metadata(

   std::vector<std::unique_ptr<std::vector<uint8_t>>> const& metadata_list);


 class chunked_parquet_writer_options_builder;


 class chunked_parquet_writer_options : public parquet_writer_options_base {

   explicit chunked_parquet_writer_options(sink_info sink);


   friend chunked_parquet_writer_options_builder;


  public:

   chunked_parquet_writer_options() = default;


   static chunked_parquet_writer_options_builder builder(sink_info const& sink);

 };


 class chunked_parquet_writer_options_builder

   : public parquet_writer_options_builder_base<chunked_parquet_writer_options_builder,

                                                chunked_parquet_writer_options> {

  public:

   chunked_parquet_writer_options_builder() = default;


   chunked_parquet_writer_options_builder(sink_info const& sink);

 };


 class parquet_chunked_writer {

  public:

   parquet_chunked_writer();


   parquet_chunked_writer(chunked_parquet_writer_options const& options,

                          rmm::cuda_stream_view stream = cudf::get_default_stream());

   ~parquet_chunked_writer();


   parquet_chunked_writer& write(table_view const& table,

                                 std::vector<partition_info> const& partitions = {});


   std::unique_ptr<std::vector<uint8_t>> close(

     std::vector<std::string> const& column_chunks_file_paths = {});


   std::unique_ptr<parquet::detail::writer> writer;

 };

   // end of group


 }  // namespace io

 }  // namespace CUDF_EXPORT cudf

cudf::data_type
Indicator for the logical data type of an element in a column.
Definition: types.hpp:243

cudf::io::chunked_parquet_reader
The chunked parquet reader class to read Parquet file iteratively in to a series of tables,...
Definition: parquet.hpp:516

cudf::io::chunked_parquet_reader::read_chunk
table_with_metadata read_chunk() const
Read a chunk of rows in the given Parquet file.

cudf::io::chunked_parquet_reader::has_next
bool has_next() const
Check if there is any data in the given file has not yet read.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, std::size_t pass_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Constructor for chunked reader.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Constructor for chunked reader.

cudf::io::chunked_parquet_reader::~chunked_parquet_reader
~chunked_parquet_reader()
Destructor, destroying the internal reader instance.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader()
Default constructor, this should never be used.

cudf::io::chunked_parquet_writer_options_builder
Class to build chunked_parquet_writer_options.
Definition: parquet.hpp:1382

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder()=default
Default constructor.

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder(sink_info const &sink)
Constructor from sink.

cudf::io::chunked_parquet_writer_options
Settings for parquet_chunked_writer.
Definition: parquet.hpp:1349

cudf::io::chunked_parquet_writer_options::builder
static chunked_parquet_writer_options_builder builder(sink_info const &sink)
creates builder to build chunked_parquet_writer_options.

cudf::io::chunked_parquet_writer_options::chunked_parquet_writer_options
chunked_parquet_writer_options()=default
Default constructor.

cudf::io::parquet_chunked_writer
chunked parquet writer class to handle options and write tables in chunks.
Definition: parquet.hpp:1418

cudf::io::parquet_chunked_writer::close
std::unique_ptr< std::vector< uint8_t > > close(std::vector< std::string > const &column_chunks_file_paths={})
Finishes the chunked/streamed write process.

cudf::io::parquet_chunked_writer::parquet_chunked_writer
parquet_chunked_writer()
Default constructor, this should never be used. This is added just to satisfy cython....

cudf::io::parquet_chunked_writer::~parquet_chunked_writer
~parquet_chunked_writer()
Default destructor. This is added to not leak detail API.

cudf::io::parquet_chunked_writer::writer
std::unique_ptr< parquet::detail::writer > writer
Unique pointer to impl writer class.
Definition: parquet.hpp:1467

cudf::io::parquet_chunked_writer::write
parquet_chunked_writer & write(table_view const &table, std::vector< partition_info > const &partitions={})
Writes table to output.

cudf::io::parquet_chunked_writer::parquet_chunked_writer
parquet_chunked_writer(chunked_parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
Constructor with chunked writer options.

cudf::io::parquet_reader_options_builder
Builds parquet_reader_options to use for read_parquet().
Definition: parquet.hpp:319

cudf::io::parquet_reader_options_builder::use_arrow_schema
parquet_reader_options_builder & use_arrow_schema(bool val)
Sets to enable/disable use of arrow schema to read.
Definition: parquet.hpp:401

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder(source_info src)
Constructor from source info.
Definition: parquet.hpp:335

cudf::io::parquet_reader_options_builder::skip_rows
parquet_reader_options_builder & skip_rows(int64_t val)
Sets number of rows to skip.
Definition: parquet.hpp:440

cudf::io::parquet_reader_options_builder::allow_mismatched_pq_schemas
parquet_reader_options_builder & allow_mismatched_pq_schemas(bool val)
Sets to enable/disable reading of matching projected and filter columns from mismatched Parquet sourc...
Definition: parquet.hpp:416

cudf::io::parquet_reader_options_builder::columns
parquet_reader_options_builder & columns(std::vector< std::string > col_names)
Sets names of the columns to be read.
Definition: parquet.hpp:343

cudf::io::parquet_reader_options_builder::timestamp_type
parquet_reader_options_builder & timestamp_type(data_type type)
timestamp_type used to cast timestamp columns.
Definition: parquet.hpp:464

cudf::io::parquet_reader_options_builder::use_pandas_metadata
parquet_reader_options_builder & use_pandas_metadata(bool val)
Sets to enable/disable use of pandas metadata to read.
Definition: parquet.hpp:389

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder()=default
Default constructor.

cudf::io::parquet_reader_options_builder::row_groups
parquet_reader_options_builder & row_groups(std::vector< std::vector< size_type >> row_groups)
Sets vector of individual row groups to read.
Definition: parquet.hpp:355

cudf::io::parquet_reader_options_builder::set_column_schema
parquet_reader_options_builder & set_column_schema(std::vector< reader_column_schema > val)
Sets reader metadata.
Definition: parquet.hpp:428

cudf::io::parquet_reader_options_builder::build
parquet_reader_options && build()
move parquet_reader_options member once it's built.
Definition: parquet.hpp:482

cudf::io::parquet_reader_options_builder::filter
parquet_reader_options_builder & filter(ast::expression const &filter)
Sets AST based filter for predicate pushdown.
Definition: parquet.hpp:365

cudf::io::parquet_reader_options_builder::num_rows
parquet_reader_options_builder & num_rows(size_type val)
Sets number of rows to read.
Definition: parquet.hpp:452

cudf::io::parquet_reader_options_builder::convert_strings_to_categories
parquet_reader_options_builder & convert_strings_to_categories(bool val)
Sets enable/disable conversion of strings to categories.
Definition: parquet.hpp:377

cudf::io::parquet_reader_options
Settings for read_parquet().
Definition: parquet.hpp:56

cudf::io::parquet_reader_options::get_timestamp_type
data_type get_timestamp_type() const
Returns timestamp type used to cast timestamp columns.
Definition: parquet.hpp:205

cudf::io::parquet_reader_options::parquet_reader_options
parquet_reader_options()=default
Default constructor.

cudf::io::parquet_reader_options::builder
static parquet_reader_options_builder builder(source_info src)
Creates a parquet_reader_options_builder which will build parquet_reader_options.

cudf::io::parquet_reader_options::enable_allow_mismatched_pq_schemas
void enable_allow_mismatched_pq_schemas(bool val)
Sets to enable/disable reading of matching projected and filter columns from mismatched Parquet sourc...
Definition: parquet.hpp:281

cudf::io::parquet_reader_options::set_skip_rows
void set_skip_rows(int64_t val)
Sets number of rows to skip.

cudf::io::parquet_reader_options::set_columns
void set_columns(std::vector< std::string > col_names)
Sets names of the columns to be read.
Definition: parquet.hpp:212

cudf::io::parquet_reader_options::enable_convert_strings_to_categories
void enable_convert_strings_to_categories(bool val)
Sets to enable/disable conversion of strings to categories.
Definition: parquet.hpp:258

cudf::io::parquet_reader_options::get_column_schema
std::optional< std::vector< reader_column_schema > > get_column_schema() const
Returns optional tree of metadata.
Definition: parquet.hpp:159

cudf::io::parquet_reader_options::get_source
source_info const  & get_source() const
Returns source info.
Definition: parquet.hpp:115

cudf::io::parquet_reader_options::get_row_groups
auto const  & get_row_groups() const
Returns list of individual row groups to be read.
Definition: parquet.hpp:191

cudf::io::parquet_reader_options::get_num_rows
std::optional< size_type > const  & get_num_rows() const
Returns number of rows to read.
Definition: parquet.hpp:177

cudf::io::parquet_reader_options::set_row_groups
void set_row_groups(std::vector< std::vector< size_type >> row_groups)
Sets vector of individual row groups to read.

cudf::io::parquet_reader_options::set_num_rows
void set_num_rows(size_type val)
Sets number of rows to read.

cudf::io::parquet_reader_options::get_columns
auto const  & get_columns() const
Returns names of column to be read, if set.
Definition: parquet.hpp:184

cudf::io::parquet_reader_options::set_timestamp_type
void set_timestamp_type(data_type type)
Sets timestamp_type used to cast timestamp columns.
Definition: parquet.hpp:313

cudf::io::parquet_reader_options::is_enabled_convert_strings_to_categories
bool is_enabled_convert_strings_to_categories() const
Returns true/false depending on whether strings should be converted to categories or not.
Definition: parquet.hpp:123

cudf::io::parquet_reader_options::enable_use_pandas_metadata
void enable_use_pandas_metadata(bool val)
Sets to enable/disable use of pandas metadata to read.
Definition: parquet.hpp:265

cudf::io::parquet_reader_options::enable_use_arrow_schema
void enable_use_arrow_schema(bool val)
Sets to enable/disable use of arrow schema to read.
Definition: parquet.hpp:272

cudf::io::parquet_reader_options::is_enabled_use_pandas_metadata
bool is_enabled_use_pandas_metadata() const
Returns true/false depending whether to use pandas metadata or not while reading.
Definition: parquet.hpp:133

cudf::io::parquet_reader_options::is_enabled_allow_mismatched_pq_schemas
bool is_enabled_allow_mismatched_pq_schemas() const
Returns true/false depending on whether to read matching projected and filter columns from mismatched...
Definition: parquet.hpp:149

cudf::io::parquet_reader_options::set_column_schema
void set_column_schema(std::vector< reader_column_schema > val)
Sets reader column schema.
Definition: parquet.hpp:289

cudf::io::parquet_reader_options::is_enabled_use_arrow_schema
bool is_enabled_use_arrow_schema() const
Returns true/false depending whether to use arrow schema while reading.
Definition: parquet.hpp:140

cudf::io::parquet_reader_options::set_filter
void set_filter(ast::expression const &filter)
Sets AST based filter for predicate pushdown.
Definition: parquet.hpp:251

cudf::io::parquet_reader_options::get_filter
auto const  & get_filter() const
Returns AST based filter for predicate pushdown.
Definition: parquet.hpp:198

cudf::io::parquet_reader_options::get_skip_rows
int64_t get_skip_rows() const
Returns number of rows to skip from the start.
Definition: parquet.hpp:169

cudf::io::parquet_writer_options_base
Base settings for write_parquet() and parquet_chunked_writer.
Definition: parquet.hpp:623

cudf::io::parquet_writer_options_base::enable_utc_timestamps
void enable_utc_timestamps(bool val)
Sets preference for writing timestamps as UTC. Write timestamps as UTC if set to true.

cudf::io::parquet_writer_options_base::enable_write_v2_headers
void enable_write_v2_headers(bool val)
Sets preference for V2 page headers. Write V2 page headers if set to true.

cudf::io::parquet_writer_options_base::get_sorting_columns
auto const  & get_sorting_columns() const
Returns the sorting_columns.
Definition: parquet.hpp:832

cudf::io::parquet_writer_options_base::get_row_group_size_bytes
auto get_row_group_size_bytes() const
Returns maximum row group size, in bytes.
Definition: parquet.hpp:746

cudf::io::parquet_writer_options_base::is_enabled_int96_timestamps
bool is_enabled_int96_timestamps() const
Returns true if timestamps will be written as INT96.
Definition: parquet.hpp:725

cudf::io::parquet_writer_options_base::set_metadata
void set_metadata(table_input_metadata metadata)
Sets metadata.

cudf::io::parquet_writer_options_base::set_row_group_size_rows
void set_row_group_size_rows(size_type size_rows)
Sets the maximum row group size, in rows.

cudf::io::parquet_writer_options_base::parquet_writer_options_base
parquet_writer_options_base(sink_info sink)
Constructor from sink.
Definition: parquet.hpp:671

cudf::io::parquet_writer_options_base::set_stats_level
void set_stats_level(statistics_freq sf)
Sets the level of statistics.

cudf::io::parquet_writer_options_base::get_row_group_size_rows
auto get_row_group_size_rows() const
Returns maximum row group size, in rows.
Definition: parquet.hpp:753

cudf::io::parquet_writer_options_base::parquet_writer_options_base
parquet_writer_options_base()=default
Default constructor.

cudf::io::parquet_writer_options_base::set_max_page_size_bytes
void set_max_page_size_bytes(size_t size_bytes)
Sets the maximum uncompressed page size, in bytes.

cudf::io::parquet_writer_options_base::set_sorting_columns
void set_sorting_columns(std::vector< sorting_column > sorting_columns)
Sets sorting columns.

cudf::io::parquet_writer_options_base::is_enabled_write_arrow_schema
auto is_enabled_write_arrow_schema() const
Returns true if arrow schema will be written.
Definition: parquet.hpp:739

cudf::io::parquet_writer_options_base::is_enabled_write_v2_headers
auto is_enabled_write_v2_headers() const
Returns true if V2 page headers should be written.
Definition: parquet.hpp:825

cudf::io::parquet_writer_options_base::set_dictionary_policy
void set_dictionary_policy(dictionary_policy policy)
Sets the policy for dictionary use.

cudf::io::parquet_writer_options_base::get_max_page_size_bytes
auto get_max_page_size_bytes() const
Returns the maximum uncompressed page size, in bytes.
Definition: parquet.hpp:762

cudf::io::parquet_writer_options_base::set_max_dictionary_size
void set_max_dictionary_size(size_t size_bytes)
Sets the maximum dictionary size, in bytes.

cudf::io::parquet_writer_options_base::get_compression
compression_type get_compression() const
Returns compression format used.
Definition: parquet.hpp:693

cudf::io::parquet_writer_options_base::get_max_dictionary_size
auto get_max_dictionary_size() const
Returns maximum dictionary size, in bytes.
Definition: parquet.hpp:801

cudf::io::parquet_writer_options_base::set_compression
void set_compression(compression_type compression)
Sets compression type.

cudf::io::parquet_writer_options_base::get_dictionary_policy
dictionary_policy get_dictionary_policy() const
Returns policy for dictionary use.
Definition: parquet.hpp:794

cudf::io::parquet_writer_options_base::set_compression_statistics
void set_compression_statistics(std::shared_ptr< writer_compression_statistics > comp_stats)
Sets the pointer to the output compression statistics.

cudf::io::parquet_writer_options_base::get_compression_statistics
std::shared_ptr< writer_compression_statistics > get_compression_statistics() const
Returns a shared pointer to the user-provided compression statistics.
Definition: parquet.hpp:815

cudf::io::parquet_writer_options_base::set_max_page_size_rows
void set_max_page_size_rows(size_type size_rows)
Sets the maximum page size, in rows.

cudf::io::parquet_writer_options_base::get_max_page_fragment_size
auto get_max_page_fragment_size() const
Returns maximum page fragment size, in rows.
Definition: parquet.hpp:808

cudf::io::parquet_writer_options_base::set_key_value_metadata
void set_key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets metadata.

cudf::io::parquet_writer_options_base::set_max_page_fragment_size
void set_max_page_fragment_size(size_type size_rows)
Sets the maximum page fragment size, in rows.

cudf::io::parquet_writer_options_base::enable_write_arrow_schema
void enable_write_arrow_schema(bool val)
Sets preference for writing arrow schema. Write arrow schema if set to true.

cudf::io::parquet_writer_options_base::is_enabled_utc_timestamps
auto is_enabled_utc_timestamps() const
Returns true if timestamps will be written as UTC.
Definition: parquet.hpp:732

cudf::io::parquet_writer_options_base::set_row_group_size_bytes
void set_row_group_size_bytes(size_t size_bytes)
Sets the maximum row group size, in bytes.

cudf::io::parquet_writer_options_base::enable_int96_timestamps
void enable_int96_timestamps(bool req)
Sets timestamp writing preferences. INT96 timestamps will be written if true and TIMESTAMP_MICROS wil...

cudf::io::parquet_writer_options_base::get_stats_level
statistics_freq get_stats_level() const
Returns level of statistics requested in output file.
Definition: parquet.hpp:700

cudf::io::parquet_writer_options_base::get_key_value_metadata
std::vector< std::map< std::string, std::string > > const  & get_key_value_metadata() const
Returns Key-Value footer metadata information.
Definition: parquet.hpp:714

cudf::io::parquet_writer_options_base::get_metadata
auto const  & get_metadata() const
Returns associated metadata.
Definition: parquet.hpp:707

cudf::io::parquet_writer_options_base::get_max_page_size_rows
auto get_max_page_size_rows() const
Returns maximum page size, in rows.
Definition: parquet.hpp:774

cudf::io::parquet_writer_options_base::get_column_index_truncate_length
auto get_column_index_truncate_length() const
Returns maximum length of min or max values in column index, in bytes.
Definition: parquet.hpp:784

cudf::io::parquet_writer_options_base::set_column_index_truncate_length
void set_column_index_truncate_length(int32_t size_bytes)
Sets the maximum length of min or max values in column index, in bytes.

cudf::io::parquet_writer_options_base::get_sink
sink_info const  & get_sink() const
Returns sink info.
Definition: parquet.hpp:686

cudf::io::parquet_writer_options_builder_base
Base class for Parquet options builders.
Definition: parquet.hpp:965

cudf::io::parquet_writer_options_builder_base::compression
BuilderT & compression(compression_type compression)
Sets compression type.

cudf::io::parquet_writer_options_builder_base::key_value_metadata
BuilderT & key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets Key-Value footer metadata.

cudf::io::parquet_writer_options_builder_base::get_options
OptionsT & get_options()
Return reference to the options object being built.
Definition: parquet.hpp:974

cudf::io::parquet_writer_options_builder_base::utc_timestamps
BuilderT & utc_timestamps(bool enabled)
Set to true if timestamps are to be written as UTC.

cudf::io::parquet_writer_options_builder_base::max_dictionary_size
BuilderT & max_dictionary_size(size_t val)
Sets the maximum dictionary size, in bytes.

cudf::io::parquet_writer_options_builder_base::max_page_size_bytes
BuilderT & max_page_size_bytes(size_t val)
Sets the maximum uncompressed page size, in bytes.

cudf::io::parquet_writer_options_builder_base::build
OptionsT && build()
move options member once it's built.

cudf::io::parquet_writer_options_builder_base::stats_level
BuilderT & stats_level(statistics_freq sf)
Sets the level of statistics.

cudf::io::parquet_writer_options_builder_base::column_index_truncate_length
BuilderT & column_index_truncate_length(int32_t val)
Sets the desired maximum size in bytes for min and max values in the column index.

cudf::io::parquet_writer_options_builder_base::compression_statistics
BuilderT & compression_statistics(std::shared_ptr< writer_compression_statistics > const &comp_stats)
Sets the pointer to the output compression statistics.

cudf::io::parquet_writer_options_builder_base::metadata
BuilderT & metadata(table_input_metadata metadata)
Sets metadata.

cudf::io::parquet_writer_options_builder_base::dictionary_policy
BuilderT & dictionary_policy(enum dictionary_policy val)
Sets the policy for dictionary use.

cudf::io::parquet_writer_options_builder_base::parquet_writer_options_builder_base
parquet_writer_options_builder_base(OptionsT options)
Constructor from options.

cudf::io::parquet_writer_options_builder_base::int96_timestamps
BuilderT & int96_timestamps(bool enabled)
Sets whether int96 timestamps are written or not.

cudf::io::parquet_writer_options_builder_base::row_group_size_bytes
BuilderT & row_group_size_bytes(size_t val)
Sets the maximum row group size, in bytes.

cudf::io::parquet_writer_options_builder_base::sorting_columns
BuilderT & sorting_columns(std::vector< sorting_column > sorting_columns)
Sets column sorting metadata.

cudf::io::parquet_writer_options_builder_base::write_arrow_schema
BuilderT & write_arrow_schema(bool enabled)
Set to true if arrow schema is to be written.

cudf::io::parquet_writer_options_builder_base::parquet_writer_options_builder_base
parquet_writer_options_builder_base()=default
Default constructor.

cudf::io::parquet_writer_options_builder_base::write_v2_headers
BuilderT & write_v2_headers(bool enabled)
Set to true if V2 page headers are to be written.

cudf::io::parquet_writer_options_builder_base::max_page_fragment_size
BuilderT & max_page_fragment_size(size_type val)
Sets the maximum page fragment size, in rows.

cudf::io::parquet_writer_options_builder_base::row_group_size_rows
BuilderT & row_group_size_rows(size_type val)
Sets the maximum number of rows in output row groups.

cudf::io::parquet_writer_options_builder_base::max_page_size_rows
BuilderT & max_page_size_rows(size_type val)
Sets the maximum page size, in rows. Counts only top-level rows, ignoring any nesting....

cudf::io::parquet_writer_options_builder
Class to build parquet_writer_options.
Definition: parquet.hpp:1277

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder(sink_info const &sink, table_view const &table)
Constructor from sink and table.

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder()=default
Default constructor.

cudf::io::parquet_writer_options_builder::partitions
parquet_writer_options_builder & partitions(std::vector< partition_info > partitions)
Sets partitions in parquet_writer_options.

cudf::io::parquet_writer_options_builder::column_chunks_file_paths
parquet_writer_options_builder & column_chunks_file_paths(std::vector< std::string > file_paths)
Sets column chunks file path to be set in the raw output metadata.

cudf::io::parquet_writer_options
Settings for write_parquet().
Definition: parquet.hpp:1188

cudf::io::parquet_writer_options::set_partitions
void set_partitions(std::vector< partition_info > partitions)
Sets partitions.

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder(sink_info const &sink, table_view const &table)
Create builder to create parquet_writer_options.

cudf::io::parquet_writer_options::parquet_writer_options
parquet_writer_options()=default
Default constructor.

cudf::io::parquet_writer_options::get_column_chunks_file_paths
std::vector< std::string > const  & get_column_chunks_file_paths() const
Returns Column chunks file paths to be set in the raw output metadata.
Definition: parquet.hpp:1250

cudf::io::parquet_writer_options::get_table
table_view get_table() const
Returns table_view.
Definition: parquet.hpp:1236

cudf::io::parquet_writer_options::set_column_chunks_file_paths
void set_column_chunks_file_paths(std::vector< std::string > file_paths)
Sets column chunks file path to be set in the raw output metadata.

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder()
Create builder to create parquet_writer_options.

cudf::io::parquet_writer_options::get_partitions
std::vector< partition_info > const  & get_partitions() const
Returns partitions.
Definition: parquet.hpp:1243

cudf::io::table_input_metadata
Metadata for a table.
Definition: io/types.hpp:932

cudf::table_view
A set of cudf::column_view's of the same size.
Definition: table_view.hpp:200

cudf::table
A set of cudf::column's of the same size.
Definition: table.hpp:40

rmm::cuda_stream_view

expressions.hpp

cudf::get_default_stream
rmm::cuda_stream_view const get_default_stream()
Get the current default stream.

cudf::io::default_row_group_size_rows
constexpr size_type default_row_group_size_rows
1 million rows per row group
Definition: parquet.hpp:44

cudf::io::default_column_index_truncate_length
constexpr int32_t default_column_index_truncate_length
truncate to 64 bytes
Definition: parquet.hpp:47

cudf::io::default_row_group_size_bytes
constexpr size_t default_row_group_size_bytes
Infinite bytes per row group.
Definition: parquet.hpp:42

cudf::io::default_max_page_fragment_size
constexpr size_type default_max_page_fragment_size
5000 rows per page fragment
Definition: parquet.hpp:49

cudf::io::default_max_dictionary_size
constexpr size_t default_max_dictionary_size
1MB dictionary size
Definition: parquet.hpp:48

cudf::io::read_parquet
table_with_metadata read_parquet(parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
Reads a Parquet dataset into a set of columns.

cudf::io::default_max_page_size_bytes
constexpr size_t default_max_page_size_bytes
512KB per page
Definition: parquet.hpp:45

cudf::io::default_max_page_size_rows
constexpr size_type default_max_page_size_rows
20k rows per page
Definition: parquet.hpp:46

cudf::io::statistics_freq
statistics_freq
Column statistics granularity type for parquet/orc writers.
Definition: io/types.hpp:96

cudf::io::dictionary_policy
dictionary_policy
Control use of dictionary encoding for parquet writer.
Definition: io/types.hpp:225

cudf::io::compression_type
compression_type
Compression algorithms.
Definition: io/types.hpp:57

cudf::io::STATISTICS_ROWGROUP
@ STATISTICS_ROWGROUP
Per-Rowgroup column statistics.
Definition: io/types.hpp:98

cudf::io::ADAPTIVE
@ ADAPTIVE
Use dictionary when it will not impact compression.
Definition: io/types.hpp:227

cudf::io::merge_row_group_metadata
std::unique_ptr< std::vector< uint8_t > > merge_row_group_metadata(std::vector< std::unique_ptr< std::vector< uint8_t >>> const &metadata_list)
Merges multiple raw metadata blobs that were previously created by write_parquet into a single metada...

cudf::io::write_parquet
std::unique_ptr< std::vector< uint8_t > > write_parquet(parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
Writes a set of columns to parquet format.

cudf::get_current_device_resource_ref
rmm::device_async_resource_ref get_current_device_resource_ref()
Get the current device memory resource reference.
Definition: memory_resource.hpp:47

device_async_resource_ref
cuda::mr::async_resource_ref< cuda::mr::device_accessible > device_async_resource_ref

cudf::size_type
int32_t size_type
Row index type for columns and tables.
Definition: types.hpp:95

types.hpp
cuDF-IO API type definitions

memory_resource.hpp

cudf
cuDF interfaces
Definition: host_udf.hpp:39

cudf::ast::expression
A generic expression that can be evaluated to return a value.
Definition: expressions.hpp:48

cudf::io::sink_info
Destination information for write interfaces.
Definition: io/types.hpp:512

cudf::io::sorting_column
Struct used to describe column sorting metadata.
Definition: parquet.hpp:614

cudf::io::source_info
Source information for read interfaces.
Definition: io/types.hpp:337

cudf::io::table_with_metadata
Table with table metadata used by io readers to return the metadata by value.
Definition: io/types.hpp:292

table_view.hpp
Class definitions for (mutable)_table_view

types.hpp
Type declarations for libcudf.