libcudf: parquet.hpp Source File

 /*

  * Copyright (c) 2020-2024, NVIDIA CORPORATION.

  *

  * Licensed under the Apache License, Version 2.0 (the "License");

  * you may not use this file except in compliance with the License.

  * You may obtain a copy of the License at

  *

  *     http://www.apache.org/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */


 #pragma once


 #include <cudf/ast/expressions.hpp>

 #include <cudf/io/detail/parquet.hpp>

 #include <cudf/io/types.hpp>

 #include <cudf/table/table_view.hpp>

 #include <cudf/types.hpp>


 #include <rmm/mr/device/per_device_resource.hpp>


 #include <iostream>

 #include <memory>

 #include <optional>

 #include <string>

 #include <vector>


 namespace cudf::io {

 constexpr size_t default_row_group_size_bytes   = 128 * 1024 * 1024;

 constexpr size_type default_row_group_size_rows = 1000000;

 constexpr size_t default_max_page_size_bytes    = 512 * 1024;

 constexpr size_type default_max_page_size_rows  = 20000;

 constexpr int32_t default_column_index_truncate_length = 64;

 constexpr size_t default_max_dictionary_size           = 1024 * 1024;

 constexpr size_type default_max_page_fragment_size     = 5000;


 class parquet_reader_options_builder;


 class parquet_reader_options {

   source_info _source;


   // Path in schema of column to read; `nullopt` is all

   std::optional<std::vector<std::string>> _columns;


   // List of individual row groups to read (ignored if empty)

   std::vector<std::vector<size_type>> _row_groups;

   // Number of rows to skip from the start; Parquet stores the number of rows as int64_t

   int64_t _skip_rows = 0;

   // Number of rows to read; `nullopt` is all

   std::optional<size_type> _num_rows;


   // Predicate filter as AST to filter output rows.

   std::optional<std::reference_wrapper<ast::expression const>> _filter;


   // Whether to store string data as categorical type

   bool _convert_strings_to_categories = false;

   // Whether to use PANDAS metadata to load columns

   bool _use_pandas_metadata = true;

   // Cast timestamp columns to a specific type

   data_type _timestamp_type{type_id::EMPTY};


   std::optional<std::vector<reader_column_schema>> _reader_column_schema;


   explicit parquet_reader_options(source_info src) : _source{std::move(src)} {}


   friend parquet_reader_options_builder;


  public:

   explicit parquet_reader_options() = default;


   static parquet_reader_options_builder builder(source_info src);


   [[nodiscard]] source_info const& get_source() const { return _source; }


   [[nodiscard]] bool is_enabled_convert_strings_to_categories() const

   {

     return _convert_strings_to_categories;

   }


   [[nodiscard]] bool is_enabled_use_pandas_metadata() const { return _use_pandas_metadata; }


   [[nodiscard]] std::optional<std::vector<reader_column_schema>> get_column_schema() const

   {

     return _reader_column_schema;

   }


   [[nodiscard]] int64_t get_skip_rows() const { return _skip_rows; }


   [[nodiscard]] std::optional<size_type> const& get_num_rows() const { return _num_rows; }


   [[nodiscard]] auto const& get_columns() const { return _columns; }


   [[nodiscard]] auto const& get_row_groups() const { return _row_groups; }


   [[nodiscard]] auto const& get_filter() const { return _filter; }


   data_type get_timestamp_type() const { return _timestamp_type; }


   void set_columns(std::vector<std::string> col_names) { _columns = std::move(col_names); }


   void set_row_groups(std::vector<std::vector<size_type>> row_groups);


   void set_filter(ast::expression const& filter) { _filter = filter; }


   void enable_convert_strings_to_categories(bool val) { _convert_strings_to_categories = val; }


   void enable_use_pandas_metadata(bool val) { _use_pandas_metadata = val; }


   void set_column_schema(std::vector<reader_column_schema> val)

   {

     _reader_column_schema = std::move(val);

   }


   void set_skip_rows(int64_t val);


   void set_num_rows(size_type val);


   void set_timestamp_type(data_type type) { _timestamp_type = type; }

 };


 class parquet_reader_options_builder {

   parquet_reader_options options;


  public:

   parquet_reader_options_builder() = default;


   explicit parquet_reader_options_builder(source_info src) : options{std::move(src)} {}


   parquet_reader_options_builder& columns(std::vector<std::string> col_names)

   {

     options._columns = std::move(col_names);

     return *this;

   }


   parquet_reader_options_builder& row_groups(std::vector<std::vector<size_type>> row_groups)

   {

     options.set_row_groups(std::move(row_groups));

     return *this;

   }


   parquet_reader_options_builder& filter(ast::expression const& filter)

   {

     options.set_filter(filter);

     return *this;

   }


   parquet_reader_options_builder& convert_strings_to_categories(bool val)

   {

     options._convert_strings_to_categories = val;

     return *this;

   }


   parquet_reader_options_builder& use_pandas_metadata(bool val)

   {

     options._use_pandas_metadata = val;

     return *this;

   }


   parquet_reader_options_builder& set_column_schema(std::vector<reader_column_schema> val)

   {

     options._reader_column_schema = std::move(val);

     return *this;

   }


   parquet_reader_options_builder& skip_rows(int64_t val)

   {

     options.set_skip_rows(val);

     return *this;

   }


   parquet_reader_options_builder& num_rows(size_type val)

   {

     options.set_num_rows(val);

     return *this;

   }


   parquet_reader_options_builder& timestamp_type(data_type type)

   {

     options._timestamp_type = type;

     return *this;

   }


   operator parquet_reader_options&&() { return std::move(options); }


   parquet_reader_options&& build() { return std::move(options); }

 };


 table_with_metadata read_parquet(

   parquet_reader_options const& options,

   rmm::cuda_stream_view stream        = cudf::get_default_stream(),

   rmm::mr::device_memory_resource* mr = rmm::mr::get_current_device_resource());


 class chunked_parquet_reader {

  public:

   chunked_parquet_reader() = default;


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream        = cudf::get_default_stream(),

     rmm::mr::device_memory_resource* mr = rmm::mr::get_current_device_resource());


   chunked_parquet_reader(

     std::size_t chunk_read_limit,

     std::size_t pass_read_limit,

     parquet_reader_options const& options,

     rmm::cuda_stream_view stream        = cudf::get_default_stream(),

     rmm::mr::device_memory_resource* mr = rmm::mr::get_current_device_resource());


   ~chunked_parquet_reader();


   [[nodiscard]] bool has_next() const;


   [[nodiscard]] table_with_metadata read_chunk() const;


  private:

   std::unique_ptr<cudf::io::parquet::detail::chunked_reader> reader;

 };

   // end of group

 class parquet_writer_options_builder;


 class parquet_writer_options {

   // Specify the sink to use for writer output

   sink_info _sink;

   // Specify the compression format to use

   compression_type _compression = compression_type::SNAPPY;

   // Specify the level of statistics in the output file

   statistics_freq _stats_level = statistics_freq::STATISTICS_ROWGROUP;

   // Sets of columns to output

   table_view _table;

   // Partitions described as {start_row, num_rows} pairs

   std::vector<partition_info> _partitions;

   // Optional associated metadata

   std::optional<table_input_metadata> _metadata;

   // Optional footer key_value_metadata

   std::vector<std::map<std::string, std::string>> _user_data;

   // Parquet writer can write INT96 or TIMESTAMP_MICROS. Defaults to TIMESTAMP_MICROS.

   // If true then overrides any per-column setting in _metadata.

   bool _write_timestamps_as_int96 = false;

   // Parquet writer can write timestamps as UTC

   // Defaults to true because libcudf timestamps are implicitly UTC

   bool _write_timestamps_as_UTC = true;

   // Column chunks file paths to be set in the raw output metadata. One per output file

   std::vector<std::string> _column_chunks_file_paths;

   // Maximum size of each row group (unless smaller than a single page)

   size_t _row_group_size_bytes = default_row_group_size_bytes;

   // Maximum number of rows in row group (unless smaller than a single page)

   size_type _row_group_size_rows = default_row_group_size_rows;

   // Maximum size of each page (uncompressed)

   size_t _max_page_size_bytes = default_max_page_size_bytes;

   // Maximum number of rows in a page

   size_type _max_page_size_rows = default_max_page_size_rows;

   // Maximum size of min or max values in column index

   int32_t _column_index_truncate_length = default_column_index_truncate_length;

   // When to use dictionary encoding for data

   dictionary_policy _dictionary_policy = dictionary_policy::ALWAYS;

   // Maximum size of column chunk dictionary (in bytes)

   size_t _max_dictionary_size = default_max_dictionary_size;

   // Maximum number of rows in a page fragment

   std::optional<size_type> _max_page_fragment_size;

   // Optional compression statistics

   std::shared_ptr<writer_compression_statistics> _compression_stats;

   // write V2 page headers?

   bool _v2_page_headers = false;


   explicit parquet_writer_options(sink_info const& sink, table_view const& table)

     : _sink(sink), _table(table)

   {

   }


   friend parquet_writer_options_builder;


  public:

   parquet_writer_options() = default;


   static parquet_writer_options_builder builder(sink_info const& sink, table_view const& table);


   static parquet_writer_options_builder builder();


   [[nodiscard]] sink_info const& get_sink() const { return _sink; }


   [[nodiscard]] compression_type get_compression() const { return _compression; }


   [[nodiscard]] statistics_freq get_stats_level() const { return _stats_level; }


   [[nodiscard]] table_view get_table() const { return _table; }


   [[nodiscard]] std::vector<partition_info> const& get_partitions() const { return _partitions; }


   [[nodiscard]] auto const& get_metadata() const { return _metadata; }


   std::vector<std::map<std::string, std::string>> const& get_key_value_metadata() const

   {

     return _user_data;

   }


   bool is_enabled_int96_timestamps() const { return _write_timestamps_as_int96; }


   [[nodiscard]] auto is_enabled_utc_timestamps() const { return _write_timestamps_as_UTC; }


   std::vector<std::string> const& get_column_chunks_file_paths() const

   {

     return _column_chunks_file_paths;

   }


   auto get_row_group_size_bytes() const { return _row_group_size_bytes; }


   auto get_row_group_size_rows() const { return _row_group_size_rows; }


   auto get_max_page_size_bytes() const

   {

     return std::min(_max_page_size_bytes, get_row_group_size_bytes());

   }


   auto get_max_page_size_rows() const

   {

     return std::min(_max_page_size_rows, get_row_group_size_rows());

   }


   auto get_column_index_truncate_length() const { return _column_index_truncate_length; }


   [[nodiscard]] dictionary_policy get_dictionary_policy() const { return _dictionary_policy; }


   [[nodiscard]] auto get_max_dictionary_size() const { return _max_dictionary_size; }


   [[nodiscard]] auto get_max_page_fragment_size() const { return _max_page_fragment_size; }


   [[nodiscard]] std::shared_ptr<writer_compression_statistics> get_compression_statistics() const

   {

     return _compression_stats;

   }


   [[nodiscard]] auto is_enabled_write_v2_headers() const { return _v2_page_headers; }


   void set_partitions(std::vector<partition_info> partitions);


   void set_metadata(table_input_metadata metadata) { _metadata = std::move(metadata); }


   void set_key_value_metadata(std::vector<std::map<std::string, std::string>> metadata);


   void set_stats_level(statistics_freq sf) { _stats_level = sf; }


   void set_compression(compression_type compression) { _compression = compression; }


   void enable_int96_timestamps(bool req) { _write_timestamps_as_int96 = req; }


   void enable_utc_timestamps(bool val) { _write_timestamps_as_UTC = val; }


   void set_column_chunks_file_paths(std::vector<std::string> file_paths);


   void set_row_group_size_bytes(size_t size_bytes);


   void set_row_group_size_rows(size_type size_rows);


   void set_max_page_size_bytes(size_t size_bytes);


   void set_max_page_size_rows(size_type size_rows);


   void set_column_index_truncate_length(int32_t size_bytes);


   void set_dictionary_policy(dictionary_policy policy);


   void set_max_dictionary_size(size_t size_bytes);


   void set_max_page_fragment_size(size_type size_rows);


   void set_compression_statistics(std::shared_ptr<writer_compression_statistics> comp_stats)

   {

     _compression_stats = std::move(comp_stats);

   }


   void enable_write_v2_headers(bool val) { _v2_page_headers = val; }

 };


 class parquet_writer_options_builder {

   parquet_writer_options options;


  public:

   explicit parquet_writer_options_builder() = default;


   explicit parquet_writer_options_builder(sink_info const& sink, table_view const& table)

     : options(sink, table)

   {

   }


   parquet_writer_options_builder& partitions(std::vector<partition_info> partitions);


   parquet_writer_options_builder& metadata(table_input_metadata metadata)

   {

     options._metadata = std::move(metadata);

     return *this;

   }


   parquet_writer_options_builder& key_value_metadata(

     std::vector<std::map<std::string, std::string>> metadata);


   parquet_writer_options_builder& stats_level(statistics_freq sf)

   {

     options._stats_level = sf;

     return *this;

   }


   parquet_writer_options_builder& compression(compression_type compression)

   {

     options._compression = compression;

     return *this;

   }


   parquet_writer_options_builder& column_chunks_file_paths(std::vector<std::string> file_paths);


   parquet_writer_options_builder& row_group_size_bytes(size_t val)

   {

     options.set_row_group_size_bytes(val);

     return *this;

   }


   parquet_writer_options_builder& row_group_size_rows(size_type val)

   {

     options.set_row_group_size_rows(val);

     return *this;

   }


   parquet_writer_options_builder& max_page_size_bytes(size_t val)

   {

     options.set_max_page_size_bytes(val);

     return *this;

   }


   parquet_writer_options_builder& max_page_size_rows(size_type val)

   {

     options.set_max_page_size_rows(val);

     return *this;

   }


   parquet_writer_options_builder& column_index_truncate_length(int32_t val)

   {

     options.set_column_index_truncate_length(val);

     return *this;

   }


   parquet_writer_options_builder& dictionary_policy(enum dictionary_policy val);


   parquet_writer_options_builder& max_dictionary_size(size_t val);


   parquet_writer_options_builder& max_page_fragment_size(size_type val);


   parquet_writer_options_builder& compression_statistics(

     std::shared_ptr<writer_compression_statistics> const& comp_stats)

   {

     options._compression_stats = comp_stats;

     return *this;

   }


   parquet_writer_options_builder& int96_timestamps(bool enabled)

   {

     options._write_timestamps_as_int96 = enabled;

     return *this;

   }


   parquet_writer_options_builder& utc_timestamps(bool enabled)

   {

     options._write_timestamps_as_UTC = enabled;

     return *this;

   }


   parquet_writer_options_builder& write_v2_headers(bool enabled);


   operator parquet_writer_options&&() { return std::move(options); }


   parquet_writer_options&& build() { return std::move(options); }

 };


 std::unique_ptr<std::vector<uint8_t>> write_parquet(

   parquet_writer_options const& options, rmm::cuda_stream_view stream = cudf::get_default_stream());


 std::unique_ptr<std::vector<uint8_t>> merge_row_group_metadata(

   std::vector<std::unique_ptr<std::vector<uint8_t>>> const& metadata_list);


 class chunked_parquet_writer_options_builder;


 class chunked_parquet_writer_options {

   // Specify the sink to use for writer output

   sink_info _sink;

   // Specify the compression format to use

   compression_type _compression = compression_type::AUTO;

   // Specify the level of statistics in the output file

   statistics_freq _stats_level = statistics_freq::STATISTICS_ROWGROUP;

   // Optional associated metadata.

   std::optional<table_input_metadata> _metadata;

   // Optional footer key_value_metadata

   std::vector<std::map<std::string, std::string>> _user_data;

   // Parquet writer can write INT96 or TIMESTAMP_MICROS. Defaults to TIMESTAMP_MICROS.

   // If true then overrides any per-column setting in _metadata.

   bool _write_timestamps_as_int96 = false;

   // Parquet writer can write timestamps as UTC. Defaults to true.

   bool _write_timestamps_as_UTC = true;

   // Maximum size of each row group (unless smaller than a single page)

   size_t _row_group_size_bytes = default_row_group_size_bytes;

   // Maximum number of rows in row group (unless smaller than a single page)

   size_type _row_group_size_rows = default_row_group_size_rows;

   // Maximum size of each page (uncompressed)

   size_t _max_page_size_bytes = default_max_page_size_bytes;

   // Maximum number of rows in a page

   size_type _max_page_size_rows = default_max_page_size_rows;

   // Maximum size of min or max values in column index

   int32_t _column_index_truncate_length = default_column_index_truncate_length;

   // When to use dictionary encoding for data

   dictionary_policy _dictionary_policy = dictionary_policy::ALWAYS;

   // Maximum size of column chunk dictionary (in bytes)

   size_t _max_dictionary_size = default_max_dictionary_size;

   // Maximum number of rows in a page fragment

   std::optional<size_type> _max_page_fragment_size;

   // Optional compression statistics

   std::shared_ptr<writer_compression_statistics> _compression_stats;

   // write V2 page headers?

   bool _v2_page_headers = false;


   explicit chunked_parquet_writer_options(sink_info const& sink) : _sink(sink) {}


   friend chunked_parquet_writer_options_builder;


  public:

   chunked_parquet_writer_options() = default;


   [[nodiscard]] sink_info const& get_sink() const { return _sink; }


   [[nodiscard]] compression_type get_compression() const { return _compression; }


   [[nodiscard]] statistics_freq get_stats_level() const { return _stats_level; }


   [[nodiscard]] auto const& get_metadata() const { return _metadata; }


   std::vector<std::map<std::string, std::string>> const& get_key_value_metadata() const

   {

     return _user_data;

   }


   bool is_enabled_int96_timestamps() const { return _write_timestamps_as_int96; }


   [[nodiscard]] auto is_enabled_utc_timestamps() const { return _write_timestamps_as_UTC; }


   auto get_row_group_size_bytes() const { return _row_group_size_bytes; }


   auto get_row_group_size_rows() const { return _row_group_size_rows; }


   auto get_max_page_size_bytes() const

   {

     return std::min(_max_page_size_bytes, get_row_group_size_bytes());

   }


   auto get_max_page_size_rows() const

   {

     return std::min(_max_page_size_rows, get_row_group_size_rows());

   }


   auto get_column_index_truncate_length() const { return _column_index_truncate_length; }


   [[nodiscard]] dictionary_policy get_dictionary_policy() const { return _dictionary_policy; }


   [[nodiscard]] auto get_max_dictionary_size() const { return _max_dictionary_size; }


   [[nodiscard]] auto get_max_page_fragment_size() const { return _max_page_fragment_size; }


   [[nodiscard]] std::shared_ptr<writer_compression_statistics> get_compression_statistics() const

   {

     return _compression_stats;

   }


   [[nodiscard]] auto is_enabled_write_v2_headers() const { return _v2_page_headers; }


   void set_metadata(table_input_metadata metadata) { _metadata = std::move(metadata); }


   void set_key_value_metadata(std::vector<std::map<std::string, std::string>> metadata);


   void set_stats_level(statistics_freq sf) { _stats_level = sf; }


   void set_compression(compression_type compression) { _compression = compression; }


   void enable_int96_timestamps(bool req) { _write_timestamps_as_int96 = req; }


   void enable_utc_timestamps(bool val) { _write_timestamps_as_UTC = val; }


   void set_row_group_size_bytes(size_t size_bytes);


   void set_row_group_size_rows(size_type size_rows);


   void set_max_page_size_bytes(size_t size_bytes);


   void set_max_page_size_rows(size_type size_rows);


   void set_column_index_truncate_length(int32_t size_bytes);


   void set_dictionary_policy(dictionary_policy policy);


   void set_max_dictionary_size(size_t size_bytes);


   void set_max_page_fragment_size(size_type size_rows);


   void set_compression_statistics(std::shared_ptr<writer_compression_statistics> comp_stats)

   {

     _compression_stats = std::move(comp_stats);

   }


   void enable_write_v2_headers(bool val) { _v2_page_headers = val; }


   static chunked_parquet_writer_options_builder builder(sink_info const& sink);

 };


 class chunked_parquet_writer_options_builder {

   chunked_parquet_writer_options options;


  public:

   chunked_parquet_writer_options_builder() = default;


   chunked_parquet_writer_options_builder(sink_info const& sink) : options(sink){};


   chunked_parquet_writer_options_builder& metadata(table_input_metadata metadata)

   {

     options._metadata = std::move(metadata);

     return *this;

   }


   chunked_parquet_writer_options_builder& key_value_metadata(

     std::vector<std::map<std::string, std::string>> metadata);


   chunked_parquet_writer_options_builder& stats_level(statistics_freq sf)

   {

     options._stats_level = sf;

     return *this;

   }


   chunked_parquet_writer_options_builder& compression(compression_type compression)

   {

     options._compression = compression;

     return *this;

   }


   chunked_parquet_writer_options_builder& int96_timestamps(bool enabled)

   {

     options._write_timestamps_as_int96 = enabled;

     return *this;

   }


   chunked_parquet_writer_options_builder& utc_timestamps(bool enabled)

   {

     options._write_timestamps_as_UTC = enabled;

     return *this;

   }


   chunked_parquet_writer_options_builder& write_v2_headers(bool enabled);


   chunked_parquet_writer_options_builder& row_group_size_bytes(size_t val)

   {

     options.set_row_group_size_bytes(val);

     return *this;

   }


   chunked_parquet_writer_options_builder& row_group_size_rows(size_type val)

   {

     options.set_row_group_size_rows(val);

     return *this;

   }


   chunked_parquet_writer_options_builder& max_page_size_bytes(size_t val)

   {

     options.set_max_page_size_bytes(val);

     return *this;

   }


   chunked_parquet_writer_options_builder& max_page_size_rows(size_type val)

   {

     options.set_max_page_size_rows(val);

     return *this;

   }


   chunked_parquet_writer_options_builder& column_index_truncate_length(int32_t val)

   {

     options.set_column_index_truncate_length(val);

     return *this;

   }


   chunked_parquet_writer_options_builder& dictionary_policy(enum dictionary_policy val);


   chunked_parquet_writer_options_builder& max_dictionary_size(size_t val);


   chunked_parquet_writer_options_builder& max_page_fragment_size(size_type val);


   chunked_parquet_writer_options_builder& compression_statistics(

     std::shared_ptr<writer_compression_statistics> const& comp_stats)

   {

     options._compression_stats = comp_stats;

     return *this;

   }


   operator chunked_parquet_writer_options&&() { return std::move(options); }


   chunked_parquet_writer_options&& build() { return std::move(options); }

 };


 class parquet_chunked_writer {

  public:

   parquet_chunked_writer() = default;


   parquet_chunked_writer(chunked_parquet_writer_options const& options,

                          rmm::cuda_stream_view stream = cudf::get_default_stream());


   parquet_chunked_writer& write(table_view const& table,

                                 std::vector<partition_info> const& partitions = {});


   std::unique_ptr<std::vector<uint8_t>> close(

     std::vector<std::string> const& column_chunks_file_paths = {});


   std::unique_ptr<parquet::detail::writer> writer;

 };

   // end of group


 }  // namespace cudf::io

cudf::data_type
Indicator for the logical data type of an element in a column.
Definition: types.hpp:241

cudf::io::chunked_parquet_reader
The chunked parquet reader class to read Parquet file iteratively in to a series of tables,...
Definition: parquet.hpp:424

cudf::io::chunked_parquet_reader::read_chunk
table_with_metadata read_chunk() const
Read a chunk of rows in the given Parquet file.

cudf::io::chunked_parquet_reader::has_next
bool has_next() const
Check if there is any data in the given file has not yet read.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader()=default
Default constructor, this should never be used.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::mr::device_memory_resource *mr=rmm::mr::get_current_device_resource())
Constructor for chunked reader.

cudf::io::chunked_parquet_reader::chunked_parquet_reader
chunked_parquet_reader(std::size_t chunk_read_limit, std::size_t pass_read_limit, parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::mr::device_memory_resource *mr=rmm::mr::get_current_device_resource())
Constructor for chunked reader.

cudf::io::chunked_parquet_reader::~chunked_parquet_reader
~chunked_parquet_reader()
Destructor, destroying the internal reader instance.

cudf::io::chunked_parquet_writer_options_builder
Builds options for chunked_parquet_writer_options.
Definition: parquet.hpp:1517

cudf::io::chunked_parquet_writer_options_builder::max_dictionary_size
chunked_parquet_writer_options_builder & max_dictionary_size(size_t val)
Sets the maximum dictionary size, in bytes.

cudf::io::chunked_parquet_writer_options_builder::stats_level
chunked_parquet_writer_options_builder & stats_level(statistics_freq sf)
Sets the level of statistics in chunked_parquet_writer_options.
Definition: parquet.hpp:1562

cudf::io::chunked_parquet_writer_options_builder::max_page_fragment_size
chunked_parquet_writer_options_builder & max_page_fragment_size(size_type val)
Sets the maximum page fragment size, in rows.

cudf::io::chunked_parquet_writer_options_builder::build
chunked_parquet_writer_options && build()
move chunked_parquet_writer_options member once it's is built.
Definition: parquet.hpp:1755

cudf::io::chunked_parquet_writer_options_builder::max_page_size_rows
chunked_parquet_writer_options_builder & max_page_size_rows(size_type val)
Sets the maximum page size, in rows. Counts only top-level rows, ignoring any nesting....
Definition: parquet.hpp:1661

cudf::io::chunked_parquet_writer_options_builder::int96_timestamps
chunked_parquet_writer_options_builder & int96_timestamps(bool enabled)
Set to true if timestamps should be written as int96 types instead of int64 types....
Definition: parquet.hpp:1589

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder()=default
Default constructor.

cudf::io::chunked_parquet_writer_options_builder::row_group_size_bytes
chunked_parquet_writer_options_builder & row_group_size_bytes(size_t val)
Sets the maximum row group size, in bytes.
Definition: parquet.hpp:1621

cudf::io::chunked_parquet_writer_options_builder::row_group_size_rows
chunked_parquet_writer_options_builder & row_group_size_rows(size_type val)
Sets the maximum number of rows in output row groups.
Definition: parquet.hpp:1633

cudf::io::chunked_parquet_writer_options_builder::dictionary_policy
chunked_parquet_writer_options_builder & dictionary_policy(enum dictionary_policy val)
Sets the policy for dictionary use.

cudf::io::chunked_parquet_writer_options_builder::utc_timestamps
chunked_parquet_writer_options_builder & utc_timestamps(bool enabled)
Set to true if timestamps are to be written as UTC.
Definition: parquet.hpp:1601

cudf::io::chunked_parquet_writer_options_builder::key_value_metadata
chunked_parquet_writer_options_builder & key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets Key-Value footer metadata in parquet_writer_options.

cudf::io::chunked_parquet_writer_options_builder::metadata
chunked_parquet_writer_options_builder & metadata(table_input_metadata metadata)
Sets metadata to chunked_parquet_writer_options.
Definition: parquet.hpp:1541

cudf::io::chunked_parquet_writer_options_builder::compression
chunked_parquet_writer_options_builder & compression(compression_type compression)
Sets compression type to chunked_parquet_writer_options.
Definition: parquet.hpp:1574

cudf::io::chunked_parquet_writer_options_builder::compression_statistics
chunked_parquet_writer_options_builder & compression_statistics(std::shared_ptr< writer_compression_statistics > const &comp_stats)
Sets the pointer to the output compression statistics.
Definition: parquet.hpp:1736

cudf::io::chunked_parquet_writer_options_builder::column_index_truncate_length
chunked_parquet_writer_options_builder & column_index_truncate_length(int32_t val)
Sets the desired maximum size in bytes for min and max values in the column index.
Definition: parquet.hpp:1680

cudf::io::chunked_parquet_writer_options_builder::write_v2_headers
chunked_parquet_writer_options_builder & write_v2_headers(bool enabled)
Set to true if V2 page headers are to be written.

cudf::io::chunked_parquet_writer_options_builder::max_page_size_bytes
chunked_parquet_writer_options_builder & max_page_size_bytes(size_t val)
Sets the maximum uncompressed page size, in bytes.
Definition: parquet.hpp:1648

cudf::io::chunked_parquet_writer_options_builder::chunked_parquet_writer_options_builder
chunked_parquet_writer_options_builder(sink_info const &sink)
Constructor from sink.
Definition: parquet.hpp:1533

cudf::io::chunked_parquet_writer_options
Settings for write_parquet_chunked().
Definition: parquet.hpp:1197

cudf::io::chunked_parquet_writer_options::get_key_value_metadata
std::vector< std::map< std::string, std::string > > const  & get_key_value_metadata() const
Returns Key-Value footer metadata information.
Definition: parquet.hpp:1284

cudf::io::chunked_parquet_writer_options::get_metadata
auto const  & get_metadata() const
Returns metadata information.
Definition: parquet.hpp:1277

cudf::io::chunked_parquet_writer_options::set_compression_statistics
void set_compression_statistics(std::shared_ptr< writer_compression_statistics > comp_stats)
Sets the pointer to the output compression statistics.
Definition: parquet.hpp:1492

cudf::io::chunked_parquet_writer_options::get_column_index_truncate_length
auto get_column_index_truncate_length() const
Returns maximum length of min or max values in column index, in bytes.
Definition: parquet.hpp:1347

cudf::io::chunked_parquet_writer_options::get_max_page_fragment_size
auto get_max_page_fragment_size() const
Returns maximum page fragment size, in rows.
Definition: parquet.hpp:1368

cudf::io::chunked_parquet_writer_options::set_metadata
void set_metadata(table_input_metadata metadata)
Sets metadata.
Definition: parquet.hpp:1392

cudf::io::chunked_parquet_writer_options::enable_int96_timestamps
void enable_int96_timestamps(bool req)
Sets timestamp writing preferences.
Definition: parquet.hpp:1422

cudf::io::chunked_parquet_writer_options::builder
static chunked_parquet_writer_options_builder builder(sink_info const &sink)
creates builder to build chunked_parquet_writer_options.

cudf::io::chunked_parquet_writer_options::get_compression_statistics
std::shared_ptr< writer_compression_statistics > get_compression_statistics() const
Returns a shared pointer to the user-provided compression statistics.
Definition: parquet.hpp:1375

cudf::io::chunked_parquet_writer_options::set_key_value_metadata
void set_key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets Key-Value footer metadata.

cudf::io::chunked_parquet_writer_options::get_row_group_size_rows
auto get_row_group_size_rows() const
Returns maximum row group size, in rows.
Definition: parquet.hpp:1315

cudf::io::chunked_parquet_writer_options::set_stats_level
void set_stats_level(statistics_freq sf)
Sets the level of statistics in parquet_writer_options.
Definition: parquet.hpp:1406

cudf::io::chunked_parquet_writer_options::set_max_page_size_rows
void set_max_page_size_rows(size_type size_rows)
Sets the maximum page size, in rows.

cudf::io::chunked_parquet_writer_options::get_row_group_size_bytes
auto get_row_group_size_bytes() const
Returns maximum row group size, in bytes.
Definition: parquet.hpp:1308

cudf::io::chunked_parquet_writer_options::set_row_group_size_rows
void set_row_group_size_rows(size_type size_rows)
Sets the maximum row group size, in rows.

cudf::io::chunked_parquet_writer_options::enable_utc_timestamps
void enable_utc_timestamps(bool val)
Sets preference for writing timestamps as UTC. Write timestamps as UTC if set to true.
Definition: parquet.hpp:1429

cudf::io::chunked_parquet_writer_options::get_max_dictionary_size
auto get_max_dictionary_size() const
Returns maximum dictionary size, in bytes.
Definition: parquet.hpp:1361

cudf::io::chunked_parquet_writer_options::set_max_page_fragment_size
void set_max_page_fragment_size(size_type size_rows)
Sets the maximum page fragment size, in rows.

cudf::io::chunked_parquet_writer_options::get_max_page_size_rows
auto get_max_page_size_rows() const
Returns maximum page size, in rows.
Definition: parquet.hpp:1337

cudf::io::chunked_parquet_writer_options::get_dictionary_policy
dictionary_policy get_dictionary_policy() const
Returns policy for dictionary use.
Definition: parquet.hpp:1354

cudf::io::chunked_parquet_writer_options::set_max_page_size_bytes
void set_max_page_size_bytes(size_t size_bytes)
Sets the maximum uncompressed page size, in bytes.

cudf::io::chunked_parquet_writer_options::get_stats_level
statistics_freq get_stats_level() const
Returns level of statistics requested in output file.
Definition: parquet.hpp:1270

cudf::io::chunked_parquet_writer_options::get_max_page_size_bytes
auto get_max_page_size_bytes() const
Returns maximum uncompressed page size, in bytes.
Definition: parquet.hpp:1325

cudf::io::chunked_parquet_writer_options::is_enabled_write_v2_headers
auto is_enabled_write_v2_headers() const
Returns true if V2 page headers should be written.
Definition: parquet.hpp:1385

cudf::io::chunked_parquet_writer_options::is_enabled_int96_timestamps
bool is_enabled_int96_timestamps() const
Returns true if timestamps will be written as INT96.
Definition: parquet.hpp:1294

cudf::io::chunked_parquet_writer_options::chunked_parquet_writer_options
chunked_parquet_writer_options()=default
Default constructor.

cudf::io::chunked_parquet_writer_options::get_compression
compression_type get_compression() const
Returns compression format used.
Definition: parquet.hpp:1263

cudf::io::chunked_parquet_writer_options::set_column_index_truncate_length
void set_column_index_truncate_length(int32_t size_bytes)
Sets the maximum length of min or max values in column index, in bytes.

cudf::io::chunked_parquet_writer_options::set_row_group_size_bytes
void set_row_group_size_bytes(size_t size_bytes)
Sets the maximum row group size, in bytes.

cudf::io::chunked_parquet_writer_options::set_dictionary_policy
void set_dictionary_policy(dictionary_policy policy)
Sets the policy for dictionary use.

cudf::io::chunked_parquet_writer_options::enable_write_v2_headers
void enable_write_v2_headers(bool val)
Sets preference for V2 page headers. Write V2 page headers if set to true.
Definition: parquet.hpp:1502

cudf::io::chunked_parquet_writer_options::set_compression
void set_compression(compression_type compression)
Sets compression type.
Definition: parquet.hpp:1413

cudf::io::chunked_parquet_writer_options::set_max_dictionary_size
void set_max_dictionary_size(size_t size_bytes)
Sets the maximum dictionary size, in bytes.

cudf::io::chunked_parquet_writer_options::get_sink
sink_info const  & get_sink() const
Returns sink info.
Definition: parquet.hpp:1256

cudf::io::chunked_parquet_writer_options::is_enabled_utc_timestamps
auto is_enabled_utc_timestamps() const
Returns true if timestamps will be written as UTC.
Definition: parquet.hpp:1301

cudf::io::parquet_chunked_writer
chunked parquet writer class to handle options and write tables in chunks.
Definition: parquet.hpp:1777

cudf::io::parquet_chunked_writer::parquet_chunked_writer
parquet_chunked_writer()=default
Default constructor, this should never be used. This is added just to satisfy cython.

cudf::io::parquet_chunked_writer::close
std::unique_ptr< std::vector< uint8_t > > close(std::vector< std::string > const &column_chunks_file_paths={})
Finishes the chunked/streamed write process.

cudf::io::parquet_chunked_writer::writer
std::unique_ptr< parquet::detail::writer > writer
Unique pointer to impl writer class.
Definition: parquet.hpp:1820

cudf::io::parquet_chunked_writer::write
parquet_chunked_writer & write(table_view const &table, std::vector< partition_info > const &partitions={})
Writes table to output.

cudf::io::parquet_chunked_writer::parquet_chunked_writer
parquet_chunked_writer(chunked_parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
Constructor with chunked writer options.

cudf::io::parquet_reader_options_builder
Builds parquet_reader_options to use for read_parquet().
Definition: parquet.hpp:252

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder(source_info src)
Constructor from source info.
Definition: parquet.hpp:268

cudf::io::parquet_reader_options_builder::skip_rows
parquet_reader_options_builder & skip_rows(int64_t val)
Sets number of rows to skip.
Definition: parquet.hpp:348

cudf::io::parquet_reader_options_builder::columns
parquet_reader_options_builder & columns(std::vector< std::string > col_names)
Sets names of the columns to be read.
Definition: parquet.hpp:276

cudf::io::parquet_reader_options_builder::timestamp_type
parquet_reader_options_builder & timestamp_type(data_type type)
timestamp_type used to cast timestamp columns.
Definition: parquet.hpp:372

cudf::io::parquet_reader_options_builder::use_pandas_metadata
parquet_reader_options_builder & use_pandas_metadata(bool val)
Sets to enable/disable use of pandas metadata to read.
Definition: parquet.hpp:324

cudf::io::parquet_reader_options_builder::parquet_reader_options_builder
parquet_reader_options_builder()=default
Default constructor.

cudf::io::parquet_reader_options_builder::row_groups
parquet_reader_options_builder & row_groups(std::vector< std::vector< size_type >> row_groups)
Sets vector of individual row groups to read.
Definition: parquet.hpp:288

cudf::io::parquet_reader_options_builder::set_column_schema
parquet_reader_options_builder & set_column_schema(std::vector< reader_column_schema > val)
Sets reader metadata.
Definition: parquet.hpp:336

cudf::io::parquet_reader_options_builder::build
parquet_reader_options && build()
move parquet_reader_options member once it's built.
Definition: parquet.hpp:390

cudf::io::parquet_reader_options_builder::filter
parquet_reader_options_builder & filter(ast::expression const &filter)
Sets vector of individual row groups to read.
Definition: parquet.hpp:300

cudf::io::parquet_reader_options_builder::num_rows
parquet_reader_options_builder & num_rows(size_type val)
Sets number of rows to read.
Definition: parquet.hpp:360

cudf::io::parquet_reader_options_builder::convert_strings_to_categories
parquet_reader_options_builder & convert_strings_to_categories(bool val)
Sets enable/disable conversion of strings to categories.
Definition: parquet.hpp:312

cudf::io::parquet_reader_options
Settings for read_parquet().
Definition: parquet.hpp:53

cudf::io::parquet_reader_options::get_timestamp_type
data_type get_timestamp_type() const
Returns timestamp type used to cast timestamp columns.
Definition: parquet.hpp:179

cudf::io::parquet_reader_options::parquet_reader_options
parquet_reader_options()=default
Default constructor.

cudf::io::parquet_reader_options::builder
static parquet_reader_options_builder builder(source_info src)
Creates a parquet_reader_options_builder which will build parquet_reader_options.

cudf::io::parquet_reader_options::set_skip_rows
void set_skip_rows(int64_t val)
Sets number of rows to skip.

cudf::io::parquet_reader_options::set_columns
void set_columns(std::vector< std::string > col_names)
Sets names of the columns to be read.
Definition: parquet.hpp:186

cudf::io::parquet_reader_options::enable_convert_strings_to_categories
void enable_convert_strings_to_categories(bool val)
Sets to enable/disable conversion of strings to categories.
Definition: parquet.hpp:207

cudf::io::parquet_reader_options::get_column_schema
std::optional< std::vector< reader_column_schema > > get_column_schema() const
Returns optional tree of metadata.
Definition: parquet.hpp:133

cudf::io::parquet_reader_options::get_source
source_info const  & get_source() const
Returns source info.
Definition: parquet.hpp:108

cudf::io::parquet_reader_options::get_row_groups
auto const  & get_row_groups() const
Returns list of individual row groups to be read.
Definition: parquet.hpp:165

cudf::io::parquet_reader_options::get_num_rows
std::optional< size_type > const  & get_num_rows() const
Returns number of rows to read.
Definition: parquet.hpp:151

cudf::io::parquet_reader_options::set_row_groups
void set_row_groups(std::vector< std::vector< size_type >> row_groups)
Sets vector of individual row groups to read.

cudf::io::parquet_reader_options::set_num_rows
void set_num_rows(size_type val)
Sets number of rows to read.

cudf::io::parquet_reader_options::get_columns
auto const  & get_columns() const
Returns names of column to be read, if set.
Definition: parquet.hpp:158

cudf::io::parquet_reader_options::set_timestamp_type
void set_timestamp_type(data_type type)
Sets timestamp_type used to cast timestamp columns.
Definition: parquet.hpp:246

cudf::io::parquet_reader_options::is_enabled_convert_strings_to_categories
bool is_enabled_convert_strings_to_categories() const
Returns true/false depending on whether strings should be converted to categories or not.
Definition: parquet.hpp:116

cudf::io::parquet_reader_options::enable_use_pandas_metadata
void enable_use_pandas_metadata(bool val)
Sets to enable/disable use of pandas metadata to read.
Definition: parquet.hpp:214

cudf::io::parquet_reader_options::is_enabled_use_pandas_metadata
bool is_enabled_use_pandas_metadata() const
Returns true/false depending whether to use pandas metadata or not while reading.
Definition: parquet.hpp:126

cudf::io::parquet_reader_options::set_column_schema
void set_column_schema(std::vector< reader_column_schema > val)
Sets reader column schema.
Definition: parquet.hpp:222

cudf::io::parquet_reader_options::set_filter
void set_filter(ast::expression const &filter)
Sets AST based filter for predicate pushdown.
Definition: parquet.hpp:200

cudf::io::parquet_reader_options::get_filter
auto const  & get_filter() const
Returns AST based filter for predicate pushdown.
Definition: parquet.hpp:172

cudf::io::parquet_reader_options::get_skip_rows
int64_t get_skip_rows() const
Returns number of rows to skip from the start.
Definition: parquet.hpp:143

cudf::io::parquet_writer_options_builder
Class to build parquet_writer_options.
Definition: parquet.hpp:900

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder(sink_info const &sink, table_view const &table)
Constructor from sink and table.
Definition: parquet.hpp:917

cudf::io::parquet_writer_options_builder::metadata
parquet_writer_options_builder & metadata(table_input_metadata metadata)
Sets metadata in parquet_writer_options.
Definition: parquet.hpp:937

cudf::io::parquet_writer_options_builder::dictionary_policy
parquet_writer_options_builder & dictionary_policy(enum dictionary_policy val)
Sets the policy for dictionary use.

cudf::io::parquet_writer_options_builder::max_page_size_bytes
parquet_writer_options_builder & max_page_size_bytes(size_t val)
Sets the maximum uncompressed page size, in bytes.
Definition: parquet.hpp:1019

cudf::io::parquet_writer_options_builder::stats_level
parquet_writer_options_builder & stats_level(statistics_freq sf)
Sets the level of statistics in parquet_writer_options.
Definition: parquet.hpp:958

cudf::io::parquet_writer_options_builder::row_group_size_rows
parquet_writer_options_builder & row_group_size_rows(size_type val)
Sets the maximum number of rows in output row groups.
Definition: parquet.hpp:1003

cudf::io::parquet_writer_options_builder::key_value_metadata
parquet_writer_options_builder & key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets Key-Value footer metadata in parquet_writer_options.

cudf::io::parquet_writer_options_builder::parquet_writer_options_builder
parquet_writer_options_builder()=default
Default constructor.

cudf::io::parquet_writer_options_builder::build
parquet_writer_options && build()
move parquet_writer_options member once it's built.
Definition: parquet.hpp:1158

cudf::io::parquet_writer_options_builder::row_group_size_bytes
parquet_writer_options_builder & row_group_size_bytes(size_t val)
Sets the maximum row group size, in bytes.
Definition: parquet.hpp:991

cudf::io::parquet_writer_options_builder::max_page_size_rows
parquet_writer_options_builder & max_page_size_rows(size_type val)
Sets the maximum page size, in rows. Counts only top-level rows, ignoring any nesting....
Definition: parquet.hpp:1032

cudf::io::parquet_writer_options_builder::utc_timestamps
parquet_writer_options_builder & utc_timestamps(bool enabled)
Set to true if timestamps are to be written as UTC.
Definition: parquet.hpp:1132

cudf::io::parquet_writer_options_builder::max_page_fragment_size
parquet_writer_options_builder & max_page_fragment_size(size_type val)
Sets the maximum page fragment size, in rows.

cudf::io::parquet_writer_options_builder::compression
parquet_writer_options_builder & compression(compression_type compression)
Sets compression type in parquet_writer_options.
Definition: parquet.hpp:970

cudf::io::parquet_writer_options_builder::write_v2_headers
parquet_writer_options_builder & write_v2_headers(bool enabled)
Set to true if V2 page headers are to be written.

cudf::io::parquet_writer_options_builder::partitions
parquet_writer_options_builder & partitions(std::vector< partition_info > partitions)
Sets partitions in parquet_writer_options.

cudf::io::parquet_writer_options_builder::max_dictionary_size
parquet_writer_options_builder & max_dictionary_size(size_t val)
Sets the maximum dictionary size, in bytes.

cudf::io::parquet_writer_options_builder::compression_statistics
parquet_writer_options_builder & compression_statistics(std::shared_ptr< writer_compression_statistics > const &comp_stats)
Sets the pointer to the output compression statistics.
Definition: parquet.hpp:1107

cudf::io::parquet_writer_options_builder::int96_timestamps
parquet_writer_options_builder & int96_timestamps(bool enabled)
Sets whether int96 timestamps are written or not in parquet_writer_options.
Definition: parquet.hpp:1120

cudf::io::parquet_writer_options_builder::column_chunks_file_paths
parquet_writer_options_builder & column_chunks_file_paths(std::vector< std::string > file_paths)
Sets column chunks file path to be set in the raw output metadata.

cudf::io::parquet_writer_options_builder::column_index_truncate_length
parquet_writer_options_builder & column_index_truncate_length(int32_t val)
Sets the desired maximum size in bytes for min and max values in the column index.
Definition: parquet.hpp:1051

cudf::io::parquet_writer_options
Settings for write_parquet().
Definition: parquet.hpp:523

cudf::io::parquet_writer_options::enable_write_v2_headers
void enable_write_v2_headers(bool val)
Sets preference for V2 page headers. Write V2 page headers if set to true.
Definition: parquet.hpp:894

cudf::io::parquet_writer_options::set_partitions
void set_partitions(std::vector< partition_info > partitions)
Sets partitions.

cudf::io::parquet_writer_options::get_stats_level
statistics_freq get_stats_level() const
Returns level of statistics requested in output file.
Definition: parquet.hpp:624

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder(sink_info const &sink, table_view const &table)
Create builder to create parquet_writer_options.

cudf::io::parquet_writer_options::set_dictionary_policy
void set_dictionary_policy(dictionary_policy policy)
Sets the policy for dictionary use.

cudf::io::parquet_writer_options::parquet_writer_options
parquet_writer_options()=default
Default constructor.

cudf::io::parquet_writer_options::get_metadata
auto const  & get_metadata() const
Returns associated metadata.
Definition: parquet.hpp:645

cudf::io::parquet_writer_options::get_key_value_metadata
std::vector< std::map< std::string, std::string > > const  & get_key_value_metadata() const
Returns Key-Value footer metadata information.
Definition: parquet.hpp:652

cudf::io::parquet_writer_options::set_max_dictionary_size
void set_max_dictionary_size(size_t size_bytes)
Sets the maximum dictionary size, in bytes.

cudf::io::parquet_writer_options::get_row_group_size_bytes
auto get_row_group_size_bytes() const
Returns maximum row group size, in bytes.
Definition: parquet.hpp:686

cudf::io::parquet_writer_options::set_max_page_fragment_size
void set_max_page_fragment_size(size_type size_rows)
Sets the maximum page fragment size, in rows.

cudf::io::parquet_writer_options::get_compression
compression_type get_compression() const
Returns compression format used.
Definition: parquet.hpp:617

cudf::io::parquet_writer_options::get_max_dictionary_size
auto get_max_dictionary_size() const
Returns maximum dictionary size, in bytes.
Definition: parquet.hpp:738

cudf::io::parquet_writer_options::set_compression_statistics
void set_compression_statistics(std::shared_ptr< writer_compression_statistics > comp_stats)
Sets the pointer to the output compression statistics.
Definition: parquet.hpp:884

cudf::io::parquet_writer_options::get_max_page_size_bytes
auto get_max_page_size_bytes() const
Returns the maximum uncompressed page size, in bytes.
Definition: parquet.hpp:702

cudf::io::parquet_writer_options::is_enabled_int96_timestamps
bool is_enabled_int96_timestamps() const
Returns true if timestamps will be written as INT96.
Definition: parquet.hpp:662

cudf::io::parquet_writer_options::get_sink
sink_info const  & get_sink() const
Returns sink info.
Definition: parquet.hpp:610

cudf::io::parquet_writer_options::set_compression
void set_compression(compression_type compression)
Sets compression type.
Definition: parquet.hpp:798

cudf::io::parquet_writer_options::get_column_chunks_file_paths
std::vector< std::string > const  & get_column_chunks_file_paths() const
Returns Column chunks file paths to be set in the raw output metadata.
Definition: parquet.hpp:676

cudf::io::parquet_writer_options::get_column_index_truncate_length
auto get_column_index_truncate_length() const
Returns maximum length of min or max values in column index, in bytes.
Definition: parquet.hpp:724

cudf::io::parquet_writer_options::set_max_page_size_rows
void set_max_page_size_rows(size_type size_rows)
Sets the maximum page size, in rows.

cudf::io::parquet_writer_options::is_enabled_utc_timestamps
auto is_enabled_utc_timestamps() const
Returns true if timestamps will be written as UTC.
Definition: parquet.hpp:669

cudf::io::parquet_writer_options::get_max_page_fragment_size
auto get_max_page_fragment_size() const
Returns maximum page fragment size, in rows.
Definition: parquet.hpp:745

cudf::io::parquet_writer_options::set_row_group_size_bytes
void set_row_group_size_bytes(size_t size_bytes)
Sets the maximum row group size, in bytes.

cudf::io::parquet_writer_options::enable_utc_timestamps
void enable_utc_timestamps(bool val)
Sets preference for writing timestamps as UTC. Write timestamps as UTC if set to true.
Definition: parquet.hpp:813

cudf::io::parquet_writer_options::set_max_page_size_bytes
void set_max_page_size_bytes(size_t size_bytes)
Sets the maximum uncompressed page size, in bytes.

cudf::io::parquet_writer_options::get_compression_statistics
std::shared_ptr< writer_compression_statistics > get_compression_statistics() const
Returns a shared pointer to the user-provided compression statistics.
Definition: parquet.hpp:752

cudf::io::parquet_writer_options::set_stats_level
void set_stats_level(statistics_freq sf)
Sets the level of statistics.
Definition: parquet.hpp:791

cudf::io::parquet_writer_options::get_dictionary_policy
dictionary_policy get_dictionary_policy() const
Returns policy for dictionary use.
Definition: parquet.hpp:731

cudf::io::parquet_writer_options::get_row_group_size_rows
auto get_row_group_size_rows() const
Returns maximum row group size, in rows.
Definition: parquet.hpp:693

cudf::io::parquet_writer_options::get_table
table_view get_table() const
Returns table_view.
Definition: parquet.hpp:631

cudf::io::parquet_writer_options::set_column_chunks_file_paths
void set_column_chunks_file_paths(std::vector< std::string > file_paths)
Sets column chunks file path to be set in the raw output metadata.

cudf::io::parquet_writer_options::enable_int96_timestamps
void enable_int96_timestamps(bool req)
Sets timestamp writing preferences. INT96 timestamps will be written if true and TIMESTAMP_MICROS wil...
Definition: parquet.hpp:806

cudf::io::parquet_writer_options::is_enabled_write_v2_headers
auto is_enabled_write_v2_headers() const
Returns true if V2 page headers should be written.
Definition: parquet.hpp:762

cudf::io::parquet_writer_options::set_row_group_size_rows
void set_row_group_size_rows(size_type size_rows)
Sets the maximum row group size, in rows.

cudf::io::parquet_writer_options::set_key_value_metadata
void set_key_value_metadata(std::vector< std::map< std::string, std::string >> metadata)
Sets metadata.

cudf::io::parquet_writer_options::get_max_page_size_rows
auto get_max_page_size_rows() const
Returns maximum page size, in rows.
Definition: parquet.hpp:714

cudf::io::parquet_writer_options::set_metadata
void set_metadata(table_input_metadata metadata)
Sets metadata.
Definition: parquet.hpp:777

cudf::io::parquet_writer_options::set_column_index_truncate_length
void set_column_index_truncate_length(int32_t size_bytes)
Sets the maximum length of min or max values in column index, in bytes.

cudf::io::parquet_writer_options::builder
static parquet_writer_options_builder builder()
Create builder to create parquet_writer_options.

cudf::io::parquet_writer_options::get_partitions
std::vector< partition_info > const  & get_partitions() const
Returns partitions.
Definition: parquet.hpp:638

cudf::io::table_input_metadata
Metadata for a table.
Definition: io/types.hpp:858

cudf::table_view
A set of cudf::column_view's of the same size.
Definition: table_view.hpp:187

cudf::table
A set of cudf::column's of the same size.
Definition: table.hpp:40

expressions.hpp

cudf::get_default_stream
rmm::cuda_stream_view const get_default_stream()
Get the current default stream.

cudf::io::default_row_group_size_rows
constexpr size_type default_row_group_size_rows
1 million rows per row group
Definition: parquet.hpp:41

cudf::io::default_column_index_truncate_length
constexpr int32_t default_column_index_truncate_length
truncate to 64 bytes
Definition: parquet.hpp:44

cudf::io::default_row_group_size_bytes
constexpr size_t default_row_group_size_bytes
128MB per row group
Definition: parquet.hpp:40

cudf::io::default_max_page_fragment_size
constexpr size_type default_max_page_fragment_size
5000 rows per page fragment
Definition: parquet.hpp:46

cudf::io::read_parquet
table_with_metadata read_parquet(parquet_reader_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::mr::device_memory_resource *mr=rmm::mr::get_current_device_resource())
Reads a Parquet dataset into a set of columns.

cudf::io::default_max_dictionary_size
constexpr size_t default_max_dictionary_size
1MB dictionary size
Definition: parquet.hpp:45

cudf::io::default_max_page_size_bytes
constexpr size_t default_max_page_size_bytes
512KB per page
Definition: parquet.hpp:42

cudf::io::default_max_page_size_rows
constexpr size_type default_max_page_size_rows
20k rows per page
Definition: parquet.hpp:43

cudf::io::compression_type
compression_type
Compression algorithms.
Definition: io/types.hpp:56

cudf::io::statistics_freq
statistics_freq
Column statistics granularity type for parquet/orc writers.
Definition: io/types.hpp:95

cudf::io::dictionary_policy
dictionary_policy
Control use of dictionary encoding for parquet writer.
Definition: io/types.hpp:223

cudf::io::compression_type::SNAPPY
@ SNAPPY
Snappy format, using byte-oriented LZ77.

cudf::io::compression_type::AUTO
@ AUTO
Automatically detect or select compression format.

cudf::io::STATISTICS_ROWGROUP
@ STATISTICS_ROWGROUP
Per-Rowgroup column statistics.
Definition: io/types.hpp:97

cudf::io::ALWAYS
@ ALWAYS
Use dictionary regardless of impact on compression.
Definition: io/types.hpp:226

cudf::io::merge_row_group_metadata
std::unique_ptr< std::vector< uint8_t > > merge_row_group_metadata(std::vector< std::unique_ptr< std::vector< uint8_t >>> const &metadata_list)
Merges multiple raw metadata blobs that were previously created by write_parquet into a single metada...

cudf::io::write_parquet
std::unique_ptr< std::vector< uint8_t > > write_parquet(parquet_writer_options const &options, rmm::cuda_stream_view stream=cudf::get_default_stream())
Writes a set of columns to parquet format.

cudf::size_type
int32_t size_type
Row index type for columns and tables.
Definition: types.hpp:93

cudf::type_id::EMPTY
@ EMPTY
Always null with no underlying data.

types.hpp
cuDF-IO API type definitions

cudf::io
IO interfaces.
Definition: arrow_io_source.hpp:27

cudf::ast::expression
A generic expression that can be evaluated to return a value.
Definition: expressions.hpp:46

cudf::io::sink_info
Destination information for write interfaces.
Definition: io/types.hpp:489

cudf::io::source_info
Source information for read interfaces.
Definition: io/types.hpp:314

cudf::io::table_with_metadata
Table with table metadata used by io readers to return the metadata by value.
Definition: io/types.hpp:269

table_view.hpp
Class definitions for (mutable)_table_view

types.hpp
Type declarations for libcudf.