Dissecting_self_describing_data_formats_to_enable_advanced_querying_of_file_metadata
前日になって論文紹介の準備を始めるやつー、はい俺です。 abstraction self-describingなファイルフォーマットのメタデータをうまく抽出して、クエリスピードを爆上げしようって話。 self-describingであるファイルフォーマット、例えば、HDF5ファイルフォーマットとか、adios2のBP5フォーマットとかは、データとそのデータに関するメタデータを含むファイルフォーマットになっている。これだと、そのファイルを読み込んでから出ないとクエリが発行できないため、利便性にかける。 ファイルシステムをjuleaっていうのに置き換えることで、we can use dedicated backends for key-value and object stores, as well as databases. これの意味が分からないのんだけど。どういうことなんだろう。 というか、SDDFsからメタデータを抽出して何かいいことあるのだろうか?ファイル操作がもっと簡単になるのだろうか??そういうことなのだろうか?? introduction まあデータがますます増えていると。コンピュータの計算速度よりもI/Oがボトルネックになっている。というのは有名な話。まあ、POSIXのI/Oを使ってたらそれは遅くなるよね、、、という話もあり。 で、データを効率よく管理するためにHDF5やAdios2といったライブラリや、特殊なフォーマットを持つファイルが登場してきた。これらのファイルは、データとそのデータに関するメタデータを含む、self-describing data formatsというもの。だから、ファイルを交換するだけですぐに使うことが可能。つまり、ポータビリティにめちゃめちゃ優れる。が、メタデータとデータが一つになっているためにデータにアクセスするにはファイルを全部読み込まないといけない、という問題が生じる。そこで、メタデータとデータを分けて保存することで、データ中の任意の部分へのアクセスが高速化される、ということだね。俺もそうだと思う。 この論文の貢献 (Contirbution) prior workでは、HDF5のメタデータとデータそのものを分けて保存することがどれくらい有益だったのかを示したわけですね。 本論文では、Adios2においてもこのようなデータの分離が有効であることを示す。ということですね。 summary of contribution BP3/BP4を分ける方法 ADIOS2を改造する感じで実現した。 ただのBP3/BP4の読み書きをparallel and distributedな環境で実施した時の評価を持ってきた。 って話だね。 backgroundかな ADIOS2が何なのか。 BP3/BP4でデータを保存するのね。 で、actual writing and reading behavior of adios2 is determinded by the used engine.ってことで、ファイルへの読み書きをする実体??は、ADIOS側で決められるよーって話だったよね。 これいまだに信じられないんだけど、本当なのか?これはADIOSを実際に使ってみるのがいいと思う。XMLファイルで設定ができるって話だったからね。 ...