Linux_thing

個人的、Linuxを触ってて面白かったとか、納得の行ったことをここにメモっておきたい。 disown -hについて sshでつないで、bashでプログラムを実行するとき、そのプログラムはbashの子プロセスとして実行されるのよね。 そもそもbashはsshdの子プロセスとして実行されるのだけれども。 でね、bashの子プロセスとして実行されるわけだから、bashを閉じるとその子プロセスであるプログラムも死ぬんだよね。 でも、bashを抜けても死なないでほしいプログラムってあるわけじゃないですか。それを実現する方法が プロセスを ctrl + zで一旦停止、bgでバックグラウンド実行。そして、disown -h なわけですね。 で、そうするとそのプロセスの親は誰になるか?って不思議に思いますよね。 1058 ? Ss 0:00 1 1080 13483 1836 0.0 /lib/systemd/systemd --user 1059 ? S 0:00 0 0 35244 1184 0.0 \_ (sd-pam) 2345 ? S 0:00 18 0 7408 2860 0.0 sudo hugo server -p 443 --bind=0.0.0.0 --baseURL=https://ingenboy.com/alpha/ 2346 ? Sl 0:18 38 0 2141188 1696712 43.7 \_ hugo server -p 443 --bind=0.0.0.0 --baseURL=https://ingenboy.com/alpha/ そうなんです。systemdなるんですねー。これが結構面白いところ。覚えておいていいです。 ちなみに、親子関係を含めて全プロセスを表示するのが、 ...

July 8, 2023 · 1 min · 73 words · Me

SQL_practice

sqlの問題集ってなかなかないんだよね。ってことで自分で作ることにした!!出典とそのデータベースのダウンロード先、と解答も準備する予定です。 contet CMUの講義で使われていたSQLの問題 僕の大学のITFっていう講義で使われていた問題 オライリー本「初めてのSQL」から持ってきた問題 データベースが入手可能なサイトの紹介 CMUの講義 データベースの出典 IMDb non-commercial dataset ここからダウンロードできます。 データベースの説明については、こちらのデータセットを見てください、と。ですが、こちら、扱いがちょっと面倒くさいので、もっとかんたんにしてくれているやつでいきます。 cmuが用意してくれてたやつで、ダウンロード可能。 映画関係のデータベースになっています。で、データはsqlite3で実行することを前提に作られています。 $ wget https://ingenboy.com/alpha/data/imdb-cmudb2022.db.gz $ gunzip imdb-cmudb2022.db.gz $ sqlite3 imdb-cmudb2022.db # create indices using hte following commands in SQLite CREATE INDEX ix_people_name ON people (name); CREATE INDEX ix_titles_type ON titles (type); CREATE INDEX ix_titles_primary_title ON titles (primary_title); CREATE INDEX ix_titles_original_title ON titles (original_title); CREATE INDEX ix_akas_title_id ON akas (title_id); CREATE INDEX ix_akas_title ON akas (title); CREATE INDEX ix_crew_title_id ON crew (title_id); CREATE INDEX ix_crew_person_id ON crew (person_id); # check the schema .schema 問題 question2[5 points] Find the 10 `Sci-Fi` works with the longest runtimes. Details: Print the title of the work, the premiere date, and the runtime. The column listing the runtime should be suffixed with the string " (mins)", for example, if the runtime_mins value is `12`, you should output 12 (mins). Note a work is Sci-Fi even if it is categorized in multiple genres, as long as Sci-Fi is one of the genres. Your first row should look like this: Cicak-Man 2: Planet Hitam|2008|999 (mins) question3 [5 points] Determine the oldest people in the dataset who were born in or after 1900. You should assume that a person without a known death year is still alive. Details: Print the name and age of each person. People should be ordered by a compound value of their age and secondly their name in alphabetical order. Return the first 20 results. Your output should have the format: NAME|AGE question4[10 points] Find the people who appear most frequently as crew members. Details: Print the names and number of appearances of the 20 people with the most crew appearances ordered by their number of appearances in a descending fashion. Your output should look like this: NAME|NUM_APPEARANCES question5[10 points] Compute intersting statistics on the ratings of content on a per-decade basis. Details: Get the average rating (rounded to two decimal places), top rating, min rating, and the number of releases in each decade. Exclude titles which have not been premiered (i.e. where premiered is NULL). Print the relevant decade in a fancier format by constructing a string that looks like this: 1990s. Order the decades first by their average rating in a descending fashion and secondly by the decade, ascending, to break ties. Your output should have the format: DECADE|AVG_RATING|TOP_RATING|MIN_RATING|NUM_RELEASES question6[10 points] Determine the most popular works with a person who has "Cruise" in their name and is born in 1962. Details: Get the works with the most votes that have a person in the crew with "Cruise" in their name who was born in 1962. Return both the name of the work and the number of votes and only list the top 10 results in order from most to least votes. Make sure your output is formatted as follows: Top Gun|408389 question7 [15 points] List the number of works that premiered in the same year that "Army of Thieves" premiered. Details: Print only the total number of works. The answer should include "Army of Thieves" itself. For this question, determine distinct works by their title_id, not their names. question8[15 points] List the all the different actors and actresses who have starred in a work with Nicole Kidman (born in 1967). Details: Print only the names of the actors and actresses in alphabetical order. The answer should include Nicole Kidman herself. Each name should only appear once in the output. Note: As mentioned in the schema, when considering the role of an individual on the crew, refer to the field category. The roles "actor" and "actress" are different and should be accounted for as such. question9[15 points] For all people born in 1955, get their name and average rating on all movies they have been part of through their careers. Output the 9th decile of individuals as measured by their average career movie rating. Details: Calculate average ratings for each individual born in 1955 across only the movies they have been part of. Compute the quantiles for each individual's average rating using NTILE(10). Make sure your output is formatted as follows (round average rating to the nearest hundredth, results should be ordered by a compound value of their ratings descending and secondly their name in alphabetical order): Stanley Nelson|7.13 Note: You should take quantiles after processing the average career movie rating of individuals. In other words, find the individuals who have an average career movie rating in the 9th decile of all individuals. question10[15 points] Concatenate all the unique titles for the TV Series "House of the Dragon" as a string of comma-separated values in alphabetical order of the titles. Details: Find all the unique dubbed titles for the new TV show "House of the Dragon" and order them alphabetically. Print a single string containing all these titles separated by commas. Hint: You might find Recursive CTEs useful. Note: Two titles are different even if they differ only in capitalization. Elements in the comma-separated value result should be separated with both a comma and a space, e.g. "foo, bar". ITFの問題 データベースの出典 なんかわからんけど、配られてたやつ ...

July 8, 2023 · 7 min · 1354 words · Me

Commnets_on_learning_sql

chapter1 リレーショナルデータベースって便利だよねーって話。 E.F.coddが最初の論文を出したってことだけ覚えておくとかっこいいかもしれないね。 chapter2 データのインポート、エクスポート 外部データのインポート方法をここで説明している。 Mysql公式のチュートリアル用データ ここからほしいデータをダウンロードしてきて、mysql内部から次のコマンドでロードできる mysql -u ray -p mysql> source <path/to/schame/sakila-schedma.sql> mysql> source <path/to/data/sakila-data.sql> って感じやな。ちなみに、自分が作ったデータを外部にエクスポートする方法もあって、 # データベース $ mysqldump -u USER_NAME -p -h HOST_NAME DB_NAME > OUTPUT_FILE_NAME # テーブル $ mysqldump -u USER_NAME -p -h HOST_NAME DB_NAME TABLE_NAME > OUTPUT_FILE_NAME # テーブルの定義とデータのダンプ $ mysqldump -u USER_NAME -p -h HOST_NAME -A -n > OUTPUT_FILE_NAME まあ調べたらあるから調べてみてくれ。データベースの移行はそんなに難しいことではないことだけ頭に入れておいてほしい。 ちなみに、mysqlでのschemaの見方は、 describe customer; 忘れがちだから覚えておいてください!!まじで!!describeを短縮してdescでもオッケーです。 SELECT TABLE_NAME , COLUMN_NAME , COLUMN_TYPE , COLUMN_KEY FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_SCHEMA = 'sakila' ; データ型について 日付に関するデータ型だけ。 ...

July 8, 2023 · 3 min · 500 words · Me

Docker_and_k8s_explained

docker kubernetesの基本の基本 chapter 1,2 dockerはLinuxマシンを想定して作られている。cgroupがLinuxの概念だからね。 コンテナはイメージから作る コンテナはカーネルを持たない。が、カーネル以外のosの機能を持っている (本書ではそこを周辺部分と言っている)。カーネルはホストOSと共有する。だから軽い。 コンテナはdocker Engineがあればどこでも動く コンテナはイメージとして書き出すこともできる!ここがsingularityのsifとは違うところだね。おそらくDockerはデフォルトでsingularityのsandboxと同じように、中身の改変が可能なのではないか?と思っている。まだ確信には至っていない。 –> そのとおりです。dockerはどの時点においても動いているコンテナをイメージとして書き出すことができます。 そのときに使うコマンドが、commitです。 dockerでは物理的なマシンのディスクをマウントすることが可能。 コンテナの外部のディスクに書き込むことで、ほかのコンテナとデータを共有することができる。 dockerイメージはdocker hubからダウンロード可能 chapter3 dockerを使う dockerの環境構築方法が書いてあるだけでした。お疲れ様です。 chapter4 systemctl enable dockerでデーモンを自動起動させてください dockerコマンドの基本構文を抑えましょう docker <上位コマンド> <副コマンド> <オプション> <上位コマンド> == 何を <副コマンド> == どうする っていうのが結構しっくりきました。 ...

July 7, 2023 · 6 min · 1250 words · Me

Error_controlled_progressive_and_adaptable_retrieval_of_scientific_data_with_multilevel_decomposition

Abstruction 近年の大規模な数値シミュレーションは、シミュレーション時のデータ書き込みのみならず、何度も読み出しが実行されるポスト処理においてもストレージがボトルネックになることが多い。 ポスト処理の内容は多岐にわたるが、様々なポスト処理に対応するための条件として、不必要なデータのi/oを極力減らすことがあげられる。本論文では、シミュレーションデータのrefactoring, compressing, retrievalのフレームワークを紹介する。refactoringにより粒度の細かい精度でデータを分解でき、要求した精度でデータを取得することが可能になる。本研究で紹介するフレームワークを使うことで、state-of-the-artの手法を使った時と比べ、複数の精度でデータを要求したときに大幅に取得するデータを減らすことができた。さらに粗い精度でのデータ要求があったときに、分析時間の短縮につながった。 具体的には、本フレームワークを使うことでほかのフレームワークを使った時と比べ、ある精度でのデータ要求があったときに64%のデータ削減を達成した。さらに、1024コアを使って600GBのデータの書き込みと読み込みを実行した際、従来の手法と比較した際、それぞれ1.36倍、2.52倍の性能向上を示せた。 introduction 大規模な数値シミュレーションから生み出されるデータ量は、ストレージのI/O性能を超えている。 並列ファイルシステムは高価なため、増設することが難しい。 一方、並列ファイルシステムに書き込まれたデータは、PFSの容量が圧迫する目的と、長期保存をする目的ですぐに二次記憶に退避される。 PFSのバンド幅は2-2.5Tb/sであるのに対し、二次記憶のバンド幅は1-2GB/sである。そして、このI/Oバンド幅が低いことが、科学的な発見を遅らせる原因となっている。 これらの問題があるため、多くの科学者は可逆圧縮や非可逆圧縮を使い、データの書き込み量や読み込み量を減らす。しかし、可逆圧縮は圧縮率が低いため、先の問題解決には不十分である。このことから近年、より大幅に圧縮が可能な非可逆圧縮が注目を浴びている。非可逆圧縮は、ユーザが指定した許容誤差を保証する範囲でデータの圧縮をする。 しかし、この手法にも欠点がある。 それは、QoIがわからない、つまり、現象の発見に必要な最低限の許容誤差がわからない点である。 非可逆圧縮によるI/Oの恩恵と、QoIを両立させるためには、あるステップで許容誤差を緩めていき、様々な許容誤差で圧縮されたデータをためておけばいいが、それは本末転倒で、結果的に多くのデータをためることになってしまう。さらに、ある誤差で取得したデータの精度が十分でない場合は、再び誤差が小さいデータを1から取得する必要があり、結果的にI/Oを圧迫してしまう。 この問題に対処するのがProgressive compressionである。Progressive compressonとtransmitonは、まずデータを複数の精度に階層的に分解する。そして、ユーザがより高精度のデータを要求するときには、階層構造になったデータのより精度が高い一部分のみをユーザは新たに取得し、それを今までに取得したデータに重ね合わせる。これによりより高精度のデータを得られる。 本研究では、I/Oにボトルネックが生じるという課題を、このProgressive retrievalを用いて解決する。 MGARDというフレームワークを用いることではこれを実現することが可能である。しかし、MGARDはresolution incremental re-compositionをサポートしているのみで、各階層ごとに隣接している精度が粗いという課題がある (これが多分bit-plainを考慮していないっていう話につながるんだと思う) 。本論文ではこれを解決するフレームワークをMGARDを用いて新たに作る。 本研究のcontributionは下記のとおりである。 データリファクタリングアルゴリズムと理論の紹介。本アルゴリズムは、MGARDとbit-plane encodingを組み合わせである。このアルゴリズムは、データを複数の階層の解像度と精度に分解することを可能にする。 データを段階的に取得および再構成できるフレームワークの実装。この段階的な取得により、以下の2つの利点がある:1)データの取得/ストリーミング、再構成、および解析を非同期で実行でき、いつでも既知のエラー範囲内で行えます。2)次の精度レベルに至るデータの部分だけをストリーミングして解析結果が収束するまで、I/Oの負荷を減少。 私たちは貪欲アルゴリズムを一般化して、複数のエラーメトリクスに対してデータの取得効率を改善します。このアルゴリズムは多様な事後解析に適応でき、解析に基づいて再構成されたデータの取得順序を変更することで取得サイズをさらに削減したり、粗い粒度の表現を提供することで解析のパフォーマンスを向上させることができます。また、私たちはフレームワークを最適化します。 chapter2 問題と関連研究 イントロのようやく ・過去10年間におけるデータとストレージ容量の不均衡な成長は深刻な問題である。 ・exascaleコンピューティング時代ではさらに深刻化し、科学的な発見を妨げる要因となっている。 ・ストレージとI/Oの制約に対処する有望な候補として、非可逆圧縮があげられている ・しかし、文献には広範な圧縮技術が存在するにもかかわらず、科学アプリケーションのコミュニティにおけるこれらの受け入れは低い その理由は 1)データの削減プロセスがデータを生成した本来の現象に影響を及ぼす可能性があること。 2)単一のエラー制約の下で削減されたデータが、異なる解析のさまざまなニーズに適合しない可能性があること また、シミュレーションデータはPFSから二次記憶に移される、が二次記憶はバンド幅が小さいためデータの取得が遅くなる。データの生成(例:大規模な実験、シミュレーション)は時折行われるのに対し、生成されたデータはさまざまな研究によって取得される。よって、セカンダリストレージ層の低い帯域幅が不適切な/過剰なデータの取得コストを高める。私たちは、解析に必要な精度にちょうど適合する量のデータをユーザーに提供したいと考えています。 背景 bit-plane encoding (ビットプレーン符号化) 整数をビットで表したときに、桁が上位なビットほど、精度に与える影響が大きい。これは浮動小数点でも同じで、各桁ごとにデータを保存することで、精度に与える影響を優先度付けすることが可能となる。 ...

June 30, 2023 · 3 min · 530 words · Me

Win5_20230702

1R 日進特別 2勝クラス 中京ダート1800m 16頭 中京競馬場の特徴 スタートしてすぐにめっちゃ急な上り坂があります。つまり、スローペースになりやすいと。で、スローペースになると??そうなんですね。前残りになります。 目標頭数 4頭 初ダート アルバーシャ 初2勝クラス 全頭診断 セグレドスペリオル: お話になりません。もう数年2勝クラスにいて、ここでいきなり勝ち上がるわけがなかろう。 サンライズジャスト: 前回調子を落としたのはなぜでしょう?その前まではかなりいい競馬をしていたと思う。 でも、今回もあんまり調教よくなさそう。どうした?? アルバーシャ: あー、万ねん2勝クラスタイプのやつです。ダートに変えて心機一転、といったところでしょうが、まあ、厳しいのではないでしょうか?が、どうやらパワータイプのようで、ダートだと一変する可能性があるらしいです。が、まあキリでいいでしょう。 シェットランド: ワンちゃんといった感じ。脚質は先行。中山ではなかなかいい足を使っていた。 あー、中京のダートも最後上り坂。中山ほどではないけれども、中山に近いものはある。ということで、こいつ、前からいってワンチャンあると感じている。いや全然あるで。 マルカアトラス: まあ、前回、3着だったんだけど、その時の勝ち馬がいかんせん雑魚なんですわ。つまり、雑魚相手に3着と。1章クラスを勝ち上がった時、0.1秒差なんですけど、その時の2着はまだ1勝クラスをうろうろしています。ということでキリです。 ジョーコモド: この辺で一発あってもおかしくないやつです。が、やっとの思いで1勝クラスを勝ち上がってきた感が強く、まー、厳しそうだね。思い切って切っていいです。調教は見ますが。 ロードジャスティス: んーーー、なんか、調子を落としている気がする。特に最後末脚があるわけでもないし。 凡走する気配が漂っています。キリです。 ショウサンキズ: なるほど、2走前でじょーこもどに負けていますね。これは厳しいのではないですか? スナークレジスト: 後ろからですねー。後ろから来すぎて届かないですねー。4走前、3着はいってますが、その時の相手は雑魚ですねー。キリですね。 サンデーミラージュ: はい、きり。 タガノカンデラ: 勝ち上がりの時の相手はまだ1しょうくらすをうろうろ。つまりまぐれで2章に上がってきた雑魚です。キリ。 ブラビオ: 上に同じく。2着の相手は、そのまま地方競馬に行きました。おつ。 キングダムウイナー: あー、二着の相手は一回地方に行って2勝目を挙げて2クラスに来たけど、まあ全然だめですね。これはキリです。際なら。 ニホンピロオーセン: あー、園田で1勝稼いだ雑魚ですねー。まあないと思いますよ。 ブルレスカ: はい、きり!! ラニカイ: こいつは、連帯率えぐいぞ。未勝利と一生倉s。今回来ても全然おかしくなさそうだけどなー。中京もめっちゃ走ってきてるし。まあ、前回は輸送失敗やな。 でもね、分かったこいつのからくり。小倉だったからだな。小倉ってまあ、中央競馬でも末端だし、あんまり強い馬が集まってこないのよ。で、こいつの脚質、差しなんだけど、小倉って差しにピッタリの競馬場なんですよね。それで最速出しまくってただけですね。ってことで、こいつもキリです。お疲れ様でした。 決定馬 2,3,4,5 2R いわき特別 2勝クラス 福島ダート1700m 12頭 目標頭数 2頭 初ダート 初2勝クラス ワールドハート (地方勝ち) 全頭診断 トリプルスリル: あー、勝ち上がったときの2着がまさかまさかうざんまい。このレースにも出てるね。で、2勝クラスには一回出て大負けと。壁にぶち当たったね。今回もないね。キリで。 脚質的には、先行。福島は合いそうだけどね。勝ち上がったのも福島だしね。ただ、ポテンシャルがない。 ヴィンテージボンド 強いね。こいつだと思う。栗東からの長距離輸送は初めてだけど、新潟とかも経験しているから大丈夫やろ。タイム指数も問題ない。4ヶ月の休養明け一発目、さあって感じ。入れておくのはいい。脚質的には逃げ、先行。福島にも合いそう。 ナンヨーヴィヨレ: あー、二章クラスで足踏みしている系。 ...

June 30, 2023 · 2 min · 264 words · Me

20230625_win5

東京10R ダート1600m このレース、初めてダートに出てくるやつらが多すぎて怖い。何が起こるかわからない。ということで、5頭くらいに絞って、残りは単勝の保険を買っておこうという算段。 初ダートの馬たち スリートップ絆 リトルくれば0 シャチ 初3勝クラスの馬たち サクセスローレル 里のるふぃあん (ほぼキリ判定) ヴぁーんフリート ワールドタキオン 正直、上がってきて一気に行ける奴は、ほぼゼロなんよ。この中に雑魚が3頭混ざっていると思ってほしい。まず、下にも書いてるけど、サクセスローレルはザコ。理由は書いてある通り。 次、里のるふぇぃあん まず、場体重が上がってきているのはいいこと。ただね、前回がかなり走りやすい馬場だったから買った説を提唱したい。つまり、こいつもザコやな。ただ、明日の場体重次第だな。あと、調教。 調教も、特に目立ったことはない。そして、上がってきたときの相手、実は雑魚節、というのもサクセスローレルに負けている、そいつ。上がって一気に勝ち上がれる馬ではない。どっからどう見ても。ということで、思い切って切っていいと思う。ただ、場体重は見て。で、切ったら保険で入れて。2000円くらいでいいから。 ヴぁーんフリート。 こいつもね、ただ走りやすい馬場でかっただけかん強い。前回-6切ろ来てるし、ぶっちゃけ陣営は勝負かけていた感が強いね。その前も-4切ろ。かなり酷使してる感が強い。しかも中1週やで。どうなんやろう、こいつもびみょうやなー。きっていいとおもうでー。そんなに強くないやろ。4,5,6と中一か月で使ってきて、今回は中一周やで。マジで。負荷かけすぎちゃいます? はい、馬の体重を見て判断したいと思います。うん。 ワールドタキオン: わからん、こいつはわからん(笑) 全島診断 サクセスローレル: 初3章クラス。で、前回-10kgで、5/27ね、勝負に来ている感じだった。しかも、相手はそんなに強くないね、前回2着以外は全部着以下。つまり、こいつもザコってことやな。 スぺロディア: 全盛期杉田。&勝ち上がったと胃の相手が雑魚パターン 里のルフィ案: ワンチャンだな。こいつも勝ち上がりだけど、ダートにしてから、開花したタイプで、しかも勝ち上がりの時の相手もけっこうつよい。いや、本当か??そいつ、ピー藍オラクルってやつなんだけおⅮ、サクセスローレルに負けてるわ。しかし、この里のルフィ案ってやつ、4戦続けて場体重上げてきてるのよね。ここで、一気に下げてきたらワンチャンある。先行だし、 最後流してるしね、こいつ結構強いかもしれなに。 シャチ: 初ダート。新聞を参考にしてみます。 ないな。 鈴鹿まくふぃ: ないなー、勝ち上がった時の相手が雑魚すぎる。 スリートップ絆: 初ダート。 ないと予想。 鈴鹿でreや: ない、以上。前回-10KGダシ。なか2ヶ月だしね。マー猛全盛期は過ぎたってこちゃな。6歳だしな。 ぐりゅーすごっと: 内。キリ。上がってきたときの相手がマジで雑魚。話にならん。 ふるヴぉーと: いや、強いで。3章クラスの猛者たちにもまれてちゃんと強くなってると思う。ダート1400で、安定して1:24台が出せている。1:23も出せている。いろんなペースにも対応できると思う。なかなか強い。 エーティーまくふぃー: 先行。末もまあある。まあ、懸念は発東京ってところかな。 間一か月開けてる。こくらとか、新潟とか言ってもまあ、普通に走ってるし、今回も大丈夫なんじゃないか? リトルくれば―: 初ダート: なんか、最近体重めっちゃ挙げてきてるのよね。こんかいの相手雑魚だから、ここで一気に体重下げてきたらワンチャンあるで。初ダートし。いやまじで。まあでも、オッズ的にwin5に入れるよりは、探勝で2000位かっておくのがいいと思う。 シャンブル: 初ダートなのよねー。ベジャールには4馬身差で負けている。そのベジャールが初ダートで勝ち上がった。しかし、シャンブルはなんか弱そうなのよね。どうなのやろうか。てか、あのダート戦、めちゃめちゃレベル低かったのよ。ベジャールがかって、アメリカンファクトが二着で、三着がライラボンドだっけか? まあ、今回は勝てないと思います。キリでいいと思います。 ヴぁーんフリート: そんなに杖久根木がするのは俺だけ?上にも書いたけど、まあ見てみよう。 うん、続けて馬体重下げてきているし、勝ち上がりだし、ここ最近よく見えているのは、馬場指数が-20とかだからだし、 ここで、場体重が上がったらキリでいいと思う。中一周だしね。どうなんだろう。いやーざこだとおもうんですけどー。 くらーべどらど: 勝ち上がった時の相手が雑魚杉。内。先行。あしない。キリ。問題ない。 ライラボンド: 調教がめっちゃいいのよね。どうしよう。切りたいけど切れない。 馬体重も適性がわからん。意外と上がってきているときの調子がいいのか?こいつは、かなり仕上がってきているっぽいです。 ワールドタキオン: は、強いのかはっきり言ってわからん。雑魚集もする。前回に2章クラスを勝ち上がってきているんだけど、この時の相手が猛ジャックなんだよね。まあ、ジャックはザコだからさ。そいつに勝って3勝にきて、いきなり3勝で勝ち上がれるかって言ったら、かなり怪しいと思うぞ。 買い目 (5頭に絞りたい) ふるぼーと ヴァンフリート エーティーまくふぃ0 ライラボンド ワールドタキオン ...

June 22, 2023 · 2 min · 245 words · Me

It_fundamentals

第一回 IT is for storing, retreaving and what you need to know when developing web software. hardware operating system software applications and development database networking internet & web technologies security data vs information data is just a objective, raw type of bit which is just objectively observed. Information is knowledge gaind by analizing data. ビジネスで使われるITの一連のサイクルをこの授業でやろうって話だな。 データ収集 → モデル構築 → モデルのデプロイ っていう、まあよくやるやつや。 まあ、これを達成するために、上の3,4,6をやります。データベース、ソフトウェア開発、インターネット。 成績評価 10% attendance 45% homework,assignments 45% final exam. ...

June 16, 2023 · 5 min · 1030 words · Me

Lossy_compression

非可逆圧縮アルゴリズム Mgard Mgardとは MGARD (MultiGrid Adaptive Reduction of Data) is a technique for multilevel lossy compression and refactoring of scientific data based on the theory of multigrid methods 何だけどね、ここのrefactoringってところが重要なんだよね。 multilevel refactoringってところがね。そもそもin the context of HPC data manipulation , refactoringとは何ぞやって話なんだけど、 Refactoring: Refactoring refers to the process of restructuring or reorganizing the data to improve its efficiency or facilitate specific operations. In the context of scientific data, refactoring often involves rearranging the data in a way that aligns with the multilevel structure or grid hierarchy used in the compression algorithm. This can enhance the compression efficiency and enable faster access to different levels of resolution. とね。すごくないか???enable faster access to different levels of resolutionだってよ???すごくないか??? ...

June 10, 2023 · 1 min · 122 words · Me

Dissecting_self_describing_data_formats_to_enable_advanced_querying_of_file_metadata

前日になって論文紹介の準備を始めるやつー、はい俺です。 abstraction self-describingなファイルフォーマットのメタデータをうまく抽出して、クエリスピードを爆上げしようって話。 self-describingであるファイルフォーマット、例えば、HDF5ファイルフォーマットとか、adios2のBP5フォーマットとかは、データとそのデータに関するメタデータを含むファイルフォーマットになっている。これだと、そのファイルを読み込んでから出ないとクエリが発行できないため、利便性にかける。 ファイルシステムをjuleaっていうのに置き換えることで、we can use dedicated backends for key-value and object stores, as well as databases. これの意味が分からないのんだけど。どういうことなんだろう。 というか、SDDFsからメタデータを抽出して何かいいことあるのだろうか?ファイル操作がもっと簡単になるのだろうか??そういうことなのだろうか?? introduction まあデータがますます増えていると。コンピュータの計算速度よりもI/Oがボトルネックになっている。というのは有名な話。まあ、POSIXのI/Oを使ってたらそれは遅くなるよね、、、という話もあり。 で、データを効率よく管理するためにHDF5やAdios2といったライブラリや、特殊なフォーマットを持つファイルが登場してきた。これらのファイルは、データとそのデータに関するメタデータを含む、self-describing data formatsというもの。だから、ファイルを交換するだけですぐに使うことが可能。つまり、ポータビリティにめちゃめちゃ優れる。が、メタデータとデータが一つになっているためにデータにアクセスするにはファイルを全部読み込まないといけない、という問題が生じる。そこで、メタデータとデータを分けて保存することで、データ中の任意の部分へのアクセスが高速化される、ということだね。俺もそうだと思う。 この論文の貢献 (Contirbution) prior workでは、HDF5のメタデータとデータそのものを分けて保存することがどれくらい有益だったのかを示したわけですね。 本論文では、Adios2においてもこのようなデータの分離が有効であることを示す。ということですね。 summary of contribution BP3/BP4を分ける方法 ADIOS2を改造する感じで実現した。 ただのBP3/BP4の読み書きをparallel and distributedな環境で実施した時の評価を持ってきた。 って話だね。 backgroundかな ADIOS2が何なのか。 BP3/BP4でデータを保存するのね。 で、actual writing and reading behavior of adios2 is determinded by the used engine.ってことで、ファイルへの読み書きをする実体??は、ADIOS側で決められるよーって話だったよね。 これいまだに信じられないんだけど、本当なのか?これはADIOSを実際に使ってみるのがいいと思う。XMLファイルで設定ができるって話だったからね。 ...

May 29, 2023 · 25 min · 5200 words · Me