Shuuji TAKAHASHIUniversity of Tsukuba · College of Engineering Systems
Shuuji TAKAHASHI
Master of Engineering (Computer Science)
About
5
Publications
2,196
Reads
How we measure 'reads'
A 'read' is counted each time someone views a publication summary (such as the title, abstract, and list of authors), clicks on a figure, or views or downloads the full-text. Learn more
0
Citations
Introduction
TAKAHASHI Shuuji currently studying Distributed Object Storage such as Ceph / Apache Spark at System Software Team, HPCS Lab., University of Tsukuba.
Additional affiliations
April 2019 - March 2021
Publications
Publications (5)
筆者らは、分散オブジェクトストレージ Ceph を Apache Spark から有効に活用するために,ストレージコネクタ spark-ceph-connector を開発した。しかし、読み込み性能と比較すると、十分な書き込み性能が得られていなかった。本研究では、spark-ceph-connector の書き込み性能が低い理由を分析し、いくつかの改良を施すとともに、spark-ceph-connector 固有の問題に対処できる適切な書き込み手法を適用した。これらの改善により、128 MiB のオブジェクトサイズに対する書き込み性能が、約 0.6 MiB/s から約 20.8 MiB/s に向上し、1,024 MiB のオブジェクトに対しては、最大で約 66.1 MiB/s まで大幅に改善...
Presentation slide for "情報処理学会 第176回ハイパフォーマンスコンピューティング研究発表会". This is the presentation slide for the corresponding paper: https://www.researchgate.net/publication/344350943_sutorejikonekuta_spark-ceph-connector_noshukirumixingnengnogaishan
高いスケーラビリティを特徴とする分散オブジェクトストレージ Ceph は,大規模データを蓄積 ・分析に利用するデータレイクとしての活用が広まっている.大規模化するデータを効率的に処理するためには,大容量ストレージとデータ処理アプリケーションとの高速なデータ転送を実現することが重要である.本研究では,スケーラブルな分散オブジェクトストレージ Ceph に蓄積されたデータを効率的に利用することを目的として,リアルタイムの大規模データ処理基盤として広く使用されている Apache Spark や Apache Hadoop からデータの利用を可能にするストレージコネクタを設計 ・実装した.
本研究では,分散オブジェクトストレージ Ceph に対して,S3 インターフェイスを提供する RADOW Gateway 用いた場合の,各種ストレージ ・ 指標を用いた性能評価を行った.ストレージとしては,HDD および PCIExpress 接続の SSD (RevoDrive 3 X 2) を用いた.また,性能測定の指標としては,オブジェクトのサイズ,リクエストを発行するワーカー数,オブジェクトゲートウェイのキャッシュの有無,および,それらの指標に対する読み込み ・ 書き込みリクエストについて検討した.実験の結果,より高性能なストレージを利用することで,オブジェクトの書き込み性能を大きく向上させられること,並列アクセスが行われる場合には,オブジェクトのサイズが性能に大きな影響を与える場合...