meta-something

論文とか研究とか趣味のネタとか

並列分散処理・プログラミングモデルのあれこれ

以下のURLを読んでいて気になった論文をピックアップ

techblog.yahoo.co.jp


MapReduce: Simplified Data Processing on Large Clusters

Hive - A Warehousing Solution Over a Map-Reduce Framework

  • http://www.vldb.org/pvldb/2/vldb09-938.pdf
  • Facebook

    2009年のHive[12]では、操作言語としてSQLライクなHiveQLが提供されています。HiveもHadoop上に構築され、HiveQLによる操作は、Hiveコンパイラにより複数のMapReduce処理に展開されます。HiveQLはパース後に論理演算ツリーに変換され、最終的には物理的な処理モデルである複数のMapReduceから構成される有向非循環グラフとして展開されます。

Large-scale Incremental Processing Using Distributed Transactions and Notifications

Presto

  • Facebook prestodb.io

    2013年のPresto[32]では、リアルタイムの大規模データ分析はMapReduceベースのHive[12]から刷新されました。Prestoは標準SQLへの準拠を目指して抽象化されたシステムで、F1と同様にSQLの最適化は有向非循環グラフのパイプラインに展開され実行されます。 2013年のPresto[32]の場合には、参照透過性は保ちつつも、従来はファイルに出力してた中間結果のデータをメモリ上に保持することにより、タスク間のデータの引き渡しをインメモリで実行することで処理の高速化を実現しています。

Pig Latin: A Not-So-Foreign Language for Data Processing

Apache Hadoop YARN: Yet Another Resource Negotiator

Large-scale cluster management at Google with Borg