May
28
【5/28大阪】データ分析用次世代データフォーマットApache Arrow勉強会
R、Spark、Pandas、Drill、Hadoop、Cassandra利用者必聴!
Organizing : クラスメソッド株式会社
Registration info |
一般参加 Free
FCFS
|
---|
Description
データ分析用次世代データフォーマットApache Arrow勉強会
みなさん、Apache Arrowはご存知ですか!?Apache Arrowは現在主流のOSSのデータ分析ソフトウェアの開発者たちが共同で開発しているデータ分析用の次世代データフォーマットです。データ分析をしている人ならApache Spark、Pandas、Apache Drill、Apache Hadoop、Apache Cassandra、Rの中に知っているプロダクトがあるはずです。これらはApache Arrowの開発に参加しているプロダクトの一部です。いかにOSSのデータ分析ソフトウェアがApache Arrowに期待しているかがわかります。
これらのプロダクトはいずれApache Arrowを使うようになります。これらのプロダクトが使うようになると他のプロダクトも追従し、近いうちにスタンダードなフォーマットになるでしょう。今のうちにApache Arrowを学んでおきましょう!
Apache Arrowが解決する問題
データ分析は多くの技術を活用して実現します。そのため、1つのプロダクトだけでなにもかも実現するのではなく、複数のプロダクトで連携して実現します。適材適所!そのときに課題になるのがデータ交換です。
1つのプロダクトで小さなデータを分析する場合は同一プロセス内でメモリー上のデータをやりとりすれば済みます。しかし、大きなデータを扱う場合、複数のプロダクトで連携する場合はそうもいきません。処理対象のデータを交換する必要があります。
たとえば、JSONにフォーマットしてデータを交換するとしましょう。データを送る側ではJSONにフォーマットする処理が発生し、データを受け取る側ではJSONをパースする処理が発生します。交換するデータ量が多くなればなるほどこの処理コストを無視できなくなります。
その問題を解決するのがApache Arrowです。Apache Arrowはデータのフォーマット・パースコストをほぼ0にします。圧倒的に高速なのです。
Apache Arrowにより、これまでよりも複数のプロダクトで連携してデータ分析できるようになります。既存のプロダクトはもっと効率よく連携できるようになりますし、これまであまり連携できなかった言語でもデータ分析処理の一部を担えるようになります。たとえば、RubyやLuaやGoやRustやJavaScriptなどをもっとデータ分析処理に活用できるようになるでしょう。
こんな人に来て欲しい
- すでにデータ分析をしている人
- Ruby・Lua・Go・Rust・JavaScriptなどでデータ分析をしたい人
クラウド上のサービスでデータ分析をしている人たちはApache Arrowに触れる機会はほとんどないでしょうが、どうして速くデータ分析できるかを知っておくと役に立つことがあるかもしれませんよ!
タイムテーブル
9:45 - 10:00 | 受付 |
10:00 - 10:05 | 会場説明 |
10:05 - 10:15 |
「GoでApache Arrowやってみた話」 調整中 西田将幸 |
10:15 - 11:15 | 「Apache Arrow」 Apache Arrowが解決したい問題、設計方針、速さの秘密、現在できること、今後できるようになることなど、Apache Arrowを知らない人でもApache Arrowのことがわかるようになる説明をします。 須藤功平 |
11:15 - 11:20 | 休憩 |
11:20 - 12:00 | 質疑応答 or 発表者募集 (集まらなければ、「Apache Arrowの開発に参加しよう!」 須藤功平 |
当日の受付について
参加費
無料
持ち物
なし
入館方法
受付は 9:45 開始です。セキュリティの関係上、受付で名刺を1枚頂戴します。
設備など
- 飲食の提供はありません。必要なだけお持ち込みください。
- Wi-Fiのご提供はありません。
- 電源は数に限りがあります(タップを持って来ていただけると幸いです)
- 館内は禁煙です。 喫煙スペースに関しては別途ご連絡いたします。
- 立ち入り禁止区域への立ち入りはご遠慮願います。