オープンソースのデータ分析ツールとしてはHadoopが有名であるが、開発から10年を経て、いくつかの問題が明らかになっている。元々クラスタ管理のツールやハッキリとした発展の方向性もなかったため、多くのユーザが自分たちのオリジナルツールを開発し、独自でそれを使っている。また、元々バッチ処理が主な用途と想定されていたため、ストリーミング処理に関してはSparkなどのツールを組み合わせて使う必要がある。こういったツールの組み合わせはユーザによっては大きな負担となっているようだ。
PachydermはDocker、CoreOSなどのコンテナ関連技術を活用することで、軽量かつ容易にデータ分析を可能とするオープンソースソフトウェアだ。Pachydermでは、Pachyderm Pipeline Systems(PPS)という仕組を利用して、Pipelineをつなげることでデータ分析を行うが、これらのPipelineはContainerとして記述されているため、それぞれが独立しており、他への転用やモニタリングも非常に容易だ。データはバージョン管理機能を持つPachyderm File Systems(PFS)の上に格納されるが、これはAmazon S3の上に構築することができるため、非常にスケーラブルであり、簡単に構築できる。これらの仕組を利用することにより、Pachydermではバッチ処理とストリーミング処理を一つのプラットフォーム上で混在させることができる。また、開発者にとってはDockerやCoreOSなどの既存のテクノロジーを流用しているため、Pachydermのクラスタを管理するために独自の管理ツールなどを開発しなくても良い点もメリットとなるだろう。
まだバージョン0.7であり、どの程度伸びるのかはまだ分からないが、最近200万ドルの投資を得たこともあり、今後の展開が期待される。
[crunchbase id = “pachyderm”]