MongoDBのエンタープライズツールではscans collectionsやeverse engineers a schema from the collectionsなど、スキーマについてのものがリリースされています。これらは3.2で、コレクションをより便利で整然とするための新機能への提案になるでしょう。

1. ドキュメントバリデーション

[SERVER-18227] Document Validation - MongoDB
3.1.3でリリース済み

コレクションと条件式を指定するシンプルな形のバリデーションです。バリデーションにパスしなかったら error 121 DocumentValidationFailureを出します。
条件式は、greater than, less than, existsなどの式が使えますが、今のところgeo nearやtext search, whereは使えません。

db.runCommand({"collMod": collName,  
               "validator" : {a: {$exists: true}}})

注意点。すでに存在しているコレクションのvalidateはできない。insert, update時のみ。

2. Partial Indexes

JIRAチケット: System Dashboard - MongoDB
3.1 RequiredでOpenだが、3.1.5で試したところ動いた。

2010年からJIRAに登録されている課題で、スキーマに関する新機能。filter expressionをパスしたドキュメントのみがindexされる仕組み。

db.myusercoll.createIndex({ name: 1 },  
        { partialFilterExpression: { status: { $eq: "active" } } } )

ユーザーをactive, inactiveというステータスで管理している状況を考える。例えばsoft remove実装。上記のクエリを流すと、activeなユーザーのみがnameでindexされる。

巨大なデータでのパフォーマンス改善になるだろう。filterにマッチしなかったドキュメントはクエリーでスキップされるだけではなく、insert やupdate時のindexingもスキップされる。

3. Aggregationでjoin ($lookup)

JIRAチケット: [SERVER-19095] $lookup - MongoDB
3.1.6でリリース予定

Aggregationフレームワークで、コレクション間のjoinに関する機能。普段の業務でjoinは使わなくても、analyseで使いたくなる時がある。MongoDB, Incはこれまでそのような場合は非正規化をするようにアドバイスしてきた。

これまでのAggregationフレームワークでは、単一のコレクションについてのパイプラインしか実行できなかったが、新機能の$lookupオペレータでは他のコレクションのデータを取得できるようになる。言い換えると、Aggregationステージでleft outer join機能を提供する。

$lookupは大きなポテンシャルを秘めているだろう。ユーザーはデータを非正規化しなくてもよくなる。ただ、実際にどのくらい使える機能なのかはalpha/beta版のリリースを待たなければならない。

まとめ

これらの3つの新機能は、サーバーサイドのMongoDBアーキテクチャにとって課題だった点への取り組みである。MongoDB 3.2 alpha/betaがリリースされた時、その改善を目に出来るだろう。3.2での他の変更点のほとんどはストレージエンジン、認証、他ツールとの連携とレプリケーションである。今後、残りの新機能についても取り上げていく。

2015-07-14

ActiveRecord4, Rails4のinverse_ofについて理解したメモ

Rails

MongoDB(mongoid)でも使える。

inverse_ofとは

inverse_ofを指定したリレーションのある2つのモデルでは、双方から同一のインスタンスを参照できるようになる。両者ともメモリ上で同一のインスタンスとして扱われる。
逆に、inverse_ofの設定が無いと同一として扱われず、一方からの変更がもう一方から参照しても変更されていない。

具体例

UserモデルとMenuモデルが1対多でリレーションしている状況を考える。Userが複数のMenuを登録できるWebサービスのイメージ。

f:id:sfujisak:20150714093037j:plain

ソースコード

class User < ActiveRecord::Base
  has_many :menus
end

class Menu < ActiveRecord::Base
  belongs_to :user
end

inverse_ofが無かったら

Userのフィールドnameの変更が、Menuからたどった場合に変更が参照できない。メモリ上で別インスタンスとして扱われているから。

user = User.first
menu = user.menus.first
user.name == menu.user.name # => true
user.name = "change"
user.name == menu.user.name # => false

inverse_ofを指定すると

class User < ActiveRecord::Base
  has_many :menus, inverse_of: :user
end

class Menu < ActiveRecord::Base
  belongs_to :user, inverse_of: :menus
end

メモリ上で同一インスタンスとして扱われるようになり、userもしくはuser.menuからnameを変更しても、常にuser.name == menu.user.nameがtrueを返すようになる。

ドキュメント

ActiveRecord::Associations::ClassMethods

2015-07-13

MongoDBをtarからインストールしてCentOS 7のsystemdで起動/停止する設定

MongoDB Linux

CentOS 7では、これまでのSysVinitからsystemdが使われるようになりました。 MongoDBもyumやrpmでインストールするとsystemdで管理できるようになるみたいです。ただ、yumに上がっていないリリース直後のMongoDBをtarからインストールしたい場合、自分で設定する必要があります。ちょうどCentOS 7に最新のMongoDBを環境構築する機会があったので、作業メモとして残します。

一番手っ取り早いのは、yumなりrpmなりでMongoDBをインストールした後、インストールされた/usr/binディレクトリにあるバイナリを差し替えることです。ただし、そうするとyumで管理しているバージョンと差異が出るので注意しないといけません。

今回はyumでのインストールを行わずに、MongoDBのtar + Github リポジトリにあるrpm用の設定ファイルを使ってsystemdでの起動設定を行います。作業はすべてrootユーザーで行いました。

環境

CentOS Linux release 7.1.1503 (Core)
MongoDB 3.1.5 (RHEL 7 Linux64-bit)

手順

1. MongoDB 3.1.5のインストール

Downloads - MongoDB から最新のMongoDBをtgz形式でダウンロードします。今回は、RHEL 7 Linux64-bitです。

https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.1.5.tgz

設定ファイルはMongoDBのgithubにひな形があるので、ダウンロードして使います。

https://github.com/mongodb/mongo/blob/master/rpm/mongod.conf

他にもgithubのrpmディレクトリにはsystemdで管理する際に必要となるファイルがありますので、後ほど使います。

まずは、rootユーザーでMongoDBが手動で起動するところまで進めます。

cd /opt
wget http://downloads.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.1.5.tgz
tar zxfv mongodb-linux-x86_64-rhel70-3.1.5.tgz  
ln -s /opt/mongodb-linux-x86_64-rhel70-3.1.5/ /opt/mongodb

wget https://raw.githubusercontent.com/mongodb/mongo/master/rpm/mongod.conf
mv mongod.conf /etc/mongod.conf

mkdir /var/log/mongodb
mkdir /var/lib/mongo
mkdir /var/run/mongodb

準備できました。起動の確認を行います。

[root@xxxx ~]# /opt/mongodb/bin/mongod -f /etc/mongod.conf
about to fork child process, waiting until server is ready for connections.
forked process: 6637
child process started successfully, parent exiting

起動しない場合は、/var/log/mongodb/mongod.logを確認しましょう。

mongoシェルから接続を確認します。

[root@xxxx ~]# /opt/mongodb/bin/mongo
MongoDB shell version: 3.1.5
connecting to: test
Server has startup warnings: 
2015-07-13T15:46:30.961+0900 I CONTROL  [initandlisten] 
2015-07-13T15:46:30.961+0900 I CONTROL  [initandlisten] ** NOTE: This is a development version (3.1.5) of MongoDB.
2015-07-13T15:46:30.961+0900 I CONTROL  [initandlisten] **       Not recommended for production.
2015-07-13T15:46:30.961+0900 I CONTROL  [initandlisten] ** WARNING: You are running this process as the root user, which is not recommended.
2015-07-13T15:46:30.961+0900 I CONTROL  [initandlisten] 
>

WARNINGがいくつか出ると思いますが、今回の記事では気にしないこととします。接続できたことが確認できたら成功です。

次の手順でsystemdによる起動を行うので、いま起動させたmongodプロセスは停止させましょう。 mongod.lockファイルの削除も忘れずに。

kill `cat /var/run/mongodb/mongod.pid`
rm /var/lib/mongo/mongod.lock

2. systemdによる起動設定

ここから本題のsystemdによる設定に入ります。まずはmongodグループとmongodユーザーを作成します。コマンドはgithubにあるrpm用のspecファイルを参考にしています。

https://github.com/mongodb/mongo/blob/master/rpm/mongodb-org.spec

/usr/sbin/groupadd -r mongod
/usr/sbin/useradd -M -r -g mongod -d /var/lib/mongo -s /bin/false -c mongod mongod

関連するディレクトリの所有者をmongodに変更します。

chown -R mongod:mongod /opt/mongodb
chown -R mongod:mongod /var/log/mongodb
chown -R mongod:mongod /var/lib/mongo
chown -R mongod:mongod /var/run/mongodb

systemdのserviceファイルをgithubからダウンロードして配置します。

wget https://raw.githubusercontent.com/mongodb/mongo/master/rpm/mongod.service
mv mongod.service /usr/lib/systemd/system
ln -s /usr/lib/systemd/system/mongod.service /etc/systemd/system/multi-user.target.wants/

daemon-reloadの後、起動させます。

systemctl daemon-reload
systemctl start mongod.service

systemctl statusで起動を確認しましょう。

[root@xxx ~]# systemctl status mongod.service
mongod.service - High-performance, schema-free document-oriented database
   Loaded: loaded (/usr/lib/systemd/system/mongod.service; enabled)
   Active: active (running) since Mon 2015-07-13 16:16:04 JST; 5s ago
 Main PID: 6774 (mongod)
   CGroup: /system.slice/mongod.service
           └─6774 /opt/mongodb/bin/mongod --quiet -f /etc/mongod.conf run

Jul 13 16:16:04 xxx systemd[1]: Starting High-performance, schema-free d.....
Jul 13 16:16:04 xxx systemd[1]: Started High-performance, schema-free do...e.
Jul 13 16:16:04 xxx mongod[6772]: about to fork child process, waiting u...s.
Jul 13 16:16:04 xxx mongod[6772]: forked process: 6774
Jul 13 16:16:04 xxx mongod[6772]: child process started successfully, pa...ng
Hint: Some lines were ellipsized, use -l to show in full.

Activeがactive (running) となっていたら成功です。お疲れさまでした！

停止コマンド

systemctl stop mongod.service

3. OS再起動時に/var/run/mongodbを作成する設定

CentOS 7は/var/run はtmpfsとなっているので、OS再起動時に削除されます。 /etc/tmpfiles.d/mongod.confを作成して再起動後もディレクトリが作成されるようにしましょう。

echo "D /var/run/mongodb 0755 mongod mongod -" > /etc/tmpfiles.d/mongod.conf

2015-07-10

PipelineDBとContinuous Queryについて調べたこと

PiplineDB

<a href="http://jp.techcrunch.com/2015/07/08/20150707yc-alum-pipelinedb-releases-open-source-streaming-sql-database/">ストリーミングSQLデータベースPipelineはデータベースへの連続的なリアルタイム出力をサポート | TechCrunch Japan</a>jp.techcrunch.com

TechCrunchの記事で、PipelineDBがオープンソースでリリースされたことを知ったので調べてみた。

記事には、

このオープンソースのデータベースはSQLのクェリを連続的にストリーミングで流し、結果のテーブルを次々と保存する。協同ファウンダのDerek Nelsonはこう説明する: “連続的な処理とリレーショナルのストレージを一体化しているので、ストリーム処理をしながら、別途、外付けのストレージシステムを管理しなくてもよい”。

とあるが、何のことかさっぱりわからないので、マニュアルを読んでみる。

Introduction — PipelineDB 0.8.0 documentation

Continuous query

読み始めたはいいが、マニュアルに頻出する単語、continuous queriesがさっぱりわからないので、検索してみる。

この資料 http://www.ieice.org/iss/de/DEWS/proc/2004/paper/doc/ms-1.pdf によると、

データストリームからの到着データへ繰り返し問合せを適用する処理方式。到着データをタイムスタンプが付加された無限のタプル列とみなす。

なるほど。このデータストリームにSQLで問い合わせできるのが特徴なわけね。

PipelineDBとは

特徴を整理する。

PostgleSQLベースで開発されているオープンソースなDB
まだDBに保存していないデータストリームを扱うことができる
データストリームにSQLで繰り返し問い合わせでき、テーブルやビューのように扱うことができる

使い方のイメージ

実際にどんなシーンで使えるか。データストリームへの問い合わせとはどういうことかは、PipelineDBのトップページをみるとJavaScriptのアニメーションがあるのでわかりやすい。

<a href="http://www.pipelinedb.com">PipelineDB—The Streaming SQL Database</a>www.pipelinedb.com

公式ページのExamples

<a href="http://www.pipelinedb.com/examples">Examples—PipelineDB</a>www.pipelinedb.com

大量に流れてくるデータ、ログをモニタリングしてごにょごにょするのが使いどころか。ポイントは、ごにょごにょの処理でSQLで書けるところ。まだDBにInsertする前なのに。例えば、サーバーのログを監視しておいて、レイテンシがnミリ秒以上なレスポンスが1分以内に50回あったらアラートという処理がSQLで書ける。これまではDBにInsertする前のデータストリームの状態では、アプリケーションで使っているプログラミング言語、もしくはCQL(Continuous Query Language)で処理を書く必要があった。

PipelineDBを使えば、SQLで書けるね。これまでバッチ処理をしていたSQLをそのままリアルタイム処理にできるよってのがメリットかな。

ソースコード

Github

pipelinedb/pipelinedb · GitHub

Shoken Startup Blog

KitchHike Founder/CTO

Ginza.rb 第25回 RailsConf2015の資料をみんなで読もうに参加してきた

やったこと

RailsConf2015の資料や動画

Rails Weekly

Rails5の新機能

次回の勉強会

MongoDB 3.2の新機能を先取りチェック

MongoDB 3.2の新機能を早送りで見てみよう

1. ドキュメントバリデーション

2. Partial Indexes

3. Aggregationでjoin ($lookup)

まとめ

ActiveRecord4, Rails4のinverse_ofについて理解したメモ

inverse_ofとは

具体例

inverse_ofが無かったら

inverse_ofを指定すると

ドキュメント

MongoDBをtarからインストールしてCentOS 7のsystemdで起動/停止する設定

環境

手順

1. MongoDB 3.1.5のインストール

2. systemdによる起動設定

3. OS再起動時に/var/run/mongodbを作成する設定

PipelineDBとContinuous Queryについて調べたこと

Continuous query

PipelineDBとは

使い方のイメージ

ソースコード

やったこと

RailsConf2015の資料や動画

Rails Weekly

Rails5の新機能

次回の勉強会

MongoDB 3.2の新機能を早送りで見てみよう

1. ドキュメント バリデーション

2. Partial Indexes

3. Aggregationでjoin ($lookup)

まとめ

inverse_ofとは

具体例

inverse_ofが無かったら

inverse_ofを指定すると

ドキュメント

環境

手順

1. MongoDB 3.1.5のインストール

2. systemdによる起動設定

3. OS再起動時に/var/run/mongodbを作成する設定

Continuous query

PipelineDBとは

使い方のイメージ

ソースコード

1. ドキュメントバリデーション