solrのインデクシングの最適化

とあるサイトで検索システム「Solr」を導入した際に、検索インデックスの生成時間を短縮するため、様々な検証を重ねながら改善を行いました。
そこで得られた知識から、インデックス設計で注意する点など、効果の大きかったものをご紹介したいと思います。
※前提として、データインポートハンドラーを使って、RDBからインデックスを生成する場合となります。

1.indexed属性とstored属性を適切に
Solrのインデックス項目にはindexed属性とstored属性というものがあります。
indxed属性は検索させるか否かの設定で、検索に関連しないフィールドであればfalseに設定します。
stored属性は原文を保持するか否かの設定で、具体的には、「flパラメータを指定して検索結果としてテキストを取得しない」フィールドであればfalseに設定します。
これらの設定はインデックスの生成時間やインデックスのデータサイズに影響しますので、項目ごとに適切に設定する必要があります。

2.data-configで子エンティティを出来る限り減らす
data-configで子エンティティがあった場合、親エンティティの行ごとに子エンティティのSQLを実行するようになるため、multiValueをtrueにする必要のないものなどはJOINして対応するなど、子エンティティを出来る限り減らすようにします。

以下の設定の場合entity「hoge」の行数分、子エンティティ「hoge_child」のSQLが実行されます。
◆data-config.xmlの設定例(一部抜粋)

—

—

3.data-configで定義しているSQL文の最適化
最適化を重ねた中で、これが一番効果があったように思います。
RDBからインデクシングする場合、当然ながらSolrはSQLを実行してインデックスを作るため、一番ボトルネックになりやすいのではないかと思います。
実行しているSQLを全て検証し、適切にインデックスがはられているか、無駄な処理は無いかを丁寧に調べていきました。
上でも解説していますが、特に子エンティティがある場合、親エンティティの行ごとに子エンティティのSQLが実行されるため、データが多ければ多いほど影響が大きくなります。
ひとつのSQLでコンマ何秒という短い時間だとしても、データが数万行あると無視できない時間になります。

solrのインデクシングの最適化

TAG

TAG