solrのインデクシングの最適化
とあるサイトで検索システム「Solr」を導入した際に、検索インデックスの生成時間を短縮するため、様々な検証を重ねながら改善を行いました。
そこで得られた知識から、インデックス設計で注意する点など、効果の大きかったものをご紹介したいと思います。
※前提として、データインポートハンドラーを使って、RDBからインデックスを生成する場合となります。
1.indexed属性とstored属性を適切に
Solrのインデックス項目にはindexed属性とstored属性というものがあります。
indxed属性は検索させるか否かの設定で、検索に関連しないフィールドであればfalseに設定します。
stored属性は原文を保持するか否かの設定で、具体的には、「flパラメータを指定して検索結果としてテキストを取得しない」フィールドであればfalseに設定します。
これらの設定はインデックスの生成時間やインデックスのデータサイズに影響しますので、項目ごとに適切に設定する必要があります。
2.data-configで子エンティティを出来る限り減らす
data-configで子エンティティがあった場合、親エンティティの行ごとに子エンティティのSQLを実行するようになるため、multiValueをtrueにする必要のないものなどはJOINして対応するなど、子エンティティを出来る限り減らすようにします。
以下の設定の場合entity「hoge」の行数分、 子エンティティ「hoge_child」のSQLが実行されます。
◆data-config.xmlの設定例(一部抜粋)
3.data-configで定義しているSQL文の最適化
最適化を重ねた中で、これが一番効果があったように思います。
RDBからインデクシングする場合、当然ながらSolrはSQLを実行してインデックスを作るため、一番ボトルネックになりやすいのではないかと思います。
実行しているSQLを全て検証し、適切にインデックスがはられているか、無駄な処理は無いかを丁寧に調べていきました。
上でも解説していますが、特に子エンティティがある場合、親エンティティの行ごとに子エンティティのSQLが実行されるため、データが多ければ多いほど影響が大きくなります。
ひとつのSQLでコンマ何秒という短い時間だとしても、データが数万行あると無視できない時間になります。
TAG
新しいことや難しい課題に挑戦することにやりがいを感じ、安定やぬるい事は退屈だと感じます。 考えるより先に手が動く、肉体派エンジニアで座右の銘は諸行無常。 大事なのは感性、プログラミングにおいても感覚で理解し、感覚で書きます。
TAG
- Android
- AWS
- Bitrise
- CodePipeline
- Firebase
- HTML
- iOS
- IoT
- JavaScript
- KPI
- Linux
- Mac
- Memcached
- MGRe
- MGReのゆるガチエンジニアブログ
- MySQL
- PHP
- PICK UP
- PR
- Python
- Ruby
- Ruby on Rails
- SEO
- Swift
- TIPS
- UI/UX
- VirtualBox
- Wantedly
- Windows
- アクセス解析
- イベントレポート
- エンジニアブログ
- ガジェット
- カスタマーサクセス
- サーバ技術
- サービス
- セキュリティ
- セミナー・展示会
- テクノロジー
- デザイン
- プレスリリース
- マーケティング施策
- マネジメント
- ラボ
- リーンスタートアップ
- 企画
- 会社紹介
- 会社紹介資料
- 勉強会
- 実績紹介
- 拡張性
- 採用
- 日常
- 書籍紹介
- 歓迎会
- 社内イベント
- 社員インタビュー
- 社長ブログ
- 視察
- 開発環境