• images プロダクト

著者・作者1

いいね!と思ったら、各スキルの右の+1ボタンを押して評価を送ろう

  • tomoaki.usui

    tomoaki.usuiAuthor

    弁護士・法律事務所に特化した検索エンジンです。表には出てこないクローラーの調整が一番苦労しました…

コメント4

  • yoshikischmitz

    yoshikischmitz

    ずいぶん完成度の高いエンジンですね!クローラーもPHPですか?日本語のサイトをクローリングしていて何かチャレンジはありましたか?もしクローラーに関する記事を書く予定があるなら個人的にはとても興味があります。 約2年

  • tomoaki.usui

    tomoaki.usuiAuthor

    クローラーはPHPCrawl(http://phpcrawl.cuab.de/)を使っています。
    弁護士・法律事務所だけをクロール対象とするために、クロール対象リストの管理(追加・変更・削除)が必要で、このあたりが面倒でした。
    順位付けの部分はElasticsearchのfilterやboostの調整ですね。こちらは今でも試行錯誤しています… 2年弱

  • yoshikischmitz

    yoshikischmitz

    そうですか、情報ありがとうございます。やはり全文検索は細かい調整などで結構時間がかかるんですね、参考になりました。 2年弱

  • tomoaki.usui

    tomoaki.usuiAuthor

    自社サイトの場合には、検索対象にしたいフィールドをデータベースから取得することもできますが、外部サイトの場合、HTMLの文字コードの違いやソースコードの記述ミスなどもあったりするので、そのあたりの調整も難しかったですね。一度まとめて書いてみたいとは思いますが、時間が…。 2年弱

  • Nobody

ユーザー登録/ログイン