毎週更新!転職特集

ピタジョブ

ピタジョブ技術紹介:求人掲載の裏側 <第一回>

掲載日:

ピタジョブ開発秘話「膨大な求人、どう集めてるの?」

こんにちは、ピタジョブ開発チームです。
今回は、ピタジョブ技術紹介として、求人掲載の裏側をご紹介いたします。

求人情報はクロール技術で自動収集!

ピタジョブに掲載している求人には、人材紹介会社や他社転職サービスからご提供いただいている求人と、ピタジョブ独自に収集している求人の2種類があります。今回は、独自に収集している求人のお話です。

サービス開始当初から、ピタジョブは大規模な求人数を準備できました。それを支えているのが、Webクローリングの技術です。以前はGoogleなどの検索エンジンがインターネット上の情報を網羅的に収集するために用いられることが多かったですが、最近では様々な目的に特化したクローラを作成して運用することが増えてきました。私たちは、企業のHPのみを対象としたクローラを運用しています。

効率的にクロールするため、企業情報っぽいリンクや、採用情報っぽいリンクを探索しながらクロールをおこないます。企業によっては採用情報サイトが別ドメインのサイトになっているところもありますが、そうした場合もきちんと企業と採用情報を関連づけて収集・管理します。掲載する企業情報・求人情報には、元ページをたどるためのリンクを設置しています。ピタジョブに載せきれなかった情報もあるため、応募の際は、元ページの確認もスムーズに行えるようにしています。

スクレイピングで情報抽出!

クローラで取得したHTMLから、必要な情報を抽出する技術をスクレイピングと言います。クローラとあわせて利用することが多い技術です。ピタジョブでは採用情報ページから、募集職種や給与・待遇、福利厚生など、求人情報として必要な情報を抽出します。

企業によって、求人情報の体裁は様々です。一般的な表形式で求人情報を作成しているところもあれば、きれいなデザインで写真が豊富だったり、複雑なレイアウトのページだったりします。また、使われている用語も様々で、企業の採用情報では「月給」「給与」「年収」など会社によって表現が異なる場合があります。

ピタジョブでは、ページの構造解析と記述内容の言語解析を組み合わせ、さらに独自開発した推論エンジンにより、求人情報として必要な情報を統一的に抽出する仕組みを構築しました。

仕上げは推論エンジン!

推論エンジンでは、抽出した情報がどの項目に該当するかを判断すると共に、「タグ化」という処理をおこないます。タグは、ピタジョブの求人情報ページの福利厚生や休日休暇に表示される緑色 / 赤色で囲われた項目です。企業の採用ページから抽出した内容を元に、求人の特徴となりそうなものを推論エンジンが判断しタグ化します。これにより、条件の絞り込みや、こだわり条件やスキルとのマッチングが可能になります。

ジャストシステムのこだわり

クロール、スクレイピング、推論エンジンには、ジャストシステムの自然言語処理が活用されています。ピタジョブのためにルールや辞書も、ほぼ新規に作成しました。実際の抽出結果を見ながら、今日も継続的な改善が続けられています。そのため、「昨日見た求人を今日見たらタグが増えてる!」といったこともあります。是非、様々な観点から求人情報を探してみてください。

最後に

さて、ピタジョブの求人掲載の裏側について、ご説明いたしましたがいかがだったでしょうか?早速、本日の新着求人をご覧ください!

この記事はお役に立ちましたか?

ご協力ありがとうございました!

この記事をシェアしてみませんか?

お役立ちコンテンツ

ページトップ