よろず工房

検索エンジン

インターネット上の情報を探すためのシステム

１．種類

Google（グーグル）	Google社が開発・提供テキストによる検索はもちろん、　画像や音声での検索にも対応する AI Overview（AIによる概要）の提供　AIの回答を検索結果に表示する日本でのシェア80.45%
Yahoo!（ヤフー）	Yahoo Japan社が提供　Googleをベースに構築されている多岐にわたるコンテンツを提供する　ポータルサイトニュース、天気、メール、知恵袋等日本でのシェア9.22%
Bing（ビング）	Microsoft社が提供多種類の検索に対応している　テキストや画像、音声等 WindowsのEdge、Office等　様々なMicrosoft製品と連携している CopilotというAI支援機能の提供　検索機能に組み込まれ内容が充実日本でのシェア8.23%

２．検索エンジンの仕組み

　クロール（情報を集める）
　　　インターネット上のWebページを自動で巡回し、情報を収集する

　　　ロボットのようなプログラム（クローラー）が
　　　大量のWebページを素早くチェックする
　　　　　ログイン情報が必要なページについては、対象外とする

　　　定期的にクロールを行い、新しいページや更新されたページを見つける
　　　　　ページ本文（テキスト）
　　　　　タイトル、見出し、メタタグなどの構造に関する情報
　　　　　内部リンクおよび外部リンク
　　　　　画像のalt属性やファイル名
　　　　　robots.txt や sitemap.xml など、クロール可否を示すファイル

　インデックス（集めた情報を登録する）
　　　クロールで集めた情報を整理し、検索できるようにDBに登録する

　　　入力したキーワードに関連するページを素早く見つけられるようにする
　　　　　クローラーが取得したHTMLデータを分析する
　　　　　ページ内の重要なキーワードを抽出し、内容ごとに分類
　　　　　構造化された情報としてデータベースへ格納
　　　　　ページの評価を行う

　ランキング（検索結果の順番を決める）
　　　インデックスに登録されたたくさんのウェブページの中から、
　　　ユーザーが入力したキーワードと最も関係が深く、役立つと判断した順に
　　　ページを並べて表示する

　　　ランキングによって検索結果に表示される順番が決まるので、
　　　ユーザーは知りたい情報にすばやくたどり着くことができる

３．ランキングの要素

システム	内容
BERT	単語の組み合わせによって、意味や意図がどのように変化するかを理解するAI
重複除去システム	似通ったページが複数あった場合、有用性の低いページを除外する
フレッシュネスシステム	鮮度が重要なキーワードについては、ページ内情報の鮮度の高さを評価する
リンク分析システムとPageRank	ページ間のリンクを元に、どのページが有用かを判断する
ローカルニュースシステム	関連性の高い地域のニュース情報を特定して表示する
オリジナルコンテンツシステム	独自性の高いコンテンツが、単にそれを引用したものよりも検索上位に表示される
レビューシステム	独自の分析や調査結果、専門家や愛好者が書いたコンテンツを高く評価する
サイト多様化システム	1つのウェブサイトが検索結果の上位を独占しないようにする

４．効率よく検索にヒットするには

　インデックス登録に至らない要素（逆ならば登録されやすい）
　　　ページのコンテンツの品質が低いもの
　　　Robots meta ルールによってインデックス登録が禁止されるものい
　　　ウェブサイトのデザインが原因でインデックス登録が困難なもの

　検索エンジンに正しく登録してもらうためには、
　　　質の高いオリジナルな情報を提供することが重要

トピック