2007/04/11

Google Desktop for Mac の日本語検索

デスクトップ検索に Google のパワーと便利さを

Google Desktop for Mac が発表されたので、インストールしていろいろ試しています。

なお、Google Desktop を含むいろいろな Google の Mac 用ソフトウェアは Google Software Downloads for the Mac にまとめられています。

Google Desktop for Mac の特徴

Google Desktop - Features に英語でまとめられていますが、かいつまんで紹介してみます。

  • Quick Search Box

    Commandキー(⌘)を2回連打すると、Quick Search Box という検索パネルが前面に表示されます。ctrl + space(非日本語環境では cmd + space)の Spotlight 呼び出しより、呼び出しやすくていい感じです。

    ただ、現時点では、日本語を変換して確定しようと return を押すと、検索を実行してしいます。不具合ですが、まだβ版だし、日本語版でもないので、そのうち直ると期待しましょう。

  • Gmail と Google でのウェブ検索履歴の検索

    自分の Gmail をオフラインでも検索できます。なお、その他のメールの検索としては、Apple Mail (Mail.app)、Entourage に対応し、それ以外でも Spotlight に対応しているメーラーを使っているなら恐らく検索可能です。

    (利用していれば)Google で今まで行った検索の履歴を検索することもできます(もちろんオフラインで)。

  • 多数のファイルに対応

    以下のものに加え、Spotlight に対応しているものが検索可能です。(というわけで、ネタフルさん、Spotlight はオフにしないほうがいいでしょう。)

    • Gmail
    • テキストファイル (.txt)
    • PDF
    • HTML
    • Apple Mail と Microsoft Entourage
    • iChat の会話ログ
    • Microsoft Word、Exce、PowerPoint
    • 音楽とビデオファイル(アーティスト名や曲名でも検索可=メタデータが検索できるということでしょう)
    • アドレスブックの連絡先
    • システム環境設定
    • ファイル名、フォルダ名

    ヘルプによると、検索対象フォルダ・ボリュームも Spotilght の設定に従うそうです。上記のものも Spotlight の検索対象ばかりですから、基本的には Spotlight のデータ + Gmail + Google 検索履歴、なのでしょうか。

  • 親しみのある検索結果

    検索結果は、ウェブページを Google 検索したときと同様のレイアウトで表示されます。検索語の前後の文章の表示や、ヒットした検索部分の強調も同様に行われます。

    検索結果を、メール、検索履歴、ファイル、(音楽などの)メディアファイル等のジャンルで絞り込むこともできます。

  • 賢い索引作り

    いつ検索の索引が作られているかを気にすることなく、自動的にデータの索引を作ってくれます。初回だけ時間がかかります(数時間かかるとあります)。Spotlight と同じような感じですね。

  • Google との統合

    デスクトップ(ローカルのハードディスクの)検索と Google ウェブ検索を一体化してくれるってところでしょうか。

  • 旧バージョンのファイルの保存

    ウェブ検索でキャッシュを表示できるような感じで、ローカルのファイルについてもキャッシュが保存されるので、ちょっと前のファイルの内容を確認できるというわけです。

Google Desktop for Mac のインストール条件

ヘルプの How do I install Google Desktop for Mac OS? 等に書いてありますが、

  • 1GB のハードディスク空き容量
  • Mac OS 10.4 以降

が必要とされています。なお、HFS+ フォーマットのディスクだけが対象です。

また、上でもちょっと触れましたが、Spotlight の対象ボリューム、フォルダ、ファイルが Google Desktop の検索対象にもなっているので、Spotlight は下手にオフにしないほうがよいと思われます。

インストール方法はネタフルさんがスクリーンショット付きでわかりやすいです。

ヘルプの Where is my search index stored? によると、索引ファイル(インデックスファイル)の保存場所は以下の通りです。

  • 各ユーザのインデックス:Library/Application Support/Google/Google Desktop/Index
    • FileVault 使用時: ~/.GoogleDesktop/Index
  • 全ユーザ共通のインデックス:/Library/Google/Google Desktop/Index

OS X ハッキング! 噂の「GoogleDesktop for Mac」を試すによると、容量約47GB 使用のボリュームで、インデックスファイルが約625MB ということです。

自分の場合、25GB 使用中のボリュームで試してみたら、インデックスファイルとアプリケーションで、約848MB になりました。

  • Library/Application Support/Google/Google Desktop/Index:51MB
  • /Library/Google/Google Desktop/Index:795M
  • Google Desktop.app と Google Updater.app:1.5MB

確かに空き容量は 1GB 近くは必要なようです。

日本語検索の結果はいまいち

以下のスクリーンショットの例のように、例えば「日記」と検索しても、「日」と「記」をバラバラに含むものも検索してしまいます。「こんにちは」なんかを検索すると「こ」「ん」「に」「ち」「は」をバラバラに検索するので泣けてきます。

Google Desktop 検索結果

しかし、これは検索語を "日記" のように引用府で括ってフレーズ検索にすると、比較的まともな結果が得られます(以下のスクリーンショット)。

Google Desktop 検索結果(フレーズ検索)

なぜ、日本語がこんな風にバラバラに分解されて検索されるのかは、Ngram (N-gram)のような方法を使っているからなのかもしれません。

CNET の「ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超」に書かれている内容が一般向けにわかりやすいでしょうか。

たとえば、「ライブドアの検索」という文章ならば、形態素解析では「ライブドア」「の」「検索」と分割する。英語では、単語と単語の間にスペースが入るので認識しやすいが、日本語の場合は、単語の辞書ファイルを用意しなくてはならない。これがN-gramの場合、Nを2文字単位と指定すれば、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」と分割し、それぞれを単語として扱う。強制的に分割するので、別途辞書ファイルを用意する必要がない。

Spotlight は、ことえりと共通の辞書を利用して、形態素解析をしているんじゃないかと思うのですが、Google Desktop はアプリケーションサイズが小さいしオフラインでも動くので、形態素解析まではしてないんでしょうね。Google のウェブ検索では、サーバ側で形態素解析しているように思えます。Windows 版の Desktop Search ではどうしているのでしょうか。

いずれにせよ、まだ英語のβ版なので、この段階であまり期待しすぎるのは酷というものかもしれません。

関連サイト

ポスト @ 3:35:22 | , , | 「このエントリーを含むはてなブックマーク」ボタン この記事「Google Desktop for Mac の日本語検索」を含むはてなブックマークの数

Comment

No Comments

Post Your Comment



(Smile) (Wink) (Laugh) (Foot in mouth) (Frown) (Gasp) (Cool) (Tongue)

*は入力必須です。E-Mailは公開されません。