2007/04/11
Google Desktop for Mac の日本語検索
デスクトップ検索に Google のパワーと便利さを
Google Desktop for Mac が発表されたので、インストールしていろいろ試しています。
なお、Google Desktop を含むいろいろな Google の Mac 用ソフトウェアは Google Software Downloads for the Mac にまとめられています。
Google Desktop for Mac の特徴
Google Desktop - Features に英語でまとめられていますが、かいつまんで紹介してみます。
Quick Search Box
Commandキー(⌘)を2回連打すると、Quick Search Box という検索パネルが前面に表示されます。ctrl + space(非日本語環境では cmd + space)の Spotlight 呼び出しより、呼び出しやすくていい感じです。
ただ、現時点では、日本語を変換して確定しようと return を押すと、検索を実行してしいます。不具合ですが、まだβ版だし、日本語版でもないので、そのうち直ると期待しましょう。
Gmail と Google でのウェブ検索履歴の検索
自分の Gmail をオフラインでも検索できます。なお、その他のメールの検索としては、Apple Mail (Mail.app)、Entourage に対応し、それ以外でも Spotlight に対応しているメーラーを使っているなら恐らく検索可能です。
(利用していれば)Google で今まで行った検索の履歴を検索することもできます(もちろんオフラインで)。
多数のファイルに対応
以下のものに加え、Spotlight に対応しているものが検索可能です。(というわけで、ネタフルさん、Spotlight はオフにしないほうがいいでしょう。)
- Gmail
- テキストファイル (.txt)
- HTML
- Apple Mail と Microsoft Entourage
- iChat の会話ログ
- Microsoft Word、Exce、PowerPoint
- 音楽とビデオファイル(アーティスト名や曲名でも検索可=メタデータが検索できるということでしょう)
- アドレスブックの連絡先
- システム環境設定
- ファイル名、フォルダ名
ヘルプによると、検索対象フォルダ・ボリュームも Spotilght の設定に従うそうです。上記のものも Spotlight の検索対象ばかりですから、基本的には Spotlight のデータ + Gmail + Google 検索履歴、なのでしょうか。
親しみのある検索結果
検索結果は、ウェブページを Google 検索したときと同様のレイアウトで表示されます。検索語の前後の文章の表示や、ヒットした検索部分の強調も同様に行われます。
検索結果を、メール、検索履歴、ファイル、(音楽などの)メディアファイル等のジャンルで絞り込むこともできます。
賢い索引作り
いつ検索の索引が作られているかを気にすることなく、自動的にデータの索引を作ってくれます。初回だけ時間がかかります(数時間かかるとあります)。Spotlight と同じような感じですね。
Google との統合
デスクトップ(ローカルのハードディスクの)検索と Google ウェブ検索を一体化してくれるってところでしょうか。
旧バージョンのファイルの保存
ウェブ検索でキャッシュを表示できるような感じで、ローカルのファイルについてもキャッシュが保存されるので、ちょっと前のファイルの内容を確認できるというわけです。
Google Desktop for Mac のインストール条件
ヘルプの How do I install Google Desktop for Mac OS? 等に書いてありますが、
- 1GB のハードディスク空き容量
- Mac OS 10.4 以降
が必要とされています。なお、HFS+ フォーマットのディスクだけが対象です。
また、上でもちょっと触れましたが、Spotlight の対象ボリューム、フォルダ、ファイルが Google Desktop の検索対象にもなっているので、Spotlight は下手にオフにしないほうがよいと思われます。
インストール方法はネタフルさんがスクリーンショット付きでわかりやすいです。
ヘルプの Where is my search index stored? によると、索引ファイル(インデックスファイル)の保存場所は以下の通りです。
- 各ユーザのインデックス:
Library/Application Support/Google/Google Desktop/Index
- FileVault 使用時:
~/.GoogleDesktop/Index
- FileVault 使用時:
- 全ユーザ共通のインデックス:
/Library/Google/Google Desktop/Index
OS X ハッキング! 噂の「GoogleDesktop for Mac」を試すによると、容量約47GB 使用のボリュームで、インデックスファイルが約625MB ということです。
自分の場合、25GB 使用中のボリュームで試してみたら、インデックスファイルとアプリケーションで、約848MB になりました。
Library/Application Support/Google/Google Desktop/Index
:51MB/Library/Google/Google Desktop/Index
:795M- Google Desktop.app と Google Updater.app:1.5MB
確かに空き容量は 1GB 近くは必要なようです。
日本語検索の結果はいまいち
以下のスクリーンショットの例のように、例えば「日記」と検索しても、「日」と「記」をバラバラに含むものも検索してしまいます。「こんにちは」なんかを検索すると「こ」「ん」「に」「ち」「は」をバラバラに検索するので泣けてきます。
しかし、これは検索語を "日記" のように引用府で括ってフレーズ検索にすると、比較的まともな結果が得られます(以下のスクリーンショット)。
なぜ、日本語がこんな風にバラバラに分解されて検索されるのかは、Ngram (N-gram)のような方法を使っているからなのかもしれません。
CNET の「ライブドア、ブログ検索をN-gram方式へ--対象は2000万ブログ超」に書かれている内容が一般向けにわかりやすいでしょうか。
たとえば、「ライブドアの検索」という文章ならば、形態素解析では「ライブドア」「の」「検索」と分割する。英語では、単語と単語の間にスペースが入るので認識しやすいが、日本語の場合は、単語の辞書ファイルを用意しなくてはならない。これがN-gramの場合、Nを2文字単位と指定すれば、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」と分割し、それぞれを単語として扱う。強制的に分割するので、別途辞書ファイルを用意する必要がない。
Spotlight は、ことえりと共通の辞書を利用して、形態素解析をしているんじゃないかと思うのですが、Google Desktop はアプリケーションサイズが小さいしオフラインでも動くので、形態素解析まではしてないんでしょうね。Google のウェブ検索では、サーバ側で形態素解析しているように思えます。Windows 版の Desktop Search ではどうしているのでしょうか。
いずれにせよ、まだ英語のβ版なので、この段階であまり期待しすぎるのは酷というものかもしれません。
Comment
No Comments