はじめに

本ソフトをご愛顧賜り誠にありがとうございます。

本ソフトは、Windows(95,98,Me,NT,2000,XP)において、Web上のデータをダウンロードし、かつ検索するためのソフトウェアです。また、ダウンロードしたデータの操作、解析もおこなうことができます。

本ソフトの目的と概要は以下の通りです。

△目次に戻る

目的1.Web上のデータのダウンロード

ソフトの動作概要 : Web上のデータを、再帰的に(リンクを次々とたどって)根こそぎダウンロードします。

またダウンロードする際に、「ダウンロードの起点からのURLの関係」「ファイルの種類やサイズ」「リンク元とのURLの関係を」などを元に、ダウンロードするファイルをフィルタリングして取得することができます。

できること : 「サイトの丸ごとダウンロード」「リンク先の画像などのコンテンツの根こそぎダウンロード」「特定のジャンルのWebサイトの根こそぎダウンロード」「アクセス解析のリンク元ページの根こそぎダウンロード」「ニュースサイトのリンク先ページを含んだミラーリング」「Webの無制限ダウンロード(検索エンジンのロボットと同等)」などなど。

開発の背景 : GUIで、細かい制御を設定可能で、かつリンクを解析したデータを二次利用可能なクライアントソフトが欲しかった。

△目次に戻る

目的2.Webのリアルタイム検索

ソフトの動作概要 : 目的1の「Web上のデータのダウンロード機能」を拡張した機能です。リアルタイムに、最新のWeb上のデータを直接検索します。

また、正規表現も利用して、きめの細かい検索を実現します。さらに、一度検索したWeb上のデータは、ローカルに全てダウンロードされるので、後で何度でも他の検索語で検索を行うことが可能です。

この機能のことを、本ソフトでは、Web-Grep機能と呼んでいます。

できること : 「サイト内データの外部からの検索」「リンク先データの無制限検索」などなど。

開発の背景 : 既存の検索エンジンの機能が弱くて(正規表現がなくて)使い物にならないことが多かった。また、データベースを持たずに、リアルタイムで最新のデータを検索できる検索エンジンが欲しかった。

△目次に戻る

目的3.Web上のデータの解析と再利用

ソフトの動作概要 : 目的1の「Web上のデータのダウンロード機能」を実行した際に、URL間のリンク構造を格納したファイルが作成されます。このファイルを利用することで、Web上のデータを効率的に加工した二次データを作成します。

できること : 「特定ジャンルのWebサイト間の、被リンク数ランキングページの作成」「旧ばるぼらアンテナのような、ニュースサイトによるニュースリンクランキングの作成」「特定のニュースに対する、反応リンク集の作成」「リンク集ページからリンク集を合成した、メタリンク集の作成」「複数のサイトのコンテンツを横断的に網羅した超インデックスページの作成」などなど。

開発の背景 : Web上のデータを二次加工できる強力なツールが欲しかった。

△目次に戻る

目的4.Web上のデータの定期的ダウンロード

ソフトの動作概要 : 目的1の「Web上のデータのダウンロード機能」を、指定した時間に自動実行します。

できること : ダウンロードの設定を「お気に入り」として保存した後、その設定のダウンロードを指定時間に自動実行します。木曜日の午後3時30分、毎時00分にダウンロードなど、自由なスケジュールを好きな数だけ設定できます。

開発の背景 : Web上のデータを定期的に保存したかった。

△目次に戻る

まとめ

本ソフトは、ダウンローダーリアルタイム型パーソナル検索エンジンWeb構造解析ソフトです。

本ソフトができることは、以下の通りです。

開発経緯を話すと、元々はWeb-Grep機能が欲しくて開発を始めました(GrepとはWeb-Grepとは)。本ソフトでは、AND、OR、NOT検索に加え、正規表現での検索ができます。また、Webページをダウンロードしながらリアルタイムで検索を行えます。

ローカル・ファイルをGrepするのと同じような感覚で、ウェブ上のデータを、リンク構造をたどりながら再帰読み込みしつつ検索していきます。

↓リンク構造をたどりながら再帰読み込みするイメージ

本ソフトは、開発している内にダウンロードや、解析などの機能にいろいろと面白い機能が追加され、結果的に巨大なソフトウェアになりました。おかげで、ソフトの可能性は広がりましたが、かなり高度なソフトになってしまいました。

△目次に戻る