忍者ブログ
柏崎・長岡(旧柏崎県)発、 歴史・文化・人物史
[12] [11] [10] [9] [8] [7] [6] [5] [4] [3] [2]
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

 今回は、資料からどの様に必要なデータを検索するのか、その方法の一つを紹介する。
 インターネット上の文献から必要なデータを検索する一種のデータ・マイニングの方法
といえるだろう。

 インターネットが利用できれば、歴史のデータの多くを必要な歴史サイトから検索でき
る。 (歴史ばかりではない。 例えば、青空文庫あたりの文学作品のテキスト分析にも
使える。) そこからが問題だ。 例えば、先回採り上げた「新選組」の問題があるとし
よう。 関連サイトは山ほどある。 その中で、有効と思われるものを見つけ、それを資
料としてダウロードする。 サイトをそのままコピーすると、使い難いものだ。 先ず、
画面を適当な大きさにコピーできない。 これには市販のソフト、例えば『すぐれもの』
のようなものもあるのだが、コピーから必要な項目を検索するのは難しいから、プリント
アウトして、そこから手作業で捜すことになる。 実は、これを容易にする方法を紹介す
るのだ。 (あまり、紹介したくはないのだが?)

 先ず、必要なソフトがいる。 画面データをPDFに変換するソフトだ。 色々使って
見たが、矢張り「Adobe」のディスティラーが便利だ。 ディスティラーに相当する
ソフトでも良い。 何しろ、「AdobeAcrobat」は高価である。 しかし、A
dobeの場合は、仮想プリンタとして使えるからだ。 インストールすると、プリンタ
登録が自動的に行われる。 ここまで書くと、既に解った人がいるだろう。 要するに、
PDFファイルとしてコピーするのだ。 Adobeの場合は、ファイル出力になる。

 ページ設定、あるいはプリンタ設定で、適当なサイズに縮小するのが良いだろう。 こ
うすると、プリントアウトするとき便利だ。 そうすれば、アクロバット・リーダー(V
er.7が推奨)の検索を使って、必要なデータを検索することが出来る。 例えば、
「新選組」の場合で言えば、「越後」をキーワードに検索すれば、Ver.7の場合、右
ウインドウに検索ヒット件数とヒット項目が表示される。 この例で言えば、7件がヒッ
トする。

 最近、インターネット上の情報も、コピーガードがある場合がある。 しかし、この方
法だと、簡単にファイルに落とすことが出来る訳だ。 少々テクニックを必要とする場合
があるが、大抵の場合、何とかなるものだ。

 テキスト分析にも使える。 例えば、新聞記事をこの方法でファイル出力する。 マー
ジして、大きなファイルにし、アクロバットで検索すると、ターゲットの項目の使用頻度
などを簡単に見ることが出来る訳だ。

 インターネットは、情報の宝庫だが、発見の方法を知らなければ、猫に小判だ。 ま
た、折角見つけた情報でも、いちいち手作業で分析したのでは、時間の浪費だ。 そうか
と言って、高い金を出して業者に依頼するのも、高価なデータ・マイニング・ツールを買
うのも、企業ならまだしも、個人では不可能だ。 一種ハッカーまがいの方法論だが、使
い方は邯鄲で、少なくとも私は重宝している。 他にも方法はあるのだが、基礎知識が必
要で、多分にややこしい。 この方法、一度、試しては如何だろう。

Best regards
梶谷恭巨
PR

コメント


コメントフォーム
お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード
  Vodafone絵文字 i-mode絵文字 Ezweb絵文字


トラックバック
この記事にトラックバックする:


忍者ブログ [PR]
カウンター
プロフィール
年齢:
70
性別:
男性
誕生日:
1947/05/18
職業:
よろず相談家業
趣味:
歴史研究、読書
自己紹介:
柏崎マイコンクラブ顧問
河井継之助記念館友の会会員
最新コメント
[07/10 田邊]
[07/10 田邊]
[04/08 カセイジン]
[11/06 目黒 俊作]
[06/23 ぬりえ屋]
カレンダー
10 2017/11 12
S M T W T F S
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
フリーエリア
バーコード
ブログ内検索