Today: Yesterday: Total: Online:
カテゴリー
その他
  • RSS1.0
  • RSS2.0
  • atom0.3
  • valid XHTML1.0
  • valid CSS2
  • Credit
RSSリーダーで購読する | この日記のはてなブックマーク数 | プロフィール
コメントが一番多い記事(233コメント):人の心理の裏をかくホームページ集客術:リピータになってもらうためには
ツイートが一番多い記事(94ツイート):ちょっと待て!twitterやfacebookに子供の写真を掲載する親達への警告
いいねが一番多い記事(574いいね):facebookスパムに要注意。なりすましの見分け方とアカウント乗っ取りの手口(2013年度版)

カテゴリー » Web/ミディリン September 16, 2001

メーリングリストの検索システムの問題 ID:1000566000


チェルトの概要が、とりあえず、
300話近くまでストーリーの方向性がやっと決まりました。

まだ煮詰めてないところが多々あるのですが、
「オルテガが、何故、にじのしずくがないのにわたれたのか?」
ここがずっと悩んでいたんですよね。
で、、1つ、カンダタの話が終わった後、
オリジナルストーリーを書こうかな〜って思います。
もっとも、カンダタ編だけであと、30話くらい続きそうなので、
かなり先になりそうですが・・・


ただ、本編を書く時間がなかなかとれない。
ためて書いたチェルトもあと5話くらいしかないし。
このままでは、チェルトの原稿がつきてしまう。
10話くらい常にストックがあると、ゆとりをもって更新できるだけれど。

そういえば、土曜日は本棚を買ってきた。
新宿に行っていたんっすよ。

What's マイケルを始め、ダイの大冒険やら、バスタードやら、こちかめやら、
入りきらない本がいっぱいあって、
すでに、3つの本棚(1つの本棚に約200冊)入るのだが、
もうすでにぱんぱんで、段ボールにつめてあったり、
別のところに、置いてあったり、もう本が収納できなくて、
それで、無印と東急ハンズ、デパートなど行って見てきた。

ハンズに、6000円で、6段もあり、さらに、二重に入るので、
その1つの本棚で、300冊くらい入りそうです。
ただ、本棚って、意外に見つからないですね。

伊勢丹や、丸井など、デパートにも行ったんです。
家具のコーナーに本棚ってあるんじゃないかなって思って。
でも、本棚ないんです。

きれいなテーブル、ベット、ソファー、仏壇、
そういうものはいっぱいありました。

しかもデパートの家具はお値段の桁も1つ違い、
50万円とか普通にしました。
一般庶民には買えないよ〜

本棚なんて、貧乏チックなものは、
デパートでは置かないよ〜ってことなのでしょうか(笑)

全然本棚、ないんです。
ふん・・・・いいもん・・・・どうせ、デパートなんて
高級チックなところ、安田は一生関係ないから(ぷん)

金曜日に本棚届きます。
楽しみ〜〜♪
でも、OFF前日だから、本棚組み立てられない〜(悲)

来週、ついに第3回OFF会ですね。
楽しみにしてま〜す〜!

あと、ファイナルファンタジー10の攻略法
「ファイナルファンタジーX ULTIMANIA」買いました!
2冊!この本、分厚すぎです。
また本が増えた・・・・

と、ここまでが、雑談掲示板の内容を、修正してした内容。





で、このあとに書くのは、まだどこにも書いてないんだけれど、
今、「メーリングリストの検索システム」を作ろうかと
ここのところ、ずっと作業をしていた。

過去のメーリングリストのメールをすべて掲載しているんだけれど、
大手のメーリングリストのHP
(安田が個人で加入しているメーリングリストは、DreamweaverのML。
 前は、FlashのMLも入っていたけれど、数が多すぎて、やめた(笑))

こういうところのメーリングリストって、過去記事が検索できるようになっているんだよね。
http://w3.fast.co.jp/dw/
だから、質問内容や検索したいときも、その記事から検索できるっていうわけ。


ミディリンも、ゲームや、音楽についてにのメーリングリストは
結構過去記事を見ると、タメになるから、
これについて検索できるようになるといいと思ったわけだ。

ただ、ここで、何個もの問題点が。

まず、私は、Outlook Expressを使っているので
メールの方式が拡張子がemlなので、これを見られるようにすると、
2つ問題点がでてくる。

1つは、Outlook Expressを持っている人しか見られないこと。
もう1つは、eml方式には、ヘッダ情報も入っているので
よけいな情報まで見えてしまう、この2点が問題になってしまう。

そこで、他のMLはどうやってメーリングリストの内容を、
Web上に掲載しているのか研究していたのだが、
メールの内容をHTMLにして、それを掲載しているんだね。

そして、それを件名を順に並べ、それにリンクを張るというわけだ。
また、検索フォームからも記事を検索できるようにしてある、
理想なメーリングリスト記事検索システムだね。



今現在、ミディリンのメーリングリストの数は、
旧メーリングリスト(ゲームML+音楽ML共通)が約1250通
ゲームMLが280通
音楽MLが110通

ということで、約1600通弱
ということになる。

さて、これらのメールをメーリングリストの記事検索システムを
作るのにどういう手順・作業が必要か考えてみよう。


まず、


(1)emlのメールを、Web上に掲載できる形に変換する(HTMLかTXTに変換)
(2)インデックス(目次)を作り、そこから、MLのメールのリンクをすべてはる(リンクの名前はメールの件名)
(3)検索システムを作成する



大きくわけるとこのような手順だ。
これらを実現するには、どのようにしたらできるか試行錯誤したところ、

(1)と(2)は、5本のアプリケーションを使ってできる
のではと、予測をたてている
(使用アプリケーションはFileVisor4、Excel、Winrename、OETool、Devasか秀丸など置換機能があるもの)



さて、まず、(1)のeml−>html、txt変換なのだが、
これは、Outlook Expressをお持ちの方ならわかると思うが
メールをクリックしたあと、ファイル→名前をつけて保存−>ファイルの種類をTXTで保存、
これで可能である。

ただ、問題は、これは1通1通保存しなおすしか方法がないのだ。
(Outlook Expressでは、まとめてTXTでは保存できない)

そこで、どうにかして、フォルダにあるメール(eml)をTXTで保存できないかと、
vectorにいって、ツールを探していたら、ちょうど良いソフトがあった。

「Outlook Express のかゆいところに・・・ OETool」
というソフトがあり、これを使うと、
フォルダを指定すると、あとは自動的に、1通1通を保存してくれるという代物なのだ。

ただ、Win95とWin98では、動くのだが、W残念なことに、Win2000では、動かない。

私が使っているメインPC:ゲートウェイは、トリプルブートで
一応、Win98とWin2000とLinux(Red Hat7)の3つのOSを共存させているのだが、
今、Win98がまったく機動しない状態で、このソフトが使えないので

古いCanbeを持ってきて(OSはWin95なので動作する)
Canbeに、Outlook Express5と、そのツールをインストールして、
LANで、1650通のメールを全部、Canbe上でインポートして、
そのソフトで変換作業を行った。
CPUが100Mhz、メモリが16Mしかないから、もう遅いのなんのって・・・

途中で何回もメモリ不足がおきて再起動したが、
約12時間くらいかけて、1650通のeml→TXTに変換に成功。

次に、件名一覧の作成
これで、目次をつくり、それぞれのファイルに一覧にするわけだ。
これを一件ずつ、メールの名前を件名をカットアンドペーストするのはめんどくさいので、
Outlook Expressの1650通をドラックアンドドロップし、
eml方式で、HDDに別保存したあと、
FileVisorで、ファイル名一覧を出力、
そのあと、オブジェクト方式だと、そのまま、emlのファイルをコピーしてしまうのでテキスト方式をコピーし、抽出する。
そして、Devasか、秀丸を使い、ドライブ名や、相対パスなどいらない情報を一括置換して削除

そのファイル名一覧が・・・・・これ
このファイル、作成するの、手作業やったらきっと一ヶ月はかかる(^^;
アプリのおかげで、ファイル名の書き出しだけなら、作成時間、30分くらい。

で、今日はここまでしか作っていないのだが、
このあと何をするかというと
このTXTファイルをエクセルに張り付けるわけだな。

それで、その前後に、エクセルのアンカータグを書き、
ファイル名を連番
で作る。
1.txt、2.txt、3txtっていうふうに1650.txtまで)
これは、エクセルを使えば一瞬でおわるから。

そのあと、ファイル名が、件名.txtになっているので
順に1.txt、2.txt・・1650.txtとしないといけないので、
こちらは、winrenameを使い、連番でファイル名の変換を行う。
winrenameでなくて、連番屋さんでもできると思うけれど。

これを合体させることで(1)と(2)の完成なわけだ。

そして、検索としては、トップページの音楽検索のところで使っているCGIを使えば、
完成なのだが・・・

またここで1つ問題がでてくる。

ファイル数が多すぎるのだ。

結局、CGIベースで動かすとなると、Perlになるのだが、
1650通のTXT変換をすると、たぶん、Perlだと落ちると思うのね。
まだ試していないけれど。
そうなると、検索できないだなぁ・・・

本来なら、サーバーを自前にもっていて、
namazuというフリーの検索システムをサーバーにインストールして
(DreamweaverML:http://w3.fast.co.jp/dw/も同じ)
これを検索するか、
もしくは、データベース(Accessや、Oracleなど)と連携して、
Aspでやらないと不可能なのね。

一応やってみるだけやってみるけれど、(3)で
たぶん、ダメになりそうなんだよなぁ・・・
— posted by midilin @ 12:00AM | Comment(0) | TrackBack(0) 

コメントをどうぞ。名前(ペンネーム)は必須です。URLはオプションです。

Comment Form
名前(ペンネーム): 文字色:
リンク作成 »
スパム対策画像認証(右に表示されている画像の番号を入れてください):
下のアイコンをクリックするとテキストエリアに挿入できます
:) :D 8-) ;-) :P :E :o :( (TT) ):T (--) (++!) ?;w) (-o-) (**!) ;v) f(--; :B l_P~ (QQ)

←メールアドレスを入力しておくと midilin がレスをした際に通知します: