2008年8月23日土曜日

POPFileのその後

POPFileを導入して約3週間がたった。
振り分けしたメール数も2044まで増えた。
間違った件数はトータルで6件。
結果は上々。

POPFileが間違えたメールは、しばらくメールが来なかった差出人から来たときだ。
自分の場合、「久しぶり」で且つ「お店に関する話題の割合が多い」とスパムと判断するようだ。spamの相手は楽○なので、当然なのだが。

対策としては、メーラの振り分け機能の優先順位で、絶対に間違えたくない差出人を漏れなく登録し、その優先順位を上げることだ。
POPFileでは "X-Text-Classification" というタグで分類するので、このタグでの振り分け優先順位を最低にする。これで間違いはかなり防げる。

ただしPOPFileは間違いを完全には防げないので、ある程度は定期的に検索を掛けて重要なメールが埋もれていないかをチェックしなければならない。それでも、これまで手動でスパム振り分けをしていた手間を考えれば、恐ろしいほどの作業率の改善だ。
スパムに苦しんでいる方はPOPFileを強く推奨します。

2008年8月7日木曜日

CO2排出量の勘違い

以前このブログで、太陽炉を使ったCO2削減の効果について次に様に書いていていた。

「記事によると1日に約2kgのCO2を処理できるらしい。
実験では1m四方ぐらいのフレネルレンズを用いてFe3O4の資料を加熱している写真が掲載されていた。特に記されていなかったが、この装置で1日2kgを処理できるのであれば、量産すれば温暖化を食い止めるぐらいの処理能力が確保できるのではないか?・・・と期待してしまう。」

その後、日本でのCO2排出量はどれぐらいなのだろうと思いながらも特に調べていなかった。今日、ふと思いついてデータを調べていたら、その量は途方もないことが分かった。
なんと、1年間で一人当たり10トン。半端ない量だったのだ。
これに日本の人口を掛ければ、13億トン弱という数字になる。

完全に認識を誤っていたことを自覚した。

ちなみに自分が参照したデータは下記のリンク。
日本の二酸化炭素排出量の推移

2008年8月6日水曜日

害虫駆除

害虫駆除にもいろいろな手法があることを知った。

地方紙の投稿欄にウリミバエという害虫を駆除するために、害虫を繁殖する機関があるという記事があった。「害虫を繁殖?」と疑問に思って読んでいくと、養殖したウリミバエに放射能を当てて繁殖能力を取り去り、生息地域に放す。すると、本来繁殖で子孫を残せるはずの野生のウリミバエが放射能バエと交配することで子孫を残せなくなるのだ。もちろん1代では野生どうしが交配して子孫を残すので、これを何代かに渡って行い、徐々に子孫を残す確率を下げていくそうだ。

沖縄県ミバエ対策事業所のホームページへのリンク

放射能を与えたハエを野に放すことには若干の心配もあるが、当てる放射線が微量な事と子孫が残せないことを考えれば、害虫以外の虫や小動物まで巻き添えにしてしまう農薬ばら撒きよりはむしろ害は少ないのだろう。

この事業所ではウリミバエのほかにミカンコミバエという害虫に対する対策も行っており、こちらはオスの成虫を惹き付ける香料で雄のみを集め、殺虫すると言う手法のようだ。こちらはオスの数を減らして、やはり繁殖の確率を下げることで何代か後に根絶するという手法のようだ。

どちらも害虫をピンポイントで攻撃し、環境への負荷を軽くしつつ駆除という目的を達成するという点で巧妙な手法だと思う。
ちょっと不思議な、でもしっかりとした指針がある研究・職種があるものだと感じた。

2008年8月2日土曜日

IE_TabでYahoo!ブリーフケースの文字化けも解消

先日書いたブログ、「FirefoxでGyaoを見る」で利用したIE_Tabがこんなところでも役に立った。

WEBストレージのYahoo!ブリーフケースにファイル名が日本語のファイルをアップロードし、Firefoxでダウンロードすると文字化けするバグ(?未確認)があった。
いままでは毎回IE6を立ち上げてダウンロードしていたが、IE_Tabに http*://briefcase.yahoo.co.jp/* と入力するとFirefox内でIEで開き、文字化けすることなくダウンロードできた。なかなか便利なアドオンだと思う。

一方で、ブラウザに依存する処理ってけっこう有るのだな、と感じた。

POPFileを使ってみた

他のみんなは増加するダイレクトメールに対してどのように対応しているのだろうか?

ショッピング・サイトで買い物をするときにメールアドレスを登録すると思うが、そのときに捨てアドを使うのには抵抗がある。メールとはいえ契約書代わりだから、やはりメインのメールアドレスを登録すべきだと思う。

だけど買い物を続けていると、いつしか利用した店舗は膨大になり、ダイレクトメールの量が日増しに増えてくる。

Amazonはそれほどでもないが、楽●などは提携ショップから鬼のようなダイレクトメールが届く。最近ではそれを見極めて振り分け設定をするのも大変になってきた。

自分は自宅のメーラにEdMaxを使っている。フリー/シェア版があるが、自分はフリー版を使っている。フリー版でも大変高機能で、細かいところまでカスタマイズできるのが気に入っている。もちろん、振り分け機能も付いていて設定も簡単だ。

だが、最近このEdMaxの振り分け設定に限界があることに気づいた。振り分け設定で登録できる件数が200件までということだ。通常、200件も登録できれば十分だと思うが、ダイレクトメールの種類が多すぎる。先日、とうとうその限界を超えてしまった。

そこで、最初は何とか逃げ道がないかと、振り分け条件のOR設定で登録できるメアドを増やしてみたり、フィルタ機能(条件に合うものをサーバ上で削除する機能)を使ったりしてしのいでいたが、おそらくこれにも限界がある。今までのダイレクトメールの増加傾向を考えると、その限界は、多分、数ヶ月以内に訪れる。なにしろ、楽●の提携ショップ数は6万件を超えているのだ。

新たな策を講じねばならないとネットをさまよっていたところ、表題のPOPFileなるものに出会った。

ざっとPOPFileについて調べると、以下のような特徴がある。

1.ベーズ理論を基にした振り分け機能
2.トレーニングを行うことで振り分け精度が上がる
3.メールのプロキシとして動作(→メーラを選ばない)
4.フリーソフト
5.幾つかのプラットフォームで使用可能(もちろんWindowsも可能)

ベーズ理論?という聞いたこともない高尚な理論によってできているらしい。まずは頭より体で覚えるということでインストール。インストールは幾つかのサイトで既に紹介されているので、割愛。メーラの変更箇所は4箇所ぐらい。EdMaxの変更手順も公式ホームページで紹介されているので迷うことなく設定完了。

早速、サーバにあるメールをダウンロードしてトレーニング開始。
ここで問題発生、デフォルトで件名にバケツ(POPFileで振り分けするフォルダのようなもの)がタグ状に追加さている。これは見苦しい。
POPFileは、WEBブラウザから設定を変更できる。タスクトレイにある蛸のマークをダブルクリックで設定画面が立ち上がる。
「バケツ」タブで「件名の変更」のチェックを外すと件名が変更されなくなる。

最初の1回はトレーニング経験値ゼロの状態なので、全てunclassifiedで分類されている。ここから実際に振り分けのルールを教え込んでいく。といっても個別にメアドを登録するようなめんどくさい作業はない。取り込んだメールがどのバケツに入るべきかを選択するだけ。
楽●様のおかげでトレーニング材料には困らない。1日で100件近くのトレーニングをこなすことができた。

トレーニング結果を楽しみに2日目に突入。サーバからダウンロードすると、今度はある程度訓練されている。100件入ってきて、間違った振り分けは1件のみ。素晴らしい。なによりトレーニングにほとんど苦痛がない。きっと1週間もすればほぼ見極めてくれるのだろう。


これがベイズ理論の凄さか!今までチマチマとメアドで振り分けていたのが馬鹿らしくなってきた。
ところで結局、ベイズ理論ってなに?

Gmailの空白の行頭が消えてしまう件について

Gmailは非常に便利で、有意義に使わせてもらっている。
WEBメールなのに高速な応答。
7GB近い容量。
スパム対策。
他のメールサーバからも受信可能。
…etc
こんな便利なサービスが無料なのだから、大変ありがたい。

そんなGmailを使っていて、一つ腑に落ちない点がある。
タイトルに書いた行頭の空白についてだ。
自分はテキストメールでは、空白でインデントを使っている。
でも、確かに手元の送信メールで入っている空白が、Gmail上では消えている or 少なくなっている

Googleグループに質問している人もいたが、答えは無いようだ。
おそらく仕様なのだろう。

ところで、行頭空白が「完全に消えている」こともあるが「少なくなって表示されている」こともあるみたいなので、やり方によってはインデントが可能なのかどうかを調べて見た。

手元で以下のようなデータを作成して見た。
元データは大きく分けて4種類。

1.先頭が全角空白のもの+空白後最初の文字が全角のもの
2.先頭が半角空白のもの+空白後最初の文字が全角のもの
3.先頭が全角空白のもの+空白後最初の文字が半角のもの
4.先頭が半角空白のもの+空白後最初の文字が半角のもの

各行の数字は、行頭に入れた全角/半角空白の数。


---作成データ------------------------------begin
【全角空白+全角文字】
A空白0
 A空白1
  A空白2
   A空白3
    A空白4
     A空白5
      A空白6
       A空白7
        A空白8
         A空白9
          A空白10
           A空白11
            A空白12

【半角空白+全角文字】
A空白0
 A空白1
  A空白2
   A空白3
    A空白4
     A空白5
      A空白6
       A空白7
        A空白8
         A空白9
          A空白10
           A空白11
            A空白12

【全角空白+半角文字】
Akuhaku0
 Akuhaku1
  Akuhaku2
   Akuhaku3
    Akuhaku4
     Akuhaku5
      Akuhaku6
       Akuhaku7
        Akuhaku8
         Akuhaku9
          Akuhaku10
           Akuhaku11
            Akuhaku12

【半角空白+半角文字】
Akuhaku0
 Akuhaku1
  Akuhaku2
   Akuhaku3
    Akuhaku4
     Akuhaku5
      Akuhaku6
       Akuhaku7
        Akuhaku8
         Akuhaku9
          Akuhaku10
           Akuhaku11
            Akuhaku12
---作成データ------------------------------end



結果、Gmailでは以下のように表示された。

---Gmail表示データ------------------------------begin
【全角空白+全角文字】
A空白0
A空白1
A空白2
A空白3
A空白4
A空白5
A空白6
A空白7
A空白8
A空白9
A空白10
A空白11
A空白12

【半角空白+全角文字】
A空白0
 A空白1
 A空白2
  A空白3
   A空白4
    A空白5
     A空白6
      A空白7
       A空白8
        A空白9
         A空白10
          A空白11
           A空白12

【全角空白+半角文字】
Akuhaku0
Akuhaku1
Akuhaku2
Akuhaku3
Akuhaku4
Akuhaku5
Akuhaku6
Akuhaku7
Akuhaku8
Akuhaku9
Akuhaku10
Akuhaku11
Akuhaku12

【半角空白+半角文字】
Akuhaku0
 Akuhaku1
 Akuhaku2
  Akuhaku3
   Akuhaku4
    Akuhaku5
     Akuhaku6
      Akuhaku7
       Akuhaku8
        Akuhaku9
         Akuhaku10
          Akuhaku11
           Akuhaku12
---Gmail表示データ------------------------------end

結果として、以下のことが分かった。

1.行頭の全角空白は完全に削除される。
2.行頭の半角空白は1個のときはそのまま、2個以上で「半角空白個数-1」になる。
3.空白後、最初の文字は全角でも半角でも違いは無い。

とりあえず、半角でインデントすればある程度意図したとおりに表示できるようだ。
理由は分からず、釈然としないが、とりあえずはこのルールで使おうと思う。