ZIPファイル解凍時の文字化けと対処法(Linux)

 PCでいろんな作業をしていると、「文字化け」という現象に出くわす時がたまにある。これは、日本語の入力システムの多様さに由来している。

 まだ、いまのように、Windowsがなかった時代、MS-DOSというオペレーティングシステムが全盛だったころ、日本語の文字入力は、マイクロソフトのDOSでは、shift-JIS、NECのPC9801系列ではJIS、UnixではEUCというまったく別な文字コードが使われていた。
 また、デリミタ(Delimiter)とよばれた区切りコードも、キャリッジリターン[CR] 、ラインフィード[LF]、あるいは、キャリッジリターン+ラインフィード[CR+LF]というように、何種類かあった。実は、これらの間を互いに変換してくれるフリーソフトウェアも存在した。私もよく利用させていただいた記憶がある。

 Windowsが全盛となった現在、これらのことはほとんど意識しなくても済むようになった。なぜならば、システムが自動的に変換してくれて、これらの違いを吸収してくれるからである。

 私のように、Linuxを使っていても、このあたりは、あまり意識していない。ただ、「文字化け」は時々起こる。特に、Windowsで作成したファイルがWindowsで圧縮された場合、このZIPファイルをLinuxで解凍しようとすると、文字化けとなる。この問題は、長い間、悩みの種であった。(私の場合は、Dual BootのPCを使っているので、いったんWindowsを起動し、解凍した後に、Linuxを起動して読み込む、といった操作をしていた。)

 だが、昨年、ひとつのスクリプトを見つけた。このスクリプトは、たったひとつの点をのぞいてすばらしいものであった。一年ほど使ってみて、使い慣れたものなので、ここに紹介させていただこうとおもう。(*)

========== (ここから) ==========
#!/usr/bin/perl
use Archive::Zip;
use Encode;

my $zip = Archive::Zip->new($ARGV[0]) or die;
for ($zip->members) {
$zip->extractMember($_, encode('UTF-8', decode('CP932', $_->fileName)));
}
========== (ここまで) ==========

 この部分を例えば、「xunzip.pl」などのファイル名で保存し、
chmod 755 xunzip.pl
などで、実行可能にしておく。そして、
./xunzip.pl sample.zip
のように使用する。

 これは、Perl(パール)スクリプトとよばれるもので、perl-Archive-Zipというパッケージが必要となる。あらかじめ、インストールしておく。

 私には、理解不足の点もあるが、Windowsで使用されているCP932という文字コードを、Linuxで使用されているUTF-8に変換するものである。とても便利なスクリプトなのである。

 ただ、ひとつ、欠点は、パスワードがZIPファイルにかけられていると、使えないということ。なにか、やりかたはあるのだろうが、いまのところ、不明のままにしておいてある。

(*) NikkeiLinux雑誌2010年9月号のp.50にサンプルとして掲載されていたものを引用させていただきました。

(2011-8-15)




■ 以前の記事

→ 「スクリプト」に関する以前の記事は、こちらをごらん下さい。

 ・C言語の習い始めと「最小自乗法」

 ・アクセスカウンタの設置方法