RegRipperと日本語文字列についてちょっとだけ調べてみた

id:hideakiiさんのところで知ったのだが、RegRipperで日本語の文字化けが起こるらしい。

プラグインのソースを眺めてみると、確かにマルチバイトの考慮は全然していない模様。例えば、recentdocs2.plでファイル名を抽出する部分はこんな感じ。

my $file = (split(/\00\00/,$data))[0];
$file =~ s/\00//g;
$rdvals{$name} = $file;

でもこうすればちゃんと日本語のファイル名も表示される。

my $file = (split(/\00\00/,$data))[0];
$rdvals{$name} = decode("utf-16le", $file);

ほかのプラグインは見てませんが。