Perl入門

これは，私が所属する研究室内で行なっているperl講習会用に書いたもの

Perlの特徴

インタプリタ言語である. 作成やデバッグが容易.
制御構造などが C に類似したプログラミング言語
パターンマッチ(文字列検索)や置換など, 文字列処理が得意.
正規表現が使える
連想配列(ハッシュ)が使える
豊富な外部モジュール

自然言語処理では、大量のテキストから必要な情報を取り出さなければならない機会も多い. C 言語で高度なテキスト処理をするプログラムを書くのは面倒なことが多いが, Perlなら手軽に書くことができる.

実行速度は C より遅い（変数扱いの自由度のためなど）. しかし開発効率は圧倒的によいので、プログラムがどの程度の期間使われるかで選択する.
PerlによるCGIは遅いと言われるが, 確かにCで書かれたCGIよりは遅いが， PHPと比べると，Apacheのモジュールmod_perlを使用すればどっこいどっこい.
同じことをするのに多様な書き方ができるのは利点でもあるが，他人にわかりずらくなるという欠点でもある．
多人数による大規模なシステム開発には，あまり向かない(と思う)．
システム開発に向かないとしても，プロトタイプを素早く構築したり，テストデータの作成には，十分威力を発揮する．

Perlスクリプトの実行の仕方

% perl <スクリプト名> <対象ファイル>
        または
% <スクリプト名> <オプション> (UNIXのみ)

後者の場合はPerlスクリプトの1行目に "#!/usr/bin/perl" と書くことと, スクリプト自体を実行可能にしておくことが必要(c.f. chmod)． "#!/usr/bin/env perl"でもよい．

変数, 定数

変数名の前には必ず "$" をつける.
変数には型がなく，変数を宣言する必要もない. 最初に変数が登場したところで自動的に変数領域が確保される.
```
$hoge = 123;
print $hoge;        # 123
```
よって，変数名をタイプミスすると別の変数になってしまうが，エラーにならないので気がつかないことが多い. 要注意.(c.f. perl -w)
```
$hoge = 123;
print $hage;        # 何も出力されない
```
'文字列' もしくは "文字列" は文字列を表す. 前者は文字列に含まれる変数の展開を行なわないが後者は変数展開を行なう
```
$hoge = 'とりあえず文字列';
print '$hoge';      # $hoge
print "$hoge";      # とりあえず文字列
```
数字も文字列として記録しているので，数字からなる文字列を数として扱うことができる. どちらとして扱うかはコンテキスト(文脈)に依存. 演算子などにより自動的に決定される．数字が要求されるところは "スカラーコンテキスト "，文字列が要求されるところは"ストリングコンテキスト "という．
```
$a = 123;
$b = 456;
print $a + $b;      # 579
print $a . $b;      # 123456 ("."は文字列を連結する演算子)
```

配列(リスト)

配列変数は $tmp[添字] のように記述する.
配列全体(リスト)を表わすときには @tmp と書く.
配列はリストとして保存されている.リストは(1,2,3)のように書く
最初の添字は0

@tmp = (1, 2, 3);
print $tmp[0];        # 1

$#tmp は, 配列 @tmp の1番最後の要素の添字を表わす(要素数-1).
```
print $tmp[$#tmp];    # 3
```
配列 @tmp はスカラーコンテキストが要求されるところでは要素数を表す. (for文で便利)
```
print @tmp;           # 123
print @tmp + 0;       # 3
```
("hoge", "hero", "hoe") と書くと hoge, hero, hoe という文字列を要素にもつ配列になる.
(1 .. n) と書くと 1 から n までを要素に持つ配列になる．
配列 @tmp を空にするには，空配列()を代入する．確保したメモリ空間は開放される．
```
@tmp = ();
```
関数 exists を使うと配列の要素が確保されているかチェックできる．
```
print $tmp[$i] if exists $tmp[$i];
```
C言語のように予め要素数を宣言しておく必要はない．必要に応じてメモリを確保する．サイズのわからないファイルを1行ずつ配列に保存していくことも可能．

連想配列(ハッシュ)

連想配列とは,引数として文字列を指定できる便利な配列である (c++のSTLでいうmap)．
通常,連想配列の引数のことをキー, 連想配列に格納された値のことをバリューと呼ぶ.
連想配列は $tmp{キー} のように記述する.
```
$tmp{'文字列'}, $tmp{$hoge}
```
連想配列そのものを表わすときには %tmp と書く.
連想配列を初期化して値を代入するには，次のようにする

%tmp = ( aaa => 10,  bbb => 20, ccc => 30 );
print $tmp{'bbb'};   # 20

keys関数は連想配列のキーのみからなる配列を返す. values関数は連想配列のバリューのみからなる配列を返す.
```
print keys(%tmp);    # cccbbbaaa
print values(%tmp);  # 302010
```
- それぞれ取り出される順番は、決まっていない (実行する度に変化する).
each関数は連想配列のキーとバリューを順番に一つずつ返す. キーの配列を作成しないので，巨大な連想配列の出力時にはメモリをあまり食わない．
```
%tmp = ( aaa => 10,  bbb => 20, ccc => 30 );
while ( ($key, $value) = each %tmp ) {
    print "$key,$value\n";
}
```
連想配列 %tmp を空にするには，
```
%tmp = ();
```
関数 exists を使うと連想配列のキーが定義されているかチェックできる．
```
print $tmp{'aaa'} if exists $tmp{'aaa'};
```

データ構造について

配列, 連想配列ともにあらかじめ大きさを宣言しておく必要はない.
必要に応じて,メモリの許す限り確保することができる.
配列の配列, 連想配列の配列など複雑なデータ構造も使用できる.

       $matrix[0][1] = 1;
       $hash{'hoge'}[3] = 'hogehoge';

他の変数を指し示す変数である"リファレンス"などのような構造もあるが，今回の講習では省略

制御構造

C言語に類似している.
基本的にはスクリプトの先頭から順次実行されていく.
- C の main のようなエントリポイントを表す関数は不要.
if 文
```
if( $option eq 'a' ){
    print $value_a;
} elsif( $option eq 'b' ){
    print $value_b;
} else{
    print 'no option';
}
```
- 条件式によって分岐する
- elsif, else はなくてもよい
- elsif は複数指定してもよい
- perl には case 文がないので if と elsif を使用する (perl5.8ではSwitch.pmというモジュールでcase文と同様なことが可能)
- 実行文が1行の時は以下のようにも記述できる
```
print $hoge if $option eq 'a';
```
while 文
```
$i = 0;
while( $i < 10 ){
    print "i = $i\n";
    $i++;
}
```
- 条件式が偽になるまで式を実行
- last で while 文から強制離脱(C の break に相当)
- next で while 文の先頭にジャンプ(C の continue に相当)
for 文
```
for( $i = 0; $i < 10; $i++ ){
    print "i = $i\n";
}
```
- 括弧の中を順番に、初期化式、条件式、再初期化式という.
- 条件式が真の間, 式を実行.
foreach 文
```
@tmp = ('apple', 'orange', 'banana');
foreach $value ( @tmp ){
    print "$value\n";
}
```
- 配列の要素一つ一つについて処理を行なう.
- 配列から取り出した要素は$<変数名>に格納される
- 配列に (1 .. n) と書くと for($i = 1; $i <= n; $i++)と同じことになる.
- for文でも同じことができるが, 添字を使用しないのでfor文よりも早い.
- @<配列名>に keys(%<連想配列名>)を指定すれば, 連想配列の要素ごとに同じ処理を行なうことができる.
```
foreach $key ( keys %hash ){
    print "$key $hash{$key}\n";
}
```
- ちなみに連想配列の連想配列("$hash{$a}{$b}" のようなもの)を1つずつ出力する時は，次のようにする．
```
foreach $key1 ( keys %hash ){
    foreach $key2 ( keys %{$hash{$key1}} ){
        print "$key1, $key2, $hash{$key1}{$key2}\n";
    }
}
```
LABEL
- goto, last, nextでは飛び先LABELによりを指定できる． "LABEL:"の文字列は特定できればなんでもよい．
```
LABEL:
foreach $n ( @hoge1 ){
    foreach $m ( @hoge2 ){
        if ( not $m == 1 ){
            next LABEL;
        }
        ...
    }
}
```

条件式、組み込み関数、特殊変数

条件式

数値の比較	文字列の比較	意味
>	gt	より大きい
=>	ge	以上
<	lt	より小さい
<=	le	以下
==	eq	等しい
!=	ne	等しくない
<=>	cmp	左辺が大きいとき -1 等しいとき 0 右辺が大きいとき 1

数値の比較であるか文字列の比較であるかは，演算子によって区別される.
数値の比較をするところで文字列の比較をすると予期しない結果になる.

$a = '1';
$b = '1.0';
print  $a == $b, "\n";     # 1 
print  $a eq $b, "\n";     #  (なにも出力されない)

ちなみに

$a = 1;
$b = 1.0;                  # a,bともに数値の1
print  $a == $b, "\n";     # 1 
print  $a eq $b, "\n";     # 1

最初から数値で変数に代入した場合，内部では同じ数値表現になっている．

パターンマッチ
```
$var =~ m/正規表現/
もしくは
$var =~ /正規表現/
```
- $var が正規表現にマッチする場合にこの式の値は真となる.
- 後に i をつけると大文字と小文字を比較しない.
- /正規表現/ だけを書くと $_ と比較する.

置換

$var =~ s/検索文字列(正規表現)/置換文字列/;

$var 中の検索文字列を置換文字列に置き換える
後に g をつけると何度でも置換
後に i をつけると大文字と小文字を区別しない

$var = 'ababab';
$var =~ s/ab/X/;    print $var, "\n";   # Xabab
$var = 'ababab';
$var =~ s/ab/X/g;   print $var, "\n";   # XXX

関数の定義
```
sub add {
   my @hoge = @_;       # 引数からなる配列を内部のローカル変数にコピー
   return $hoge[0] + $hoge[1];
}
$number = &add(3, 4);      # 7
```
- 関数はsubで定義
- 関数名に&を付けて呼び出す(一意にわかるときは&はつけなくてもよい)
- 呼出時の引数は@_という特殊な配列に格納される
- 戻り値はreturnの引数
組み込み関数
- 引数の取り方は2通りあり，括弧があってもなくてもいい．文脈上曖昧になる場合は，明示的に括弧をつける．
```
関数名($a, $b, $c);
関数名 $a, $b, $c;
```
- print : 引数を出力する.引数は何個でも可
```
print "kotae ha ", 123 + 235, " desu", "\n";
```
- printf : 書式付 print. C の printf と同じ.
```
$tmp = 123.456;
printf "%.1f", $tmp;    # 123.4
```
- chop : 文字列の最後の文字をとる.
- chomp : 通常は文字列最高尾の改行文字をとる(cf. $/)．
- split : パターンにマッチする文字列を区切りとして, 文字列を分解し,それらを配列として返す.
```
@hoge = split( /パターン/, 文字列, <最大分割数>);
```
- join : 配列を結合して文字列にする.一つめの引数は区切り文字.
```
$hoge = join( 区切り文字, 配列 );

$string = 'a:b:c';
@list = split(/:/, $string);   # (a, b, c)
print join('%', @list);        # a%b%c
```
- substr : 文字列の切りだし. 代入の右側に持ってきて文字列の部分を書き換えることも可能
```
$hoge = substr(文字列, 先頭位置, 長さ);
substr(文字列, 先頭位置, 長さ) = 割り込ませる文字列;
```
- sort, reverse : 配列を並べ替える.
```
@ary_sorted = sort @ary;
```
  - 連想配列のvalueでsortするときは次のようにする．
```
sort { $hash{$a} <=> $hash{$b} } keys %hash;
```
  - このとき"$a","$b" はsort用の特別な変数で，この場合は小さい順にsortすることを表わす．
- push, pop, shift, unshift : 配列の要素の取り出し, 追加.
```
@ary = ('green');        # ( 'green' )
push(@ary, 'blue');      # ( 'green', 'blue' )
unshift(@ary, 'red');    # ( 'red', 'green', 'blue')
$tmp = pop(@ary);        # ( 'red', 'green' )
$tmp = shift(@ary);      # ( 'green' )
```
- length : 文字列の長さを返す
- tr : 1文字置換
```
$string = 'abc';
$string =~ tr/a/x/;     # xbc
$string =~ tr/a-z/A-Z/; # XBC
```
  - s///より早い
- exists : 配列，連想配列，関数が存在するか
- defined : 配列，連想配列，関数が定義されているか．存在しても値がundefの場合は0になる．
```
$tmp{'aaa'} = undef;
print exists $tmp{'aaa'};     # 1
print defined $tmp{'aaa'};    # ''
```
- delete : 配列，連想配列の要素を削除する
- 詳しくは Perl 関係の書籍を参照のこと
ファイルハンドラ
- ファイルの読み込み，書き込みに使用する特別な変数 (頭に$,@はつかない)
- ファイルハンドラはアルファベットの文字列で記述 (慣例で大文字が多い)
- ファイルハンドラは open で作成
- ファイルを開く(失敗した時のための処理も書いておく)
```
open(FP, "$hoge") or die "can't open $hoge";     # 読み込み
open(FP, "> $hoge") or die "can't open $hoge";   # 書き込み
open(FP, ">> $hoge") or die "can't open $hoge";  # 追加書き込み
```
- コマンドの入出力の結果を追加することができる．
```
open(FP, "zcat hoge.gz |") or die;       # gzipファイルの読み込み
open(FP, "| gzip > hoge.gz") or die;     # 出力をgzipで圧縮
```
- ※perl5.8では，openは引数を3つとれるようになった．この場合テキストは内部では文字コードUTF8で扱われている．
```
open(FP,"<:utf8",            $file); # UTF8のテキストを読み込む
open(FP,"<:encoding(cp932)", $file); # cp932(shiftjis)のテキストを読み込む
open(FP,">:encoding(euc-jp)",$file); # euc-jpのテキストを書き出す
open(FP,"<:raw",             $file); # バイナリで読み込む
```
- ファイルを閉じる
```
close(FP);
```
- ファイルハンドラを<と>で囲むと, ファイルハンドラから一行読み込む.
```
$one_line = <FP>;    # 一行だけ読み込んで，残りはそのまま

@all_line = <FP>;    # 全ての行が配列に一度に入る

while ( $line = <FP> ){ # <FP>が最後までいくとEOFになり偽になる
    ...                 # 一行単位で $line の処理ができる
}
```
- ファイルハンドラを省略(<>)すると, 標準入出力になる. (STDIN : 標準入力, STDOUT : 標準出力)
- 標準入力から一行ずつ読み込んで処理する場合は以下の様に書く.
```
while( <> ){     # $_ に一行ずつ入力される
    ...
}
```
- ファイルに書き込むときは、printの最初の引数にファイルハンドラを書く(ファイルハンドラの後ろにコンマはいらない)
```
print FP "This is test\n";
```
- ファイルハンドラを省略すれば，標準出力に出力される．
- 標準エラー出力のファイルハンドラはSTDERR．
変数のスコープ
- 通常，変数は何も指定しないとグローバル(大域)変数となる．つまりプログラム内のどこからでもその変数にアクセスできる．
- myを指定することにより，変数のスコープを指定できる．
```
if ( $num > 0 ) {
    my $hoge;  # $hoge はif文のブロック中だけで有効
    ...
}
```
- 変数のスコープを明確にするために，変数を最初に使用する際は常にmyをつけるべき(cf, use strict)．
- ネストしたサブルーチンの中でも使用したい場合は localを使用する．
特殊な変数
- @ARGV : perl スクリプトのコマンドラインオプションが入った配列. Cと違って $ARGV[0] は最初の引数
```
foreach ( @ARGV ){
    print $_, "\n";     # 呼び出し時の引数をすべて出力
}
```
- $_ : 変数を省略した時に, 利用されるデフォルト変数
```
while(<>){
    chomp;              # 改行をとる
    s/abc/xyz/;         # abcをxyzに置換
    if(/str/){          # 文字列にstrがあったら
        print;
    }
}

# 以下と等価
while($_ = <STDIN>){
    chomp $_;
    $_ =~ s/abc/xyz/;
    if($_ =~ /str/){
        print STDOUT $_;
    }
}
```
- $/ : <>から読む込む時の区切り文字を指定
  - デフォルト改行"\n";
  - $/ = "\n\n"; # 空行を区切り文字にする
- $| : 出力のバッファリング．通常はバッファリングをしているのですぐには出力されず，CGIなどを作成しているときには不便．
```
$| = 1;   # 出力をバッファリングしない
```
- その他にもたくさんあるが、詳しくは Perl 関係の書籍を参照のこと

正規表現

正規表現 = パターンマッチの際に使う特殊な記述形式

"+"は1回以上の繰り返し,"*"は0回以上の繰り返しを表わす.

a+ (長さ1以上の a の列)
abc* (abの後にcが0個以上続く文字列)

"[ ]"は文字クラスを表わす. 文字クラスの先頭に "^"をつけると, 指定した文字以外の文字のクラスになる.
```
[abc]  (a または b または c)
[0-9]+ (長さ1以上の数字の列)
[^0-9A-Z]+ (数字とアルファベット大文字以外の列)
```
"|"は複数の正規表現で「または」をあらわす
```
abc|ace  (abc または ace)
```
"."は任意の1つの文字を表わす.改行"\n"はマッチしない.
```
.. (任意の文字2つ)
.+ (任意の文字列)
```

"^"は行頭を,"$"は行末を表す.

^abc   (abcで始まる文字列)
[0-9]$ (数字で終わる文字列)

特殊文字そのものを使いたいときは,"\"をつける.
```
^, $, +, -, *, ?, [, ], {, }, (, ), \, ., |
```
"( )"は"|"による正規表現の区切りの範囲を指定. 後方参照も設定される.
```
a(bc|cb)(de|ed)f    (abcdef, abcedf, acbdef, acbedf のどれか)
```

"{ }"はマッチの回数を指定する.使えない場合もある.

[0-9]{1,10} (長さが 1 以上 10 以下の数字列)
[0-9]{3,} (3 桁以上の数字列)
[0-9]{3} (3 桁の数字列)

"?"は {0,1} と同じ

\-?([1-9][0-9]*)?[0-9](\.[0-9]+)?  (普通の数)

繰り返し演算子(*,+,{m,n})の後の"?"は最小マッチングをあらわす.

This 'test' isn't successful.
/'.*'/  ('test' isn'  マッチ.通常は最大の文字列にマッチ)
/'.*?'/ ('test' にマッチ)

\sは空白文字を表す. \Sは非空白文字.

\sは[\t\n\r\f] と同じ(\t:タブ，\r:復帰，\f:なんだっけ?)
\Sは[^\t\n\r\f] と同じ

\wは単語構成文字(英数字とアンダースコア)を表す. \Wはその反対.
```
\wは[a-zA-Z0-9_] と同じ
```
\dは数字を表す. \Dは非数字.
```
\dは[0-9] と同じ
```
\bは単語境界とマッチする. \Bは単語境界以外.
```
\bは\wと\Wの間にマッチ
```

日本語の扱い

文字コードがEUCなら簡単な処理はそのままできる．

主に次の3つのやり方がある．

jperlを使用する
- 日本語であることを意識する必要がない
- ただしバージョンが古い(5.005)
Jcode.pmを使用する
- 通常の妥当な解決策
- 同等の機能としてjcode.plというパッケージもあるが古いし， UNICODEに対応していない．
perl5.8に付属のUNICODEサポート機能を使用する
- 標準で組込み
- 慣れるまで少し苦労する
- UNICODEの規格で定義されている便利な機能(漢字の正規表現など) が使用できる
- →perl5.8のUNICODEサポート

モジュール

標準モジュールと外部モジュールがある
perlで書かれることもあるが、速度的な問題などでCで書かれることが多い
オブジェクト指向なものが多い
外部モジュールはCPAN (http://www.perl.com/CPAN-local/README.html)など(各地にミラー)で入手できる
主な標準モジュール
- Getopt::Long : コマンドラインオプションの処理
- DB_File : tieによってBerkeley DBにアクセスする
- CGI : フォーム変数の処理などCGI作成に便利
主な外部モジュール
- DBI : データベース独立インターフェース
- DBD : DBIモジュールのためのデータベース・ドライバ
- Tk : Tcl/TkをPerlに移植したもの
- LWP::Simple : 簡易HTTPクライアント機能
```
use LWP::Simple;
$doc = get 'http://www.sn.no/libwww-perl/';
```
- SOAPやXMLに関連したモジュールもある

その他

WindowsでPerl
- Cygwin
- ActivePerl
他人にもわかりやすいように書く(=3ヶ月後の自分のため)
- インデント(emacs の perl-mode, cperl-mode)
- デフォルト値の省略をやりすぎない
- 意味のある変数名
- コメントをつけよう
参考文献
- プログラミング Perl 改訂版(ラクダ本)
- Perlクックブック
- Effective Perl（中級者向け)
- manページ (man perl)
- perldoc -f 関数名
- perldoc モジュール名
参考Web
- とほほのWWW入門（HTMLと一緒に）
  http://tohoho.wakusei.ne.jp/www.htm
- Perlメモ（かなりマニアック）
  http://www.din.or.jp/~ohzaki/perl.htm
- Perlの小技（モジュール和訳）
  http://member.nifty.ne.jp/hippo2000/perltips/index.htm
- モジュール和訳関連は最近はSourceForgeの Japanized Perl Resources Projectに集約されつつあります -> perldoc.jp

Up(P): Home

間違え，勘違い，スペルミスなどはまで

Last modified: Mon Feb 21 20:01:04 JST 2005