02 月 09 日（木）

フィルタ言語 AWK (4)

AWK をより効率的に記述し，より高度に活用しよう．

AWK の第一歩や gawk 日本語マニュアル等を参考にしながら，作業を進めて行こう．

AWK の入出力
AWK のユーザ関数
AWK の組み込み関数
本日の課題

AWK の入出力

これまでは，入出力として，コマンドラインに指定されたデータファイルからの入力と標準出力への出力しか利用してこなかった．しかし，AWK の入出力機能はこれらだけに限られている訳ではない．シェルやＣ言語と同様に，ファイル・標準入出力・コマンドとの間の入出力機能を備えている：

出力命令：

print - シェルのコマンド echo のようなもの
printf - Ｃの関数 printf( ) のようなもの

入力命令：

getline - 次のレコードを入力．Ｃの関数 fgets( ) のようなもの

要するに，入力ファイルから複数行をまとめて入力できる．

リダイレクト：シェルと同様

AWK入力命令 < "ファイル"
AWK出力命令 > "ファイル"
AWK出力命令 >> "ファイル"

パイプ：シェルと同様

AWK出力命令 | "シェルコマンド"
"シェルコマンド" | AWK入力命令

これらの機能については，今回の課題では利用しないが，便利なので紹介しておいた．特に，パイプは，既存のシェルコマンドやプログラムを呼び出せる（＝同じ処理を改めて AWK で書き直さなくて済む）ので非常に便利．例：（前回の上級者用問題のヒント）

{  print $0 | "sort -n" }	# 数値データを昇順に並べ替える

なお，ファイル名やコマンドラインを文字列として指定（ダブルクォート） することに注意しよう．

詳しくは，マニュアルの“入出力ステートメント”の項目を参照せよ．

AWK のユーザ関数

次の形式で，AWK でも関数を定義できる：

function 関数名(引数1, 引数2, ...) {
	アクション
}

シェルやＣ言語に似ているが，共通点・相違点に注意しよう：

引数だけがローカル変数であって，その他の変数はすべてグローバル変数である．
呼び出し時には，引数を省略できる．

たとえば，３個の仮引数からなる関数を２個の実引数だけで呼び出せる．省略された３番目の引数の値は空文字列または 0 となる．

ユーザ関数は，単純なスクリプトではあまり使われないが，複雑なスクリプトではコンパクト化のために重宝．

詳しくは， AWK オンラインマニュアルの“関数”の項目を参照せよ．

AWK の組み込み関数

AWK には，Ｃ言語のライブラリ関数のような組み込み関数もある．詳しくは， AWK オンラインマニュアルの“数値関数”，“文字列関数”，および“時間関数”の項目を参照せよ．

簡単な例として，sed のような AWK スクリプト sed.awk を作成してみよう：

#!/usr/bin/awk -f
# 説明：sed のような AWK スクリプト
# 使い方：sed.awk r='正規表現' s='置換文字列' ファイル名 ...

{
	sub(r, s, $0)		# レコード $0 中の正規表現 r を 文字列 s に置換
	print $0
}

このスクリプトの使用例は次の通り：

$  ./sed.awk  r='#.*'  s=''  sed.awk

これは，次のコマンドと同じ結果となるハズ：

$  sed  's/#.*//'  sed.awk

ちなみに，この例では，スクリプトからコメント（各行の # 以降の文字列）を除去している．

なお，sed については，以前のページや sed オンラインマニュアルを参照せよ．

次の例では，sed.awk を改造し，ユーザ関数を定義してみた：

#!/usr/bin/awk -f
# 説明：sed のような AWK スクリプト
# 使い方：sed.awk r='正規表現' s='置換文字列' ファイル名 ...

function sed(reg, str) {
	sub(reg, str, $0);
	print $0;
}

{
	sed(r, s);
}

なお，この例では，関数化によってスクリプトがかえって長くなってしまったが，何をするスクリプトなのか一目瞭然（いちもくりょうぜん）になった．

本日の課題

今回の課題については，任意提出とする．未提出でも減点とはしないが，特に，成績を挽回したい者は取り組むこと．

上に紹介した sed.awk では，コマンドラインの記述がちょっと面倒臭い．本来の sed に近いコマンドライン形式となるように改良せよ．

レポートには，スクリプトとデータだけでなく，どのように改良したのかも説明すること．

アドバイス：

たとえば，組み込み関数 split( ) を利用すれば，次の形式にすることは簡単だろう：

$  ./sed.awk  s='検索パターン/置換パターン'  入力ファイル ...

パターン文字列 s を記号 / で分割し，前半部分を検索パターン，後半部分を置換パターンとすればよい．

なお，コマンドラインで指定された変数の初期化は， BEGIN ブロックの直後に実行されることに注意しよう．したがって，パターン文字列の分割処理は， 第１レコードの入力直後に１度だけ実行する必要がある．つまり，NR == 1 のブロックの先頭で行えばよい．（すべてのレコードで分割するのは非効率．）

コマンドライン引数をうまく利用するためには， AWK の処理順序を深く理解しておく必要がある： BEGIN → コマンドラインによる変数初期化 → 入力データの各レコードへの処理 → END

さらに，より sed らしいコマンドライン形式にすることも可能だろう：
```
$  ./sed.awk  e='s/検索パターン/置換パターン/'  入力ファイル ...
とか
$  ./sed.awk  's/検索パターン/置換パターン/'  入力ファイル ...
```
前者の形式では，分割結果の配列要素が増えるだけだ．後者の形式では，組み込み変数 ARGV や配列操作命令 delete などを利用すればよい．

AWK では，変数初期化以外のコマンドライン引数は，入力ファイルの名前だと判断されてしまう．なので，ARGV については，ファイル入力よりも前の段階... つまり BEGIN ブロックで処理して， delete しておかなきゃダメ．
もしできるなら，コマンドライン（sed スクリプトの部分）のエラーチェックも行なえば完璧だろう．

レポート提出

提出方法：電子メール

宛先：yanagawa@kushiro-ct.ac.jp
件名：ex-0209

提出期限：本日02月10日（金）17:00
提出内容（本文）：

学年学科，出席番号，氏名
改良点の説明
スクリプト
入力データ
実行結果
（疑問）

注意事項：

コードを書く前に：問題をよく読もう．
メールを編集する前に：動作テストを繰り返そう．
送信ボタンを押す前に：内容を再確認しよう．