07 月 15 日（水）1-2h

文字列処理（１）

Unix では，データの保存や通信のためにテキストファイルを利用することが多いため，Ｃ言語には．文字列処理用の標準ライブラリ関数が数多く用意されている．今回は，これらの文字列関数について理解し，関数のクローンを作成してみよう．

文字列関数を使いこなせば，プログラミング言語の処理系なども自作できる．

テキストファイルとバイナリファイル
文字列の分類
超低レベルな言語処理系
文字列関数の利用
文字列関数の作成
本日の課題
補足

テキストファイルとバイナリファイル

プログラムの入力データや出力データをファイルに保存する際，データの表現形式としては，次の２種類がある：

テキスト形式（text format）：すべてのデータが文字列として記録される．人間でも簡単に解読できるし，異なるプログラム間での情報交換も容易である．

「文字列」とは言っても，すでに知っているように，最終的には ASCII コード等によって数値化されて記録される．例：整数データ 128 → 文字列 "128"→ コード列 0x31, 0x32, 0x38 を記録．

バイナリ形式（binary format）：すべてのデータが数値として（メモリ内での表現形式のまま）記録される．人間による解読や情報交換の障害となり得るし，コンピュータ間でのバイトオーダの違いの問題もある．

例：整数データ 128 → 内部表現 0x0000 0080 → コード列 0x80, 0x00, 0x00, 0x00 を記録．（リトルエンディアンの場合．）

Wind○ws 等のクローズドシステムでは，（解消されつつはあるようだが）今なお，バイナリファイルが蔓延している．しかし，現代のネットワーク社会では，オープン化が重要であり， HTML や XML 等，テキストファイルの役割が大きくなってきている．

なお，Ｃ言語の場合，ソースファイルはテキスト形式であり，プログラムファイルはバイナリ形式である．

要するに，オープンソースが重要だ．自作のプログラムを配布する場合，プログラムファイル（バイナリ）ではなく，ソースファイル（テキスト）を公開しよう．そして，コーディングの際には，多様なシステムで共通に動作するように，標準規格に準拠した「正しいプログラム」を意識しよう．

文字列の分類

既に知っている通り，Ｃで取り扱われる文字列は，次のように分類される：

文字列定数：書き換え不可能な文字列．

たとえば，"Hello World" のように，プログラムの実行中に内容が変わることのない文字列．

文字配列：文字型変数の配列．

たとえば，char s[256] の場合， 256 文字までの文字列を記録できる．内容の書き換えも可能．

ただし，終端記号 '\0' が入るので，実質的には 255 文字まで．

文字列へのポインタ：文字列の先頭アドレスを記憶する変数．

たとえば，char *p = "constant"; では，文字列定数 "constant" が記録されているメモリ領域の先頭アドレスがポインタ p に代入される．

なお，ポインタは，文字列定数のアドレスだけでなく，文字配列のアドレスを記憶することも可能．以前説明した通り，文字列定数へのポインタの場合と文字配列へのポインタの場合によって，その文字列の内容を書き換えられるかどうかの違いがある．

文字列処理のプログラミングに失敗したくなければ，これらの違いをよく理解しておく必要がある．以前の説明を読み直すこと．

超低レベルな言語処理系

文字列をうまく処理できれば，プログラミング言語の処理系さえも作成できるようになる．ここでは超低レベルな「プログラミング言語処理系」を作ってみたい．

この言語で使えるコマンドは，とりあえず，"end" ただ１つだけとしよう．まず，失敗例を List 1 に示す．

List 1.　言語処理系の失敗プログラム lang.c

#include <stdio.h>

int main()
{
	char cmd[256];

	while (1) {
		printf("コマンド > ");
		scanf("%s", cmd);

		if (cmd == "end") break;	// "end"コマンドで終了したいんだが...
	}
	return (0);
}

このプログラムは，うまく動作しそうに見えるが...

実行例：

$ ./lang
コマンド > end
コマンド > end
...		# 終われねー

[Ctrl]+[C]	# 強制終了
$

失敗の原因としては， List 1 の条件式 (cmd == "end") では，文字配列 cmd と文字列定数 "end" の 文字列の内容を比較しているのではなく， 文字列のアドレスを比較しているだけだからだ．

文字列の値は先頭アドレスであり， 文字列の内容ではない．

たとえ，cmd と "end" が，「同じ内容」であったとしても，これらのアドレスは異なる（文字列の内容は異なる場所に記録されている）ので，「等しくない」ということになる． 文字列の内容を比較するには，ライブラリ関数 strcmp( ) を使ばよい．次のようにコードを修正せよ：

#include <stdio.h>
#include <string.h>
...
		if (strcmp(cmd, "end") == 0) break;	
...

実行例：

$ ./lang
コマンド > end

$	# 終われたー

関数 strcmp( ) は， 文字列の内容を１文字ずつ比較してくれる．

文字列関数の利用

Ｃでは，文字列処理のためのさまざまな関数が標準ライブラリ libc 内で定義されている．次のリストは，ヘッダファイル string.h 内でプロトタイプ宣言されている関数の例である：

用語的に，関数の「宣言」と「定義」との区別に注意せよ．ヘッダには宣言，ライブラリには定義が書かれている．以前の説明を読み直そう．

strlen(文字列)： 文字列の長さ（文字数）を返す．
strcpy(文字配列，文字列)： 文字配列に文字列を代入する．
strcat(文字配列，文字列)： 文字配列に文字列を連結（追加）する．
strcmp(文字列1，文字列2)： 文字列1 と文字列2 を比較する．
etc.：文字列処理ライブラリ関数の完全なリストは，教科書 pp.313-314 にある．

ここで，「文字列」と記されている引数については，定数・ポインタ・配列のどれでも構わない．一方，「文字配列」な引数に使ってよいのは，文字配列（または文字配列へのポインタ）だけだ．

もう少し詳しく，strcmp( ) を試してみよう．この関数は２つの文字列の辞書的な順序を比較する．ここで辞書的順序とは，実際には ASCII コード順のことだが，アルファベット順と思っていて構わない．この関数の戻り値は次のようになる：

文字列1 ＜ 文字列2 の場合：負の整数
文字列1 ＝ 文字列2 の場合：零
文字列1 ＞ 文字列2 の場合：正の整数

この関数を使用したプログラムの例を List 2 に示す．

List 2.　関数 strcmp( ) の利用例 strcmp-1.c

#include <stdio.h>
#include <string.h>

int main()
{
	char  s1[256], s2[256];
	int   d;
	char  c;

	printf("英単語２個 > ");
	scanf("%s %s", s1, s2);
	d = strcmp(s1, s2);
	if (d < 0) {
		c = '<';
	} else if (d == 0) {
		c = '=';
	} else {
		c = '>';
	}
	printf("%s %c %s\n", s1, c, s2);

	return (0);
}

実行例：

$ ./strcmp-1
英単語２個 > bacon  egg
bacon < egg

文字列関数の作成

次に，文字列処理ライブラリ関数と同じように動作する関数（関数のクローン）を作成してみよう． List 2 を List 3 のように変更しよう．

List 3.　strcmp( ) の定義例（配列版）strcmp-2.c

#include <stdio.h>
//#include <string.h>	// 文字列ライブラリを利用しないので不要

// strcmp() のクローン
int myStrcmp(char s1[], char s2[])
{
	int i = 0;

	while (s1[i] == s2[i]) {
		if (s1[i] == '\0') break;
		i++;
	}
	return (s1[i] - s2[i]);
}

int main()
{			// List 2 と同様
	.
	.
	// ... strcmp(...) ...
	... myStrcmp(...) ...
	.
}

たとえば，List 2 のライブラリ関数 strcmp( ) の処理内容は， List 3 のユーザ関数 myStrcmp() と同じである．動作が変わっていないことを確かめよう．

「まったく同じ」というわけではないが「ほとんど同じ」だ．

また List 4 は，文字配列の代わりにポインタを利用したソースの例である．動作は List 3 と同一である．

List 4.　strcmp() の定義例（ポインタ版）strcmp-3.c

int myStrcmp(char *s1, char *s2)
{
	while (*s1 == *s2) {
		if (*s1 == '\0') break;
		s1++;
		s2++;
	}
	return (*s1 - *s2);
}

List 4 では，List 3 と比較して，変数と計算が削減されている．つまり，メモリ使用量が少なく，動作が速いので， List 4 の方が「良いプログラム」だ．

なお，計算量については，表面的には，逆に，カウント処理 ++ が１個増えたかのように見える．しかし，内部的には，配列要素 s[i] のアドレス計算 *(s + i) が複数個減っている．したがって，トータルでは，List 4 の方が効率的ということになる．

なお，教科書 pp.126-130 には，他の str○○( ) 関数の定義例も紹介されている．

本日の課題

標準ライブラリ関数 strlen( ) のクローン int myStrlen(char s[]) およびそれをテストするためのメイン関数を定義せよ．

なお，ポインタ版の定義例が教科書 p.126 に紹介されているので，この課題では配列版を定義すること．

strlen() は文字列の長さを返す．

標準ライブラリ関数 strcat( ) のクローン char *myStrcat(char *s1, char *s2) およびそれをテストするためのメイン関数を定義せよ．

この課題ではポインタ版を定義すること．（ただし，メイン関数側では配列を使う必要がある． strcat 側では配列を使わないこと．）

strcat() は２つの文字列を連結し，連結後の文字列を第１引数の配列に代入する．そして，連結後の文字列の先頭アドレスを返す．

動作テスト用コードの例：

char s1[256]="abc";
char s2[]="def";
char *p;
p = myStrcat(s1, s2);
// p = strcat(s1, s2);	// 標準ライブラリ関数と動作比較
printf("%s\n", s1);	// s1 = "abcdef" になったハズ
printf("%s\n", p);	// p = "abcdef" にもなったハズ

ヒント：配列の要素数について， s2 では省略可能だが， s1 では省略不可能．その上，char s1[4] = "abc"; では不足だ．なぜなのかわかるかな？

余裕のある人は，その他の文字列処理関数についてもクローンを作成してみるとよい．（例：strchr( )，strstr( )， strncmp( )，strncpy( )，等）

アドバイス：

当然のことだが．．．，クローンを作成する前に，標準ライブラリ関数の方を動かしてみて，その動作を完全に理解しておこう．（メイン関数を先に作成しておくとよい．）

教科書 pp.128-130 に掲載されている strcpy( ) と strcmp( ) のソースコードは，非常にコンパクトに定義されているので， 現段階では高度過ぎる．理解できないうちは，マネしないこと．その代わり，List 3 や List 4 のように，多少長くなっても理解しやすい方法を採用すべき．（下記の補足を参照．）
クローン関数のプロトタイプ（引数と戻り値の型）については，教科書 p.314 を参照して，ライブラリ関数と同じにすること．
終端記号を忘れないこと．
ポインタ値を進めると（s++ すると）当然，最初の値（文字列の先頭アドレス）は忘れ去られてしまう．
配列サイズについては，とりあえず，256程度の決め打ちでよい．

レポート提出

提出方法：電子メール

宛先：yanagawa@kushiro-ct.ac.jp
件名：c-0715

提出期限：07月22日（水）17:00
提出内容（本文）：

学年学科，出席番号，氏名
各問のソースコード，実行結果（と考察）
（疑問）

注意事項：以下の点についても厳しくチェックする：

ソースコードの正しさ（コンパイル時の警告がないこと）
ソースコードの美しさ（インデント，処理手順のわかり易さ，など）
考察の文章の的確さ（論理，文法，誤字脱字，3C，など）

補足

教科書 p.128 の strcpy( ) について，わかり易く書き換えてみる．

まず，高度なコード（教科書の流儀， 高度すぎるのでマネするな!!）：

while ((*s = *t) != '\0') {	// こりゃ何だ？
	s++;
	t++;
}

Ｃでは，工夫次第で， １個の文に複数の手順を詰め込めてしまう．しかし，短けりゃ良いってものではない．「過ぎたるは及ばざるがごとし．」

基本の作法としては，１文には１手順だけ書こう．わかり易いコード（こちらを推奨）：

while (1) {			// 繰り返し...あー
	*s = *t;		// 文字代入...要するに
	if (*s == '\0') break;	// 終了条件...こういうことね
	s++;
	t++;
}

このように， わかり易く，かつ無駄なく，そしてもちろん不足もなくコーディングしよう．

なお，無条件反復 while (1) については，乱用に注意しよう．あくまでも条件反復が基本であり，本当に必要な場合だけ無条件反復を使うべき．まず，冗長な（無駄に長い）書き方（よろしくない例）：

while (1) {
	if (条件式a) break;
	...
}

これと同じことをコンパクトに表現できる（こちらがオススメ）：

while (条件式b) {
	...
}

条件式a，b の違いに注意せよ．条件式a は終了条件，条件式b は継続条件（反復条件），互いに逆の条件だ．

ついでに，よくある冗長なコードの例：

while (...) {
	...
	if (条件式) break;
	else {
		...
	}
}

このように if 文で break や return する場合には，直後の処理を else ブロック化するのは余計．次のように書けば済む：

while (...) {
	...
	if (条件式) break;
	...
}