문자열

해시넷
rudgh01 (토론 | 기여)님의 2020년 9월 3일 (목) 15:17 판
이동: 둘러보기, 검색

문자열(string)이란 기호의 순차 수열을 말한다.

개요

C언어에서는 큰따옴표("")를 사용해 표현되는 문자열을 문자열 상수(string constant)라고 한다. 상수라고 표현하는 이유는 해당 문자열이 이름을 가지고 있지 않으며, 문자열의 내용 또한 변경할 수 없기 때문이다. C언어에서 문자열(string)은 메모리에 저장된 일련의 연속된 문자(character)들의 집합을 의미한다. 따라서 문자형 배열을 선언하면 이 배열이 곧 문자열 변수가 된다.[1]

문자열에 대한 예를들면 'A'는 문자이지만, 'ABCD'는 문자열이다. 즉 문자가 여러개 모인것을 지칭한다. 문자는 char형 변수에 저장이 된다. 간단한 코드로 보면,
char a = 'A';
char b = 'D';

와 같이 저장하면 된다. char형은 1바이트로 할당되며 문자는 1바이트로 저장이 가능하다는 말이다.

특징

char형 변수로 문자열을 저장하기에는 당연히 무리가 따른다. char형 변수는 문자 1개만을 저장하기 위한 변수이기 때문이다. 문자열을 저장하기 위해서는 char형 배열이 필요하다. 예를 들어 5글자의 문자를 저장하고자 한다면 크기가 5인 char형 배열을 생성하여 저장하면 된다. 가운데 보이는 것처럼 1바이트당 한글자가 저장이 되며 배열의 크기는 지정이 가능하다. 문자열은 이처럼 char형 배열로 저장이 가능하다.[2]

문자상수/문자열상수

문자상수는 'A'와 같이 ' ' 로 표현한다. 상수라고 해서 숫자만 있는 것이 아님을 유의하자. 문자 상수란 문자의 값이며 변하지 않는 수이다. 예를 들어서 'A'라고 하면 이 A는 문자값이다. 하지만 char A; 라고 하면 이 A는 문자값이 아니라 문자를 저장하기 위한 변수다. A라고 하는 이름은 변하지 않지만 그 안에 들어가는 문자상수(값)은 언제든 변할수 있기 때문이다. 유사하게 문자열상수란 문자열값을 의미하며, " " 로 표현한다. "Hello", "Be Happy~" 와 같은 것들이 문자열상수이다.[2]

문자열의 초기화

문자열을 초기화하는 방법(문자배열의 초기화)에는 3가지 정도 생각해볼 수 있다.

char str[6]= { 'H', 'e', 'l', 'l', 'o'. '\0'};

char str[6]= "Hello";

char str[]= "Hello";

A는 크기가 6인 문자배열을 선언하고 각 자리에 들어갈 문자를 순서대로 지정해주는 것이다. B는 크기가 6인 문자배열을 선언함과 동시에 문자열을 대입하는 방법이다. " " 로 표현해주면 되겠다. 주의할점은 크기가 6이므로 이 크기를 벗어나는 문자열상수는 초기화할 수 없다. C는 문자열상수로 초기화하지만 배열의 크기를 지정하지 않는다. 이런경우 문자열상수의 크기에 따라 자동으로 str배열의 크기를 지정해주게된다. C가 문제도 없고 가장 편해보이지만, 문자열이 긴 경우에 개발자가 그 크기를 직접 계산해서 알고 있어야 한다는 불편함이 따른다. 직관적으로 크기도 알고 문자열도 알수 있는 B가 가장 무난하다고 생각할 수 있겠다.[2]

문자열의 출력

저장한 문자열을 출력에 대해 printf 함수만을 예로 들어 설명한다. printf함수를 사용할때는 우리는 출력되는 형태를 지정하기 위해서 형식지정문자 또는 서식문자 라고 불리우는 %로 시작하는것을 붙힌다. 예를 들어 %d는 십진수정수 형태로 출력하라는 %x는 16진수, %lf는 double형타입, %o, %u 등등 여러가지가 지정되어 있다. 하지만 우리의 관심사는 문자와 문자열이므로 여기에만 포커싱을 하고 설명한다. 문자는 %c로 출력한다. 이부분은 아마 다 알고 있을 것이다. 문자열은 %s로 출력하면 된다.[2]

char c ='A';

char str[10]= "ILoveYou"; 

이제 출력하려면,

printf("%c", c);

printf("%s", str);

%s로 지정을 하면 되고 자 그런데 이에 대응되는 변수부분이 str 즉 배열의 이름이 된다. 그런데 가만히 보니 str은 배열의 이름이고, 배열의 이름은 바로 이 배열 전체를 대표하는 이름이자 첫번째 주소값을 가지고 있는 포인터의 성질을 갖는다고 하였다. 사실 printf도 함수이니 저 str은 함수의 매개변수가 되는 것이다. 자 printf함수가 문자열을 출력할때는 이 문자열이 저장되어 있는 가장 첫번째 주소값을 주면 출력해준다는 사실을 알 수 있다. 즉 %s를 이용해 문자열을 출력할때 이에 대응되는 우측부분에 들어가는 데이터의 타입은 바로 char* 이다.[2]

NULL 문자('\0')

NULL 이라는 문자는 상징적으로 사용되며 사실상 그 값은 0이다. 문자는 역슬래쉬0 = \0으로 표현한다. 문자열은 항상 마지막 공간에 이 널문자 1개를 포함하고 있다. 만약 'ILoveYou'를 저장하고 싶다면 실제 문자는 8개지만 마지막에 널문자가 추가되어 있어야만 한다. 3번의 초기화 방법에서 A는 각 메모리공간 하나하나를 지정하고 있기때문에 반드시 마지막에 널문자를 넣어주어야 한다. B와 C같은 경우는 문자열 상수로 초기화되므로 자동으로 들어가게 된다. 즉 안보이지만 분명 1바이트를 차지하고 있는 널문자가 존재하고 있는 것이다. 따라서 우리는 char형 배열에 문자를 저장하고 싶다면 반드시 문자의 갯수 + 1에 해당하는 크기를 할당해놓아야 제대로 된 저장이 가능하다.[2] 문자형 배열로 선언된 문자열 변수는 문자열의 끝을 프로그램에 따로 알려주어야 한다. 그래야만 프로그램이 실제 문자열에 속한 값과 그 외의 쓰레깃값을 구분할 수 있기 때문이다. 따라서 C언어에서는 문자열에 속한 데이터가 끝나면, 문자열의 끝을 의미하는 문자를 하나 더 삽입해 준다. 이 문자를 널(NULL) 문자라고 하며, '\0'으로 표시하고 아스키코드값은 0이다.[1]

각주

  1. 1.0 1.1 TCP School, 〈문자열〉, 《TCP School》
  2. 2.0 2.1 2.2 2.3 2.4 2.5 SLL, 〈C언어 문자열(string) 기본개념〉, 《개인블로그》, 2015-09-22

참고자료

같이 보기

{{프로그래밍|검토 필요}