utf8_general_ci 와 utf8mb4_general_ci 차이가 있나요?

Question

1 답변

오십년개 · Answer 1 · 2025-12-27T12:01:29+0000

차이점은 크게 “문자셋(utf8 vs utf8mb4)”과 “정렬/비교 규칙(collation)” 두 축으로 보면 됩니다.

utf8 (MySQL의 utf8): 실제로는 최대 3바이트(utf8mb3) 까지만 저장합니다. → 이모지(), 일부 확장 한자/특수문자 등 4바이트 문자는 저장 불가(깨지거나 오류).
utf8mb4: 최대 4바이트 UTF-8을 제대로 지원합니다. → 이모지 포함, 유니코드 전 범위 저장 가능.

즉, utf8mb4_general_ci는 “이모지까지 되는 UTF-8”이고 utf8_general_ci는 “이모지 등 일부 문자가 안 되는 UTF-8(3바이트)” 입니다.

질문에 나온 건 보통 현재 세션 연결에서 문자열을 비교/정렬할 때 쓰는 기본 규칙입니다. (DB나 테이블 collation과 다를 수 있어요.)

확인은 아래처럼 해보면 정확합니다.

SHOW VARIABLES LIKE 'character_set%';
SHOW VARIABLES LIKE 'collation%';

새로 구축/운영 중이면 보통 utf8mb4 사용을 권장합니다. (이모지/확장문자 이슈 예방)
collation은 가능하면 general_ci보다 더 “정확한” 쪽을 많이 씁니다:
- MySQL 5.6/5.7 계열: utf8mb4_unicode_ci를 많이 권장
- (참고) MySQL 8.0이면 utf8mb4_0900… 계열이 더 최신이지만, 지금은 5.6이라면 위가 현실적

utf8mb4는 문자당 최대 바이트가 늘어서 인덱스 길이 제한에 걸릴 수 있습니다(특히 InnoDB, 오래된 설정). 예: VARCHAR 길이가 큰 컬럼에 인덱스가 있으면 조정 필요할 수 있어요.

원하시면, 지금 DB/테이블/컬럼도 utf8mb4로 통일하고 싶은 건지(마이그레이션 여부), 아니면 “표시만 utf8mb4_general_ci로 나오는 이유”가 궁금한 건지에 맞춰서 점검 쿼리/변경 방법까지 딱 맞게 정리해드릴게요.