코퍼스 관련 자료 위치 보고서
작성일: 2025년 9월 3일
프로젝트: 한국어 코퍼스 검색 시스템
1. 코퍼스 데이터 위치
1.1 데이터베이스 테이블
데이터베이스: wpdatabase
테이블 접두사: wp_
📊 코퍼스 테이블 정보
| 테이블명 | 레코드 수 | 크기 | 설명 |
|---|---|---|---|
wp_corpus_literary | 226,815개 | 13.52MB | 문어체 코퍼스 |
wp_corpus_colloquialness | 132,818개 | 7.52MB | 구어체 코퍼스 |
🗂️ 테이블 구조
wp_corpus_literary (문어체 코퍼스)
+------------+--------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+--------------+------+-----+---------+----------------+
| id | int | NO | PRI | NULL | auto_increment |
| morpheme | varchar(127) | NO | | NULL | |
| frequency | varchar(127) | NO | | NULL | |
| word_class | varchar(127) | NO | | NULL | |
| ratio | varchar(127) | NO | | NULL | |
+------------+--------------+------+-----+---------+----------------+wp_corpus_colloquialness (구어체 코퍼스)
+------------+--------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+--------------+------+-----+---------+----------------+
| id | int | NO | PRI | NULL | auto_increment |
| morpheme | varchar(127) | NO | | NULL | |
| frequency | varchar(127) | NO | | NULL | |
| word_class | varchar(127) | NO | | 어절 | |
| ratio | varchar(127) | NO | | NULL | |
+------------+--------------+------+-----+---------+----------------+📋 샘플 데이터
문어체 코퍼스 샘플:
| id | morpheme | frequency | word_class | ratio |
|----|----------|-----------|-------------------------------|------------|
| 1 | . | 776,197 | 마침표,물음표,느낌표 | 0.03372171 |
| 2 | 의 | 518,856 | 관형격조사 | 0.02254158 |
| 3 | ᆫ | 504,768 | 관형형전성어미 | 0.02192953 |
구어체 코퍼스 샘플:
| id | morpheme | frequency | word_class | ratio |
|----|--------------------------------------|-----------|------------|------------|
| 1 | 스케쥴일리시테이션이라고 | 1 | 어절 | 0.00000124 |
| 2 | 돼지가우물에빠진날부터, | 1 | 어절 | 0.00000124 |
2. 코퍼스 기능 코드 위치
2.1 메인 디렉토리
/var/www/html/wp-content/themes/hello-elementor-child/corpus/
2.2 파일 구조
corpus/
├── custom-functions.php # 코퍼스 숏코드 및 상수 정의
├── corpus-enqueue-scripts.php # 스크립트/CSS 조건부 로딩
├── corpus-search-form.php # 검색 폼 템플릿
├── corpus-search-result.php # 검색 결과 템플릿
├── corpus-search-result-table.php # 결과 테이블 템플릿
├── pagination.php # 페이지네이션 템플릿
├── jsontocsv.php # JSON to CSV 변환
└── assets/ # CSS/JS 에셋
├── css/
│ ├── bootstrap.min.css # Bootstrap CSS
│ ├── bootstrap.min.css.map
│ └── corpus-style.css # 코퍼스 전용 CSS
└── js/
├── bootstrap.bundle.min.js # Bootstrap JS
├── bootstrap.bundle.min.js.map
├── corpus-ui.js # 코퍼스 UI JavaScript
└── corpus-result.js # 결과 처리 JavaScript
3. 코퍼스 기능 상세
3.1 숏코드
[korean_corpus_search_engine]: 검색 폼 표시[korean_corpus_search_result]: 검색 결과 표시
3.2 검색 기능
- 특성 검색: 코퍼스 종류, 품사, 빈도수, 글자수, 제외 조건
- 단어 검색: 직접 단어 입력 검색
- 페이징: 페이지당 100행, 페이지네이션 10개
3.3 검색 범위
- 문어체 코퍼스: 0 ~ 776,197 빈도수
- 구어체 코퍼스: 1 ~ 9,522 빈도수
- 글자수: 1 ~ 39자
4. 웹 페이지 구성
4.1 코퍼스 검색 페이지
- 페이지 A: 슬러그
korean-corpus-search-engine - 내용: 숏코드
[korean_corpus_search_engine] - 기능: 검색 폼 제공
4.2 코퍼스 결과 페이지
- 페이지 B: 슬러그
korean-corpus-search-display - 내용: 숏코드
[korean_corpus_search_result] - 기능: 검색 결과 표시
5. 데이터베이스 접근 방법
5.1 직접 접근
# MySQL 접속
mysql -u wpuser -p wpdatabase
# 코퍼스 테이블 조회
SELECT * FROM wp_corpus_literary LIMIT 10;
SELECT * FROM wp_corpus_colloquialness LIMIT 10;5.2 WordPress 내부 접근
// WordPress 내부에서 코퍼스 데이터 접근
global $wpdb;
$literary_data = $wpdb->get_results("SELECT * FROM {$wpdb->prefix}corpus_literary");
$colloquial_data = $wpdb->get_results("SELECT * FROM {$wpdb->prefix}corpus_colloquialness");6. 백업된 코퍼스 데이터
6.1 백업 파일 위치
/backup/db/wordpress_db_backup_20250903_144919.sql
6.2 백업 파일 크기
- 전체 백업: 269MB
- 코퍼스 데이터 포함: wp_corpus_literary, wp_corpus_colloquialness 테이블
7. 코퍼스 데이터 특징
7.1 문어체 코퍼스 (wp_corpus_literary)
- 총 레코드: 226,815개
- 빈도수 범위: 0 ~ 776,197
- 주요 품사: 조사, 어미, 명사, 동사 등
- 특징: 문학작품, 신문, 학술문서 등 문어체 텍스트
7.2 구어체 코퍼스 (wp_corpus_colloquialness)
- 총 레코드: 132,818개
- 빈도수 범위: 1 ~ 9,522
- 주요 품사: 어절 중심
- 특징: 대화, 인터뷰, 구어체 텍스트
8. 접속 방법
8.1 웹 인터페이스
http://localhost/korean-corpus-search-engine
http://172.29.31.157/korean-corpus-search-engine
8.2 관리자 접속
http://localhost/wp-admin
http://172.29.31.157/wp-admin
9. 데이터 관리
9.1 데이터베이스 백업
# 코퍼스 테이블만 백업
mysqldump -u wpuser -p wpdatabase wp_corpus_literary wp_corpus_colloquialness > corpus_backup.sql9.2 데이터 복원
# 코퍼스 테이블 복원
mysql -u wpuser -p wpdatabase < corpus_backup.sql10. 주의사항
10.1 보안
- 데이터베이스 비밀번호가 wp-config.php에 평문 저장
- 코퍼스 데이터 접근 권한 관리 필요
10.2 성능
- 대용량 데이터 (총 359,633개 레코드)
- 검색 시 인덱스 활용 권장
- 페이징 처리로 성능 최적화
코퍼스 데이터가 정상적으로 구성되어 있으며, 웹 인터페이스를 통해 검색 기능을 사용할 수 있습니다.