코퍼스 관련 자료 위치 보고서

작성일: 2025년 9월 3일
프로젝트: 한국어 코퍼스 검색 시스템

1. 코퍼스 데이터 위치

1.1 데이터베이스 테이블

데이터베이스: wpdatabase
테이블 접두사: wp_

📊 코퍼스 테이블 정보

테이블명레코드 수크기설명
wp_corpus_literary226,815개13.52MB문어체 코퍼스
wp_corpus_colloquialness132,818개7.52MB구어체 코퍼스

🗂️ 테이블 구조

wp_corpus_literary (문어체 코퍼스)

+------------+--------------+------+-----+---------+----------------+
| Field      | Type         | Null | Key | Default | Extra          |
+------------+--------------+------+-----+---------+----------------+
| id         | int          | NO   | PRI | NULL    | auto_increment |
| morpheme   | varchar(127) | NO   |     | NULL    |                |
| frequency  | varchar(127) | NO   |     | NULL    |                |
| word_class | varchar(127) | NO   |     | NULL    |                |
| ratio      | varchar(127) | NO   |     | NULL    |                |
+------------+--------------+------+-----+---------+----------------+

wp_corpus_colloquialness (구어체 코퍼스)

+------------+--------------+------+-----+---------+----------------+
| Field      | Type         | Null | Key | Default | Extra          |
+------------+--------------+------+-----+---------+----------------+
| id         | int          | NO   | PRI | NULL    | auto_increment |
| morpheme   | varchar(127) | NO   |     | NULL    |                |
| frequency  | varchar(127) | NO   |     | NULL    |                |
| word_class | varchar(127) | NO   |     | 어절    |                |
| ratio      | varchar(127) | NO   |     | NULL    |                |
+------------+--------------+------+-----+---------+----------------+

📋 샘플 데이터

문어체 코퍼스 샘플:

| id | morpheme | frequency | word_class                    | ratio      |
|----|----------|-----------|-------------------------------|------------|
|  1 | .        | 776,197   | 마침표,물음표,느낌표          | 0.03372171 |
|  2 | 의       | 518,856   | 관형격조사                    | 0.02254158 |
|  3 | ᆫ        | 504,768   | 관형형전성어미                | 0.02192953 |

구어체 코퍼스 샘플:

| id | morpheme                             | frequency | word_class | ratio      |
|----|--------------------------------------|-----------|------------|------------|
|  1 | 스케쥴일리시테이션이라고             | 1         | 어절       | 0.00000124 |
|  2 | 돼지가우물에빠진날부터,              | 1         | 어절       | 0.00000124 |

2. 코퍼스 기능 코드 위치

2.1 메인 디렉토리

/var/www/html/wp-content/themes/hello-elementor-child/corpus/

2.2 파일 구조

corpus/
├── custom-functions.php          # 코퍼스 숏코드 및 상수 정의
├── corpus-enqueue-scripts.php    # 스크립트/CSS 조건부 로딩
├── corpus-search-form.php        # 검색 폼 템플릿
├── corpus-search-result.php      # 검색 결과 템플릿
├── corpus-search-result-table.php # 결과 테이블 템플릿
├── pagination.php                # 페이지네이션 템플릿
├── jsontocsv.php                 # JSON to CSV 변환
└── assets/                       # CSS/JS 에셋
    ├── css/
    │   ├── bootstrap.min.css     # Bootstrap CSS
    │   ├── bootstrap.min.css.map
    │   └── corpus-style.css      # 코퍼스 전용 CSS
    └── js/
        ├── bootstrap.bundle.min.js # Bootstrap JS
        ├── bootstrap.bundle.min.js.map
        ├── corpus-ui.js          # 코퍼스 UI JavaScript
        └── corpus-result.js      # 결과 처리 JavaScript

3. 코퍼스 기능 상세

3.1 숏코드

  • [korean_corpus_search_engine]: 검색 폼 표시
  • [korean_corpus_search_result]: 검색 결과 표시

3.2 검색 기능

  • 특성 검색: 코퍼스 종류, 품사, 빈도수, 글자수, 제외 조건
  • 단어 검색: 직접 단어 입력 검색
  • 페이징: 페이지당 100행, 페이지네이션 10개

3.3 검색 범위

  • 문어체 코퍼스: 0 ~ 776,197 빈도수
  • 구어체 코퍼스: 1 ~ 9,522 빈도수
  • 글자수: 1 ~ 39자

4. 웹 페이지 구성

4.1 코퍼스 검색 페이지

  • 페이지 A: 슬러그 korean-corpus-search-engine
  • 내용: 숏코드 [korean_corpus_search_engine]
  • 기능: 검색 폼 제공

4.2 코퍼스 결과 페이지

  • 페이지 B: 슬러그 korean-corpus-search-display
  • 내용: 숏코드 [korean_corpus_search_result]
  • 기능: 검색 결과 표시

5. 데이터베이스 접근 방법

5.1 직접 접근

# MySQL 접속
mysql -u wpuser -p wpdatabase
 
# 코퍼스 테이블 조회
SELECT * FROM wp_corpus_literary LIMIT 10;
SELECT * FROM wp_corpus_colloquialness LIMIT 10;

5.2 WordPress 내부 접근

// WordPress 내부에서 코퍼스 데이터 접근
global $wpdb;
$literary_data = $wpdb->get_results("SELECT * FROM {$wpdb->prefix}corpus_literary");
$colloquial_data = $wpdb->get_results("SELECT * FROM {$wpdb->prefix}corpus_colloquialness");

6. 백업된 코퍼스 데이터

6.1 백업 파일 위치

/backup/db/wordpress_db_backup_20250903_144919.sql

6.2 백업 파일 크기

  • 전체 백업: 269MB
  • 코퍼스 데이터 포함: wp_corpus_literary, wp_corpus_colloquialness 테이블

7. 코퍼스 데이터 특징

7.1 문어체 코퍼스 (wp_corpus_literary)

  • 총 레코드: 226,815개
  • 빈도수 범위: 0 ~ 776,197
  • 주요 품사: 조사, 어미, 명사, 동사 등
  • 특징: 문학작품, 신문, 학술문서 등 문어체 텍스트

7.2 구어체 코퍼스 (wp_corpus_colloquialness)

  • 총 레코드: 132,818개
  • 빈도수 범위: 1 ~ 9,522
  • 주요 품사: 어절 중심
  • 특징: 대화, 인터뷰, 구어체 텍스트

8. 접속 방법

8.1 웹 인터페이스

http://localhost/korean-corpus-search-engine
http://172.29.31.157/korean-corpus-search-engine

8.2 관리자 접속

http://localhost/wp-admin
http://172.29.31.157/wp-admin

9. 데이터 관리

9.1 데이터베이스 백업

# 코퍼스 테이블만 백업
mysqldump -u wpuser -p wpdatabase wp_corpus_literary wp_corpus_colloquialness > corpus_backup.sql

9.2 데이터 복원

# 코퍼스 테이블 복원
mysql -u wpuser -p wpdatabase < corpus_backup.sql

10. 주의사항

10.1 보안

  • 데이터베이스 비밀번호가 wp-config.php에 평문 저장
  • 코퍼스 데이터 접근 권한 관리 필요

10.2 성능

  • 대용량 데이터 (총 359,633개 레코드)
  • 검색 시 인덱스 활용 권장
  • 페이징 처리로 성능 최적화

코퍼스 데이터가 정상적으로 구성되어 있으며, 웹 인터페이스를 통해 검색 기능을 사용할 수 있습니다.