단어 빈도 카운터
콘텐츠 편집자는 블로그 게시물이 실제로 타깃 키워드를 “the”나 “and”보다 더 많이 쓰는지, 그리고 어떤 단어가 너무 자주 쓰여 버릇처럼 읽히지는 않는지 알아야 합니다. 이 카운터는 텍스트를 처리하고, 언어별로 불용어를 거르며, 선택적으로 어형 변형을 함께 어간 처리하고, 모든 콘텐츠 단어를 횟수와 전체 단어 대비 비율과 함께 나열합니다. 상위 50개를 스프레드시트에 복사하면 그럴듯한 텍스트 분석 보고서가 됩니다.
단어 빈도를 세는 방법
-
1
텍스트 붙여넣기
트윗부터 책 챕터까지 어디든. 길수록 더 유익합니다.
-
2
필터 설정
언어별 불용어, 최소 길이, 숫자 무시, 어간 처리 켜기/끄기.
-
3
처리
도구가 토큰화하고, 대소문자를 정규화하고, 각 토큰을 셉니다.
-
4
순위 결과 둘러보기
단어, 횟수, 비율의 표. 정렬 가능하며 CSV로 내보낼 수 있습니다.
출력 모습
전형적인 1500단어 블로그 게시물에서 불용어를 거르고 어간 처리한 경우:
| 순위 | 단어 | 횟수 | 전체 % |
|---|---|---|---|
| 1 | marketing | 47 | 3.1% |
| 2 | campaign | 38 | 2.5% |
| 3 | audience | 29 | 1.9% |
| 4 | 27 | 1.8% | |
| … |
순위를 매기고 싶었던 단어가 상위 5위 안에 없다면, 게시물이 아마 그 키워드에 충분히 집중되어 있지 않은 것입니다. 의도하지 않은 단어가 맨 위에 있다면, 무의식적인 말버릇이 있는 것입니다.
SEO 키워드 밀도 목표
현재 SEO 지침은 2015년에 비해 너그럽습니다:
- 주요 키워드에는 **1~2%**면 충분합니다.
- 보조 키워드나 LSI 용어에는 0.5~1%.
- 3% 초과는 키워드 스터핑으로 표시될 위험이 있습니다. 특히 그 용어가 문맥에서 부자연스럽게 느껴지면요.
- 타깃 키워드는 본문 밀도와 관계없이 제목, H1, 첫 문단, 그리고 최소 하나의 부제목에 나타나야 합니다.
2026년 랭킹에서는 품질이 밀도를 크게 앞섭니다.
어간 처리와 표제어 추출
- 어간 처리(Porter 알고리즘)는 단어 어미를 잘라냅니다:
running,runs,ran→run. 빠르지만 가끔 단어가 아닌 것을 만듭니다(happily→happili). - 표제어 추출은 사전 형태를 반환합니다:
better→good. 더 정확하지만 언어 사전이 필요합니다.
도구는 영어에 Porter 어간 처리를, 로망스어에 기본 어간 처리를 지원합니다. 표제어 추출은 영어에만 가능합니다.
SEO 너머의 활용 사례
- 과용 편집. 초고에서 “just”, “really”, “actually”를 군더더기로 포착.
- 읽기 수준. 고빈도 콘텐츠 단어는 어휘 재사용을 나타냅니다. 유의어 다듬기가 분포를 평탄하게 합니다.
- 콘텐츠 감사. 100개 블로그 게시물에 걸쳐 빈도를 돌려 어떤 주제를 생각보다 더 많이 다루는지 확인.
- 학술 글쓰기. 논제문의 핵심 개념이 실제로 챕터 전반에 반복되는지 확인.
자주 묻는 질문
단어 수 세기는 합계를 줍니다: 글에 1,500단어. 빈도 카운터는 단어별 횟수를 줍니다: “marketing”이 47번 나옴. 서로 다른 질문에 대한 서로 다른 도구입니다.
SEO 밀도 분석에는 보통 어간 처리가 검색 엔진의 동작을 더 잘 반영합니다 — Google은 “run”, “running”, “ran”을 관련어로 매칭합니다. 문학 분석에는 정확한 형태가 문체적 선택을 보존합니다.
기본적으로 아니요. “the”, “and”, “of”를 포함한 원시 분포를 원하면 “불용어 포함”을 켜세요. 그 보기는 가독성에는 유용하지만 콘텐츠 분석에는 산만합니다.
아니요. 모든 토큰화와 집계는 브라우저에서 이루어집니다.