[논문작성] Corpus 사용법

2022. 8. 23. 14:59·기타/논문작성 Writing

영어 글 작성시 적절한 preposition을 찾는 것에 어려움을 겪을 수 있다.

혹은 이 단어가 어떤 맥락에서 사용되는지를 알고 싶을 수 있다. 이 때 사용할 수 있는 서비스가 Corpus(말뭉치)이다.

 

https://www.english-corpora.org/coca/

다음 사이트에서는 두세 번 정도는 검색을 무료로 제공해준다.

 

English-corpora.org 사이트에 들어가면 전체 corpus는 다음과 같은 종류가 있다.

 

제공해주는 corpus가 여러 개 있다. 각 corpus마다 전문으로 하는 분야(web인지, magazine인지 등)이 다르고, 언어도 다르며, 시기도 다르고 양도 다르기 때문에 개인의 필요에 따라 고를 수 있을 것이다.

다만 내가 쓴 COCA는 유료여서 몇 번 쓰면 금방 제한이 되는 것을 주의해야한다.

 

또한 위 사이트가 아니더라도 Sketch engine이라는 곳도 있는데 ARC corpus는 무료라고는 한다. (많이 써보지 않아서 잘 모르겠다.)

https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Faclarc_2 

 

Sketch Engine

 

app.sketchengine.eu

Sketch engine을 쓰고 싶으면

https://www.sketchengine.eu/guide/word-sketch-collocations-and-word-combinations/

 

Word sketch - collocations and word combinations | Sketch Engine

The word sketch shows the most typical collocations and word combinations of each word in the language identified in a text corpus.

www.sketchengine.eu

 

위 링크에서 user guide를 참고한 다음에 쓰는 게 좋을 것 같다.

 

이 글에서는 COCA를 기준으로 설명한다.


내가 원하는 영어 단어가 어떤 전치사와 함께 오는지 알고 싶다면 처음에 사이트에 들어가서, 상단의 [Search]를 들어간다.

 

 

그러면 위와 같이 List, Chart.. 등이 있다. 아마 Browse 이후에는 +로 되어있어서 모를 수 있는데 +버튼을 누르면 다른 항목들도 나온다.

다른 기능은 많이 안 살펴봐서 나중에 알게 되면 글을 쓸 것이고, 여기서는 Collocates를 통해 내가 쓰고자 하는 단어에 함께 오는 다른 단어들을 검색할 것이다.

 

그렇게 하면 아래와 같다.

 

위에서 보면 word/phrase에 내가 쓰는 단어를 적는다. 참고로 오른쪽 창에서는 내가 선택한 입력에 대한 설명이 잘 나와있으니 삽질 방지를 위해 읽는 게 좋다.

 

collocates에 내가 어떤 품사(parts of speech)를 고를 수 있는데 나는 preposition(전치사)를 보려고 한 거지만 다른 게 필요하면 고를 수 있을 것이다.

 

아래 section에서는 내가 검색할 섹션을 고를 수 있다. 왼쪽을 고르고, 오른쪽을 고르면 두 section에서 단어 빈도를 비교해준다. 만약에서 1번 섹션만 선택하면 [find collocates]를 눌렀을 때 아래와 같이 뜬다.

 

 

아래는 section 2개 다 선택했을 때 예시인데, 바로 아래 그림에서 sec1 밖에 없는 이유는 처음에 잘 모르고 양쪽 섹션 둘 다 동일하게 설정해놔서 비교하는 의미가 없기 때문이다. (메뉴얼을 봐야하는 이유.. 몇 번 검색을 못하기 때문에 신중하게 횟수를 써야한다.)

 

 

아래가 제대로 골랐을 때 양쪽을 비교해준다. TOKEN, PM, RATIO의 의미는 오른쪽 상단의 [HELP...]를 누르면 알려준다.

 

https://www.english-corpora.org/help/display_table_compare.asp?h=y 

(위 링크에서도 확인 가능)

 

간단하게 요약하면 위 상단의 단어 수는 search한 단어 수이다.

 

TOKENS는 단순한 frequency를 의미하고 옆의 숫자는 어떤 섹션인지를 의미한다.

또한 PM은 각 섹션의 normalized frequency를 의미한다. (tokens per million words)

단순 frequency가 높아도 전체 단어수가 훨씬 많으면 normalized frequency는 작게 나올 수 있다.

 

그리고 RATIO은 두 섹션을 비교한 상대적인 퍼센티지이다. 예시로는 위의 예시에서 DESK가 있는데 RATIO가 29.6이라고 기록되어있다. 이 말은 SECTION1에서의 DESK가 SECTION2보다 29.6배의 빈도를 갖는다는 말이다. 만약 SECTION2에 빈도가 0이면(즉, PM이 0이면) 0.1로 나눠주도록 되어있다고 한다.)

 

 


나중에 다른 기능도 살펴보면 좋을 것 같은데 유료라서 조금 힘들 것 같다.

그래도 영어단어의 context를 살필 수 있는 데이터베이스가 있어서 좋다.

저작자표시 비영리 변경금지 (새창열림)

'기타 > 논문작성 Writing' 카테고리의 다른 글

[논문양식] 컨퍼런스에서 제공된 양식을 overleaf에서 사용하기/파일의 의미  (0) 2022.09.07
[LaTeX] subfigure의 정렬을 오른쪽, 왼쪽으로 하고 싶을 때  (0) 2022.08.31
[논문작성] 논문 양식 검사 : paper size가 맞지 않는 오류  (0) 2022.08.22
[논문작성] Turnitin에서 문법 오류 지적하는 종류  (0) 2022.08.18
[논문작성] Turnitin에서 참고문헌 제외한 표절률 검사하기  (0) 2022.08.18
'기타/논문작성 Writing' 카테고리의 다른 글
  • [논문양식] 컨퍼런스에서 제공된 양식을 overleaf에서 사용하기/파일의 의미
  • [LaTeX] subfigure의 정렬을 오른쪽, 왼쪽으로 하고 싶을 때
  • [논문작성] 논문 양식 검사 : paper size가 맞지 않는 오류
  • [논문작성] Turnitin에서 문법 오류 지적하는 종류
보통의공대생
보통의공대생
수학,프로그래밍,기계항공우주 등 공부하는 기록들을 남깁니다.
  • 보통의공대생
    뛰는 놈 위에 나는 공대생
    보통의공대생
  • 전체
    오늘
    어제
    • 분류 전체보기 (460)
      • 공지 (1)
      • 영어 공부 English Study (40)
        • 텝스 TEPS (7)
        • 글 Article (21)
        • 영상 Video (10)
      • 연구 Research (99)
        • 최적화 Optimization (3)
        • 데이터과학 Data Science (7)
        • 인공지능 Artificial Intelligent (40)
        • 제어 Control (45)
      • 프로그래밍 Programming (103)
        • 매트랩 MATLAB (25)
        • 파이썬 Python (33)
        • 줄리아 Julia (2)
        • C++ (3)
        • 리눅스 우분투 Ubuntu (6)
      • 항공우주 Aeronautical engineeri.. (21)
        • 항법 Navigation (0)
        • 유도 Guidance (0)
      • 기계공학 Mechanical engineering (13)
        • 열역학 Thermodynamics (0)
        • 고체역학 Statics & Solid mechan.. (10)
        • 동역학 Dynamics (1)
        • 유체역학 Fluid Dynamics (0)
      • 수학 Mathematics (34)
        • 선형대수학 Linear Algebra (18)
        • 미분방정식 Differential Equation (3)
        • 확률및통계 Probability & Sta.. (2)
        • 미적분학 Calculus (1)
        • 복소해석학 Complex Analysis (5)
        • 실해석학 Real Analysis (0)
      • 수치해석 Numerical Analysis (21)
      • 확률 및 랜덤프로세스 Random process (2)
      • 추론 & 추정 이론 Estimation (3)
      • 기타 (26)
        • 설계 프로젝트 System Design (8)
        • 논문작성 Writing (55)
        • 세미나 Seminar (2)
        • 생산성 Productivity (3)
      • 유학 생활 Daily (7)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    생산성
    딥러닝
    teps
    수치해석
    텝스공부
    ChatGPT
    에러기록
    Numerical Analysis
    우분투
    obsidian
    MATLAB
    고체역학
    WOX
    IEEE
    논문작성법
    Julia
    LaTeX
    서버
    논문작성
    Zotero
    Dear abby
    Linear algebra
    텝스
    옵시디언
    JAX
    인공지능
    pytorch
    Statics
    matplotlib
    Python
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
보통의공대생
[논문작성] Corpus 사용법
상단으로

티스토리툴바