Notice
Recent Posts
Recent Comments
Link
관리 메뉴

뛰는 놈 위에 나는 공대생

[논문작성] Corpus 사용법 본문

기타/논문작성 Writing

[논문작성] Corpus 사용법

보통의공대생 2022. 8. 23. 14:59

영어 글 작성시 적절한 preposition을 찾는 것에 어려움을 겪을 수 있다.

혹은 이 단어가 어떤 맥락에서 사용되는지를 알고 싶을 수 있다. 이 때 사용할 수 있는 서비스가 Corpus(말뭉치)이다.

 

https://www.english-corpora.org/coca/

다음 사이트에서는 두세 번 정도는 검색을 무료로 제공해준다.

 

English-corpora.org 사이트에 들어가면 전체 corpus는 다음과 같은 종류가 있다.

 

제공해주는 corpus가 여러 개 있다. 각 corpus마다 전문으로 하는 분야(web인지, magazine인지 등)이 다르고, 언어도 다르며, 시기도 다르고 양도 다르기 때문에 개인의 필요에 따라 고를 수 있을 것이다.

다만 내가 쓴 COCA는 유료여서 몇 번 쓰면 금방 제한이 되는 것을 주의해야한다.

 

또한 위 사이트가 아니더라도 Sketch engine이라는 곳도 있는데 ARC corpus는 무료라고는 한다. (많이 써보지 않아서 잘 모르겠다.)

https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Faclarc_2 

 

Sketch Engine

 

app.sketchengine.eu

Sketch engine을 쓰고 싶으면

https://www.sketchengine.eu/guide/word-sketch-collocations-and-word-combinations/

 

Word sketch - collocations and word combinations | Sketch Engine

The word sketch shows the most typical collocations and word combinations of each word in the language identified in a text corpus.

www.sketchengine.eu

 

위 링크에서 user guide를 참고한 다음에 쓰는 게 좋을 것 같다.

 

이 글에서는 COCA를 기준으로 설명한다.


내가 원하는 영어 단어가 어떤 전치사와 함께 오는지 알고 싶다면 처음에 사이트에 들어가서, 상단의 [Search]를 들어간다.

 

 

그러면 위와 같이 List, Chart.. 등이 있다. 아마 Browse 이후에는 +로 되어있어서 모를 수 있는데 +버튼을 누르면 다른 항목들도 나온다.

다른 기능은 많이 안 살펴봐서 나중에 알게 되면 글을 쓸 것이고, 여기서는 Collocates를 통해 내가 쓰고자 하는 단어에 함께 오는 다른 단어들을 검색할 것이다.

 

그렇게 하면 아래와 같다.

 

위에서 보면 word/phrase에 내가 쓰는 단어를 적는다. 참고로 오른쪽 창에서는 내가 선택한 입력에 대한 설명이 잘 나와있으니 삽질 방지를 위해 읽는 게 좋다.

 

collocates에 내가 어떤 품사(parts of speech)를 고를 수 있는데 나는 preposition(전치사)를 보려고 한 거지만 다른 게 필요하면 고를 수 있을 것이다.

 

아래 section에서는 내가 검색할 섹션을 고를 수 있다. 왼쪽을 고르고, 오른쪽을 고르면 두 section에서 단어 빈도를 비교해준다. 만약에서 1번 섹션만 선택하면 [find collocates]를 눌렀을 때 아래와 같이 뜬다.

 

 

아래는 section 2개 다 선택했을 때 예시인데, 바로 아래 그림에서 sec1 밖에 없는 이유는 처음에 잘 모르고 양쪽 섹션 둘 다 동일하게 설정해놔서 비교하는 의미가 없기 때문이다. (메뉴얼을 봐야하는 이유.. 몇 번 검색을 못하기 때문에 신중하게 횟수를 써야한다.)

 

 

아래가 제대로 골랐을 때 양쪽을 비교해준다. TOKEN, PM, RATIO의 의미는 오른쪽 상단의 [HELP...]를 누르면 알려준다.

 

https://www.english-corpora.org/help/display_table_compare.asp?h=y 

(위 링크에서도 확인 가능)

 

간단하게 요약하면 위 상단의 단어 수는 search한 단어 수이다.

 

TOKENS는 단순한 frequency를 의미하고 옆의 숫자는 어떤 섹션인지를 의미한다.

또한 PM은 각 섹션의 normalized frequency를 의미한다. (tokens per million words)

단순 frequency가 높아도 전체 단어수가 훨씬 많으면 normalized frequency는 작게 나올 수 있다.

 

그리고 RATIO은 두 섹션을 비교한 상대적인 퍼센티지이다. 예시로는 위의 예시에서 DESK가 있는데 RATIO가 29.6이라고 기록되어있다. 이 말은 SECTION1에서의 DESK가 SECTION2보다 29.6배의 빈도를 갖는다는 말이다. 만약 SECTION2에 빈도가 0이면(즉, PM이 0이면) 0.1로 나눠주도록 되어있다고 한다.)

 

 


나중에 다른 기능도 살펴보면 좋을 것 같은데 유료라서 조금 힘들 것 같다.

그래도 영어단어의 context를 살필 수 있는 데이터베이스가 있어서 좋다.

Comments