일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 고체역학
- 우분투
- 텝스
- WOX
- 텝스공부
- 인공지능
- MATLAB
- pytorch
- Python
- 수치해석
- LaTeX
- Zotero
- IEEE
- Dear abby
- 생산성
- 옵시디언
- obsidian
- teps
- ChatGPT
- matplotlib
- Statics
- Linear algebra
- 수식삽입
- Julia
- 논문작성
- Numerical Analysis
- JAX
- 논문작성법
- 딥러닝
- 에러기록
- Today
- Total
뛰는 놈 위에 나는 공대생
[논문작성] Corpus 사용법 본문
영어 글 작성시 적절한 preposition을 찾는 것에 어려움을 겪을 수 있다.
혹은 이 단어가 어떤 맥락에서 사용되는지를 알고 싶을 수 있다. 이 때 사용할 수 있는 서비스가 Corpus(말뭉치)이다.
https://www.english-corpora.org/coca/
다음 사이트에서는 두세 번 정도는 검색을 무료로 제공해준다.
English-corpora.org 사이트에 들어가면 전체 corpus는 다음과 같은 종류가 있다.
제공해주는 corpus가 여러 개 있다. 각 corpus마다 전문으로 하는 분야(web인지, magazine인지 등)이 다르고, 언어도 다르며, 시기도 다르고 양도 다르기 때문에 개인의 필요에 따라 고를 수 있을 것이다.
다만 내가 쓴 COCA는 유료여서 몇 번 쓰면 금방 제한이 되는 것을 주의해야한다.
또한 위 사이트가 아니더라도 Sketch engine이라는 곳도 있는데 ARC corpus는 무료라고는 한다. (많이 써보지 않아서 잘 모르겠다.)
https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Faclarc_2
Sketch engine을 쓰고 싶으면
https://www.sketchengine.eu/guide/word-sketch-collocations-and-word-combinations/
위 링크에서 user guide를 참고한 다음에 쓰는 게 좋을 것 같다.
이 글에서는 COCA를 기준으로 설명한다.
내가 원하는 영어 단어가 어떤 전치사와 함께 오는지 알고 싶다면 처음에 사이트에 들어가서, 상단의 [Search]를 들어간다.
그러면 위와 같이 List, Chart.. 등이 있다. 아마 Browse 이후에는 +로 되어있어서 모를 수 있는데 +버튼을 누르면 다른 항목들도 나온다.
다른 기능은 많이 안 살펴봐서 나중에 알게 되면 글을 쓸 것이고, 여기서는 Collocates를 통해 내가 쓰고자 하는 단어에 함께 오는 다른 단어들을 검색할 것이다.
그렇게 하면 아래와 같다.
위에서 보면 word/phrase에 내가 쓰는 단어를 적는다. 참고로 오른쪽 창에서는 내가 선택한 입력에 대한 설명이 잘 나와있으니 삽질 방지를 위해 읽는 게 좋다.
collocates에 내가 어떤 품사(parts of speech)를 고를 수 있는데 나는 preposition(전치사)를 보려고 한 거지만 다른 게 필요하면 고를 수 있을 것이다.
아래 section에서는 내가 검색할 섹션을 고를 수 있다. 왼쪽을 고르고, 오른쪽을 고르면 두 section에서 단어 빈도를 비교해준다. 만약에서 1번 섹션만 선택하면 [find collocates]를 눌렀을 때 아래와 같이 뜬다.
아래는 section 2개 다 선택했을 때 예시인데, 바로 아래 그림에서 sec1 밖에 없는 이유는 처음에 잘 모르고 양쪽 섹션 둘 다 동일하게 설정해놔서 비교하는 의미가 없기 때문이다. (메뉴얼을 봐야하는 이유.. 몇 번 검색을 못하기 때문에 신중하게 횟수를 써야한다.)
아래가 제대로 골랐을 때 양쪽을 비교해준다. TOKEN, PM, RATIO의 의미는 오른쪽 상단의 [HELP...]를 누르면 알려준다.
https://www.english-corpora.org/help/display_table_compare.asp?h=y
(위 링크에서도 확인 가능)
간단하게 요약하면 위 상단의 단어 수는 search한 단어 수이다.
TOKENS는 단순한 frequency를 의미하고 옆의 숫자는 어떤 섹션인지를 의미한다.
또한 PM은 각 섹션의 normalized frequency를 의미한다. (tokens per million words)
단순 frequency가 높아도 전체 단어수가 훨씬 많으면 normalized frequency는 작게 나올 수 있다.
그리고 RATIO은 두 섹션을 비교한 상대적인 퍼센티지이다. 예시로는 위의 예시에서 DESK가 있는데 RATIO가 29.6이라고 기록되어있다. 이 말은 SECTION1에서의 DESK가 SECTION2보다 29.6배의 빈도를 갖는다는 말이다. 만약 SECTION2에 빈도가 0이면(즉, PM이 0이면) 0.1로 나눠주도록 되어있다고 한다.)
나중에 다른 기능도 살펴보면 좋을 것 같은데 유료라서 조금 힘들 것 같다.
그래도 영어단어의 context를 살필 수 있는 데이터베이스가 있어서 좋다.
'기타 > 논문작성 Writing' 카테고리의 다른 글
[논문양식] 컨퍼런스에서 제공된 양식을 overleaf에서 사용하기/파일의 의미 (0) | 2022.09.07 |
---|---|
[LaTeX] subfigure의 정렬을 오른쪽, 왼쪽으로 하고 싶을 때 (0) | 2022.08.31 |
[논문작성] 논문 양식 검사 : paper size가 맞지 않는 오류 (0) | 2022.08.22 |
[논문작성] Turnitin에서 문법 오류 지적하는 종류 (0) | 2022.08.18 |
[논문작성] Turnitin에서 참고문헌 제외한 표절률 검사하기 (0) | 2022.08.18 |