- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date 16/04/05 19:19:04
Name   April_fool
Link #1   http://redtea.kr/pb/pb.php?id=free&no=2543
Subject   100점 이상의 단어를 찾아서.

새벽에 올렸던 [100점짜리 단어를 찾아서.](https://redtea.kr/pb/pb.php?id=free&no=2543)의 호응이 예상외로 대단히 좋은 것을 보고, 애프터서비스(?)로 후속 글을 써보기로 하였습니다.

먼저, 프로그램을 조금 수정하였습니다. 두 개로 나뉘어 있던 프로그램을 하나로 합치고, 단어 중 중복해서 나타나는 것이 사라지도록 하고, 커맨드라인에서의 리다이렉션 명령없이 바로 결과 파일(result.tsv)이 나타나도록 바뀌었습니다. 한 마디로, 그냥 실행만 하면 결과 파일이 튀어나오게끔 바꿨습니다.

#!/usr/bin/python3


import re, string

def score(text):
	a = list(text)
	b = 0
	for i in a:
		if i in string.ascii_letters:
			b = b + (ord(i.lower()) - 96)
	return b

ent = re.compile("<ent>.*</ent>")
dic = set([])

for a in string.ascii_uppercase:
	cide = "CIDE." + a
	with open(cide, mode="r", encoding="latin-1") as f0:
		f1 = f0.readlines()
	for b in f1:
		b = ent.findall(b)
		if b != []:
			c = b[0][5:-6]
			dic.add(c.lower())

t1 = list(dic)
t1.sort()

f2 = open("result.tsv", mode="w")
for i in t1:
	f2.write(i + "\t" + str(score(i)) + "\n")
f2.close()

이렇게 해서 중복을 없애고 보니, 총 단어 수가 11만 4766개로 줄었습니다. 그 중 100점짜리 단어는 총 1210개. 이게 진짜 제대로 된 결과값이라 할 수 있겠습니다. 참고로 모든 단어들의 평균 점수는 약 102.399점, 점수들의 중앙값은 딱 100점이었습니다.

그러면, 이 11만 개의 단어 중에서 가장 점수가 높은 건 뭐냐 하는 질문이 나올 겁니다. 예상할 수 있다시피, 글자 개수가 많으면 점수도 팍팍 올라갑니다. 제가 사용한 GCIDE 사전 파일에서 가장 높은 점수를 낸 표제어는 바로 “self-contained underwater breathing apparatus”(453점)라는 단어였습니다. 이게 뭐냐구요? 바로 스쿠바(SCUBA)입니다. 여러 단어를 줄인 줄임말을 풀어서 쓴 것이죠.

고득점을 올린 다른 단어들도 사정은 마찬가지였습니다. 점수 최상위 10개 표제어 중 단 1가지를 빼놓고 나머지는 모두 여러 개의 단어를 합친 것이었습니다. 근데 딱 하나, “methylenedioxymethamphetamine”(335점)이라는 무쟈게 긴 단어는 예외였습니다. 이거야말로 진정한 1등(!)이라고 할 수 있겠죠. 근데 이게 뭐냐고요?

https://www.google.com/search?q=methylenedioxymethamphetamine

MDMA


3,4-메틸렌디옥시메탐페타민 또는 일명 엑스터시로 더 잘 알려져 있는 향정신성 물질이다. 뇌 속에 세로토닌·도파민·노르아드레날린의 분비를 촉진시켜 환각을 일으킨다. 복용 후 30분에서 1시간 사이 서서히 작용하며 6시간~10시간 지속적이다. 이것은 헤어나오기 힘든 강한 마약 중 하나이다. 엑스터시를 복용한 상태에서는 갈증을 느끼지 못하기 때문에 심각한 탈수 증세를 일으킬 수 있다. 위키백과

히이이이이이이익!!!

…그러합니다. 뭐, “cardiopulmonary resuscitation”(358점)처럼 뭔가 좀 더 도움되는 단어도 있기는 합니다만…

여기에 고득점을 올린 상위 30개 표제어의 목록을 올려 둡니다.

  1. self-contained underwater breathing apparatus (453점)
  2. young women's christian association (397점)
  3. three-torque system of control (371점)
  4. woman's christian temperance union (359점)
  5. young men's christian association (359점)
  6. cardiopulmonary resuscitation (358점)
  7. federal national mortgage association (348점)
  8. vickers-maxim automatic machine gun (345점)
  9. interstate commerce commission (335점)
  10. methylenedioxymethamphetamine (335점)
  11. conditioned emotional response (327점)
  12. melamine-fromaldehyde methanal resin (327점)
  13. cretaceous-tertiary boundary (326점)
  14. american protective association (322점)
  15. mohorovicic discontinuity (312점)
  16. antidisestablishmentarianism (307점)
  17. pseudo-monocotyledonous (305점)
  18. extrasensory perception (304점)
  19. natural product chemistry (304점)
  20. transmission dynamometer (303점)
  21. relativistic mass equation (301점)
  22. switching power supply (298점)
  23. global positioning system (297점)
  24. continental pronunciation (296점)
  25. manic-depressive psychosis (295점)
  26. malopterurus electricus (294점)
  27. percussion instrument (292점)
  28. dow-jones industrial average (291점)
  29. hospitalisation insurance (291점)
  30. central nervous system (288점)

p.s.
이걸 직접 해보고 싶으신 분을 위해, 압축된 사전 파일의 링크를 걸어 둡니다. 위의 코드는 압축을 푼 사전 파일이 있는 디렉토리에 집어넣고 실행하면 됩니다. tsv 파일은 엑셀 등의 스프레드시트 프로그램으로 열 수 있습니다.




4
  • 이과 망했으면


목록
번호 제목 이름 날짜 조회 추천
2470 IT/컴퓨터인공지능 테이가 하루만에 오프라인이 된 사연 12 April_fool 16/03/25 5693 2
2999 음악쇼스타코비치 교향곡 제7번 “레닌그라드” 제1악장 3 April_fool 16/06/11 3522 0
2536 정치이번 선거 공보물에 대한 인상 한줄평 10 April_fool 16/04/04 3998 0
2543 IT/컴퓨터100점짜리 단어를 찾아서. 29 April_fool 16/04/05 13351 11
2550 IT/컴퓨터100점 이상의 단어를 찾아서. 8 April_fool 16/04/05 6774 4
3455 과학/기술인공지능 왓슨의 의학적 진단 보조 사례 33 April_fool 16/08/05 5225 1
2929 과학/기술what3words - 전세계 공통 주소체계 19 April_fool 16/06/01 6048 1
2709 IT/컴퓨터요즘 게임에서 어뷰저를 걸러내는 방법 4 April_fool 16/04/28 4820 1
2732 일상/생각오늘의 일기 6 April_fool 16/05/02 3259 0
2829 정치[불판] 국방부 曰 "공중보건의도 없애겠다" 57 April_fool 16/05/17 5900 0
3062 음악히라노 아야 - God knows 7 April_fool 16/06/18 5885 1
3337 정치[펌글] 정의당이 메갈을 지지한 진짜 이유? 8 April_fool 16/07/24 6111 0
3396 과학/기술창백한 푸른 점 6 April_fool 16/07/29 6561 3
3438 과학/기술여성의 오르가즘은 왜 생겼나? 46 April_fool 16/08/03 7457 0
3533 철학/종교분할뇌 문제와 테세우스의 배 패러독스 35 April_fool 16/08/18 5843 0
3602 일상/생각[근황] 나는 경기도 안양의… 핫 내가 무슨 소리를?! 38 April_fool 16/08/29 4168 5
3820 IT/컴퓨터컴퓨터는 어떻게 빠르게 검색을 할까 - 보이어-무어-호스풀 알고리즘 18 April_fool 16/10/04 5712 7
3856 의료/건강시력의 정의(definition) 9 April_fool 16/10/09 11950 3
3931 기타[토막상식] 공칭치수(Nominal dimension)에 대하여 11 April_fool 16/10/16 20429 4
3994 과학/기술[토막상식] 정확도(accuracy)와 정밀도(precision)에 대하여 19 April_fool 16/10/24 18846 1
4497 일상/생각잡담 몇 가지. 10 April_fool 16/12/31 3597 0
4572 IT/컴퓨터[소개] Swift Calcs - 최고의 온라인 계산기 8 April_fool 17/01/08 8156 10
4600 기타[퀴즈] O링의 크기를 알아맞히는 법 42 April_fool 17/01/11 10783 0
4705 기타2012년 기준 각국의 무역관계 네트워크 분석 - FTA 체결과 같은 무역장벽 철폐를 중심으로 3 April_fool 17/01/27 6833 1
4724 기타나무위키의 “젠더 이퀄리즘” 날조 사건 29 April_fool 17/01/30 7810 2
목록

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글

댓글