위키백과 사이트에 가보니 문서 수가 10만개를 넘었습니다.
축하할 만한 일입니다.



WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글 하나 달렸습니다.
  1. 이것은 위대한 게시물이며 있는지 이것을 사랑하고 이것을 공유 주셔서 감사하려고 많은 사람들이있다
secret
5월판 mdx 를 빌드하여 투피 에 포스팅 한 지 벌써 보름이 넘었는데 이제 노트를 남김니다. 요새는 wikipedia 백업 사이트의 진행속도를 가늠하지 못하겠습니다.   얼마전 까지만 해도 막 에러가 나서 언제 다음 번 백업이 될까 걱정되었는데 요새는 5일 주기로 백업이 반복되기도 합니다.  

사실 mdx 파일을 만든 5월 6일 이후 5/11, 5/16 에 wikipedia download 사이트에서 백업이 있었습니다.  2일 내로 또 한번 백업 될 것 같군요.  이대로 라면 2달에 1번 릴리즈 하던 것을 1달에 2번 릴리즈 할 수 도 있겠습니다.  릴리즈도 2009년 5월 6일판  이런 식으로 써야겠지요.

참, 앞의 덧글의 강기윤님 께서  wpko_filter.exe 파일을 원하셔서 여기에 첨부합니다.
아이팟을 위해 위키백과를 wedict 과 stardict 포맷으로 변환하여 올린 사이트를 찾았습니다.  (eu81273 님의 블로그)  위키백과의 xml 파일을 바꾸는 코드를 직접 작성하신 것 같아  대단하다는 생각이 듭니다. 한 편, 제가 사용한 방법을 응용하여 stardict 용을 만들어 그 분 것과 비교해보면 어떨지 궁금 합니다.

WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글  3개가 달렸습니다.
  1. 작은태양님, 트랙백 너무 감사드립니다^^
    위키백과 변환하시는 분을 만나게 되니까 무지 반갑네요. 그 고충을 누가 알아줄런지 :)
    사실 저도 XML 코드를 직접 바꾸진 못하구요, 마찬가지로 WikiToMDict 을 이용해서 TXT로 변환한 후에 정규식을 이용해서 StarDict에 어울리지 않는 부분만 조금 수정해 주는 수준이랍니다.
    WikiToMDict을 대체할만한 것을 찾아봐도 마땅한게 없네요. 특히 테이블 변환이 완전하지 않아서 참 아쉽습니다.
    난관에 부딪힐때마다 여기에 찾아와서 하소연해야겠네요. ^^
    즐거운 하루 보내세요 :)
  2. 작은태양팬 2009.05.30 23:49 신고
    항상 올려주셔서 고맙습니다. 애용하고 있습니다.
  3. 안녕하세요, 연극<사람을 찾습니다>의 극단 Soulmate입니다. 후기 잘 읽었습니다. 너무 감사드려요.
secret
http://download.wikipedia.org/backup-index.html  을 처리하는 서버가 1달반 가량 이상했었다.  전세계 wikipedia 의 백업이 되다 말다 하더니 결국 2월에는 MDict 데이터 파일을만들지 못했다.  하마터면 3월도 넘길 뻔 했다.  backup-index 페이지를 모니터링 하다가 덤프가 되자 마자 다운받아서 MDict 데이터 파일을 만들었다.  늘 그랬듯이 투피 에 올렸다.

3월판은 지난 번 판에 비해 표제어 수가 늘면서 파일수가 5개에서 6개로 늘었다.  파일용량이 압축해도 100M를 훌쩍 넘기는데다 투피에 업로드 제한이 있어 5 개 이내로는 맞출 수 가 없었다.   또, 달라진 것은 별거 아니지만 압축 파일명을 위키백과200903.7z 에서 위키백과_v9.03.7z  이런 식으로 바꿨다.  그 밖의 것은 1월판과 동일하다.

백과사전을 주머니에 넣고 다니면서 언제 어디서나 무엇이든 검색하는 것이 아주 편하고 유용하다.  표제어 수가 계속 늘고 있어 최신 판도 계속 만드는데, 투피에서 다운로드한 분들의 호응이 너무 좋아서 의무감 마저 생긴다.

현재 표제어 수가 93,000 여개이다.  두어달 후면 10만건을 넘길 것으로 보인다.  꾸준히 증가하고 있는 것이 고맙고 어찌보면 신통하다.


WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글  10개가 달렸습니다.
  1. 매번 수고해주십니다.
    3월달 위키백과 감사히 잘쓰겠습니다^^;
    항상 행복하세요~
  2. 감사합니다

    매번 올려주셔서 잘쓰고있습니다..
  3. 언제나 감사히 쓰고 있습니다~ 수고하셨습니다~
  4. 정말 매번 감사할 따름입니다. ^^
  5. 고마운사람 2009.04.25 20:33 신고
    투피에서 늘 받아가서 잘 쓰고 있는 유저입니다.
    누가 이런걸 만들었을까 생각은 했지만, 우연히 발견하게 되네요. 정말 감사합니다.
    10만 표제어 넘는 것이 얼마 안 남았다죠? 화이팅입니다.

    참.. 영문도 이런식으로 만들어 놓은 것이 있나요? 어디가면 받을 수 있죠?
  6. http://sh0dan.blogspot.com/2008/09/wikipedia-mdict-for-windows-mobile.html 에 torrent 링크가 있는데요. 들어가 보니 아쉽게도 70만표제어만 입력된 MDict 파일입니다.

    표제어가 full 로 들어간 것은 http://www.mininova.org/tor/1237296 에서 구할 수 있습니다. 그런데 이것은 MDict 용이 아니고 ebook reader 인 TomeRaider 용 파일입니다. TomeRaider 는 현재 15파운드(약3만원)하는 유료 프로그램이고 혹시 구매하시더라도 한글 지원이 미비해 다른 용도로는 사용이 힘듭니다.
  7. 감사합니다. 위키백과 잘 받아 쓰고 있는 유저입니다~
    다름이 아니고 저도 한번 해보고 싶은 욕심이 생겼는데
    wpko_filter.exe 이 파일을 구할 수 없었어요.
    이 과정없이 mdx파일 추출하니 mdict에서 인식을 못합니다.
    가능하시면 파일공유 좀 부탁드립니다~~
  8. 위키사전소스좀 부탁드려도 될까요?
    800*480화면에서는 너무 글자가 작아서 폰트를 키워 배포하려고 합니다.
    dexter99@naver.com 입니다
    폰트가 16이상은 되야 정상적으로 읽을수 있을거 같아서요
    꼭 부탁드립니다
    • wiki.txt 를 생성하는 프로그램의 소스를 원하시는 것 같은데 저도WikiToMDict 2.0.exe 이라는 실행파일 밖에 가지고 있지 않습니다. perl 로 짜여진 것을 컴파일 한 것이라는 추측만 하고 있구요. 비슷한 것을 얻거나 만들게 되면 블로그에 올리겠습니다.
secret

2007년 연말정산안내의 의료비 공제액 계산법이다.  표현만 조금 다를 뿐 내용은 2008년 것과 똑같다.

의료비 공제는 지출대상을 아래와 같이 두 그룹으로 나누어 각각의 공제액을 계산한 후 두 그룹의 공제액을 합한다

 

대상자

                        공제액

그룹 1

본인경로우대자장애자

한도 없이 전액 소득공제가 된다.

다만그룹 2.를 위해 지출한 의료비가 연간 급여의 3%에 미달하는 경우 그 미달금액은 공제액에서 차감한다.

그룹 2

그룹1. 을 제외한

기본공제대상자

연간 급여의 3%를 초과하는 금액에 대하여500만원을 한도로 하여 공제한다




아래는 2006년 연말정산안내의 의료비 공제액 계산법이다.  좀 성의없어 보이기도 하고 단순해서 쉬워보이기도 한다.   앞의 2008년도 계산 방법과는 차이가 크다.  차례대로 읽어가면서 계산하면 되고 빼기의 빼기도 없어서 쉬워 보인다.

2. 의료비 공제액의 계산
 일반적인 경우 ( 500만원 한도 )
공제대상의료비 = 의료비총액 - (총급여액×3%)
 공제대상 의료비가 500만원을 초과하는 경우
공제대상 의료비 = ①과 ②중 적은 금액 + 500만원
① 한도초과금액 = 의료비총액 - (총급여액×3%) - 500만원
② 본인, 장애인, 경로우대자를 위한 의료비 합계액



하지만 여기도 혼동의 여지가 있다.  이 계산법은 '일반적인 경우'  와  '공제대상 의료비...' 의 두 가지 경우로 분류를 하는데 분류의 기준인 '공제대상 의료비' 가 문제다.  공제액 계산 목적이 바로 '공제대상 의료비' 의 산출인데  계산을 위해 분류하는 기준에 그 값을 사용한다. 계산을 이제 하려는데 어떻게 계산 결과가 500만원이 초과되는지 미달되는지 알 수 있는가?  물론 대부분의 사람은 첫 번째 분류에서 계산한 공제대상의료비의 500만원 초과 여부를 의미하는 것이라고 눈치 채겠지만 혼동의 여지는 있다. 

어쨌든 해가 바뀌면서 상세설명은 늘어난 반면 산출 절차는 점점 복잡해지고 있다.  그러면 2006년과 , 2007, 2008년도의 의료비 공제액 관련 규정이 바뀐 것일까?  산출절차만 다를 뿐 결과 금액은 항상 동일할까?  규정이 바뀌었는지 여부는 몰라도 같은 계산 결과가 나온다는 사실은 다음과 같이 수학공식화 하고 비교함으로써 알 수 있었다.


2006년도 계산법
val2006 = min((Vt-P)^, 500) + min((Vt-P-500)^, Vi)

2008년도 계산법
val2008 = (Vi - (P-Vd)^)^  +  min((Vd-P)^, 500)

여기서 각 변수와 기호 정의는 다음과 같다.
val2006, val2008 = 2006년도, 2008년도 계산법에 의한 의료비 공제액,
Vt = 의료비총액,
P = 총급여액x3%,
Vi = 본인, 장애인, 경로우대자를 위한 의료비 합계액,
Vd = 그룹1을 제외한 기본공제대상자의 의료비 합계액,
min( x, y ) 는  x, y 중 작은 수를 의미한다.
( )^  기호는 다음과 같이 정의한다.
          x >= 0  일때는 (x)^ = x,  x < 0 일때는 (x)^ = 0.
          ( (x)^ = max( x, 0 ) 로 생각해도 된다. )

계산절차에서는 명시되지 않았지만 빼기를 한 후 0 보다 작으면 0원으로 처리하기 때문에 ()^ 가 필요하다.

정의에서 Vt = Vi + Vd  이고, 모든 변수값은 0 이상이다.

Vt 의 값을 P, P+500, P+500+Vi  의 특이점으로 구분하는 네개의 interval 로 나누어 수식을 비교한다.  각 경우에 대해 val2006 과 val2008 이 동일하게 다음과 같이 됨을 알 수 있다.
i) Vt <= P 인 경우,  0
ii) P < Vt <= P + 500 인 경우,  Vt - P
iii) P + 500  <  Vt  <=  P + 500 + Vi  인 경우,  Vt - P
iv) P + 500 + Vi < Vt  인 경우,  500 + Vi
  즉, 항상 val2006 = val2008 이다.

더 간단하게 표현되는 수식이 없을까?

쉽게 찾을 수 있다.   의료비공제액 = min((Vt-P)^, 500+Vi).


계산절차를 만들어 보자.

공제대상의료비 = 의료비총액 - (총급여액×3%)
한도액 = 500만원 + 본인, 경로우대자, 장애자를 위한 의료비 합계액
위의 공제대상의료비가 한도액을 초과하는 경우
공제대상의료비 = 한도액

계산결과는 같은데 이러면 더 단순하고 좋지 않았을까?


내 연말정산을 계산해보니 올해의 (Vt-P)^ 가 0 이어서 의료비공제를 한 푼도 받지 못한다.  여태 이걸 왜 한거지?


WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글이 없습니다.
secret
연말정산 시즌이다.   1월에 자료를 회사에 제출하고 3월 급여 지급할 때 정산한다고 한다.  년초인 1월에 하는 연말정산을 해나가다가 의료비 공제액 계산에서 그 복잡한 산출법을 보고야 말았다.

2008년 귀속 연말정산 관련하여 국세청에 안내된 공식이다.
얼핏보면 친절하고 상세하고 엄밀하게 표현되어 있다는 첫 인상을 받는다.
글씨가 많은데다 계산 방법을 2가지로 구분하여 합하는 것을 표로 정리한 것이 친절하고 상세해 보인다.   그리고, ①,②,가,나 등으로 참조하여 기술하는 것이 엄밀하게 표현되어 있는 것 처럼 보인다.

그런데 막상 나의 케이스를 적용하여 계산하려고 들여다 보다 한 순간 잠시 무한루프에 빠져 버린다.   ① 의 내용을 읽다가  '다만, ... ' 이라는 문구에서 ② 를 쳐다보게 만든다.  ② 에서는 어떤가?  첫 칸부터 ① 을 제외하란다.  이 때 나는 ① 의 공제대상 의료비를  보고 거기에 있는 '다만 ..' 문구와 ② 를 또 쳐다본다.

지금 생각해 보건대   ['①' 을 제외한 ... ]  대신  ['①' 의 대상자를 제외한 ... ] 으로 했으면 조금 나았을까 싶다.

하지만 이것은 시작이었다.  그 문제의 '다만, ... ' 문구는 표현상으론 짧고 단순하지만 계산상으로는 그렇지 않다.   ① 의 공제대상 의료비를 계산하기 위해 ①의 의료비 지출액을 사용한다.  그런데 난데없이 다만 이라는 단서로 ②의 의료비 지출액을  들척인다.  그것도 '의료비금액' 으로 표기하여 혼동을 주면서 총급여액x3% 의 미달여부를 따진다.   이제 의료비공제액 계산법의 하일라이트가 나온다.  미달하는 금액을 차감한 금액!

미달 금액의 차감은  빼기의 빼기다.  떼간 세금 줄여서 환급받는 것도 결국 빼기의 빼기가 아닌가?  연말정산의 철학인가보다.

복잡한 규정 때문에 계산법도 이렇게 복잡해 진 것이라고 생각했었다.  다음에는 2006년도와 2007년도 연말정산의 의료비 공제액 계산표를 보겠다.


WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글이 없습니다.
secret