http://download.wikipedia.org 에서는 세계 각국 버전의 wikipedia 가 차례대로 순환하며 dump 되고 있다.    한국어 위키백과 dump 가 1바퀴 순환하는데에 지난 11월과 12월사이는 1달이 조금 넘었는데 이번에는 23일 밖에 안걸렸다.  그 사이 dump 서버가 빨라진 것일까?

요사이 kowiki 의 dump 순서가 다가 오는 것을 지켜보고 있다가 아침에 dump 가 된 것을 보자마자 download 하여 잽싸게 MDict 로 변환하였다.   http://todaysppc.com 에 올리기 까지 2시간 남짓 걸렸다.  이렇게 해서 지난 1월 3일 이후 보름여 만에 또 한 무더기의 데이타파일들을 업로드했다.

그런데, About 페이지의 머리글을 2008년 12월 이라고 넣어 버리는 실수를 해버렸다.  어차피 백과사전 본문이 중요한 거니까... 냅 두기로 했다.  다음에는 잘하지 뭐.  다음 dump 는 2월 중순이 될 듯 한데 그 때는 표제어 수가 90,000 을 넘길 것으로 예상된다.


WRITTEN BY
tinysun

트랙백  0 , 댓글  10개가 달렸습니다.
  1. 감사합니다. 재미있게 읽으면서 매먼 고마움을 새삼 느낍니다. 저도 직접 해보려고 했는데 잘 안되더군요. 그래서 제가 할 수 있는 건 이런 응원 메시지밖에 없네요.
  2. 전설바람 2009.01.30 15:55
    올리신 자료 보고 이거다 싶어서

    저도 영문판 위키백과를 받아서 mdict파일로 변환 해보려고 합니다..

    영문판 파일을 받아서 다음 과정을 진행해 보려고 다시 들렀는데..

    wpko_filter.exe 를 어디서 찾아야 할지 잘 모르겠습니다..

    도움 부탁드리겠습니다..

    (--) (__) (^^)
  3. 전설바람 2009.02.08 02:04
    영문판 위키대백과를 mdict용으로 변환해 보려고 합니다..

    직접 해보는 도중에 문제가 발생해서 더 진행을 할수가 없어

    도움을 부탁드리려 합니다..

    검색해 보니 enwiki-20080312-pages-articles.xml 라는

    자료가 있어서 다운로드했고 압축을 풀자 2.1G 정되 되는 XML

    파일이 생성되었습니다..

    이전에 올리신 블로그에서 WikiToMDict 2.0을 받아

    위키덤프 파일과 같은 폴더에 넣어 실행을 시켰더니 작업이

    진행되지 않았고, 혹시나 싶어 파일 이름을 pasges-articles.xml

    로 변경해서 실행했더니 WikiToMDictTemp.1 이 생성되고

    한참을 작업하는듯 하더니 wiki.txt 는 생성되지 않는군요..

    혹 다른 폴더에 생겼을까 싶어서 "wiki" 찾기를 실행해 보았으나

    찾아지질 않습니다..

    도움 부탁드리겠습니다..
  4. 앞의 2008년 12월판(http://tinysun.net/15)의 댓글을 쓰신 zamong 님에 이어 전설바람님도 영문판을 시도해 보셨군요.
    wpko_filter.exe 는 데이터를 다듬는 일만 할 뿐이고 포맷 변환과 무관합니다.
    그런데 영문판은 압축파일만 4 GB 가까이 됩니다. 압축을 풀면 17 GB 안팎 나오구요. 2.1G 되셨다니 푸실때 잘못푸신것 아닌가 싶습니다.
    파일이 크다 보니 처리하는데도 시간이 더 걸릴것입니다. 한국어판보다 30배이상 크니 변환시간이 적어도 24시간은 더 걸릴것 같구요.
    또, 큰 파일중 일부분에서 변환 에러가 나면 최종파일이 생성되지 않습니다.

    저도 최신버전의 영문위키사전을 갖고싶으나 다음 몇 가지 이유로 영문판 빌드를 시도하지 않고 있습니다.

    - WikiToMDict 를 써서 단번에 될 작업으로 보이지 않습니다. WikiToTomb 의 소스를 분석,패치하여야 에러없이 변환 될 듯합니다.

    - 많은 시간을 투자하여야 합니다. 에러난 곳을 고치고 다시 돌리면 또 24시간이상을 기다려야 합니다.

    - 혹시 빌드에 성공하더라도 3GB 이상되는 결과파일을 공유하기도 난감합니다. 20MB 로 나누어도 150 개 파일인데.. 좋은 공유방법을 알려주시면 감사하겠습니다.

    - 톰레이X 용 영문위키 2007년판을 이미 사용하고 있어서 큰 절실함이 없습니다.


    도움이 못되어 미안합니다.
  5. 1월판 정말 유용하게 쓰고 있습니다.

    감사합니다^^

    쓰다보니 욕심이 생기는데 2월판이나 3월판은 작업 안하신거지요?;

    찾아보니 없어서요^^;

    아무튼 1월판도 정말 잘 쓰고 있습니다. 다시 한번 경의를 표합니다.
    • 유용하게 사용해주셔서 고맙습니다.

      요새 download.wikipedia.org 의 업데이트가 지지부진해서 1월을 마지막으로 두 달동안 업그레이드를 못했습니다.

      하지만 근일 중에 3월판을 작업할 수 있을 것 같습니다. 작업한 후에는 투피와 블로그에 자료와 글을 올리테니 시간 나실 때 체크해 보시기 바랍니다.
  6. 작은태양님 안녕하세요.

    투피에서 받아서 잘 사용하겠습니다.
    앞으로도 꾸준한 업데이트 부탁드립니다. ^_^
    • 제가 위키백과 변환 방법을 참조한 그 분이시군요.
      저도 Xcaliber 님이 만드신 2008년 7월판을 잘 사용했었습니다.
      감사합니다.
  7. 영문위키백과에서 특정한 카테고리(예를들면 우주,과학,해양 등)만 따로 만들수도 있습니까?
    • 카테고리별로 article.xml 형식 파일을 만들 수 있으면 가능할 겁니다. 하지만 카테고리별로 표제어 목록 조차 만들기 힘들어 보입니다. 그리고, 특정 카테고리만 넣어서 만들었을 경우 다른 카테고리로 가는 링크는 모두 없어져서 조금 불편해 질 것 같습니다.

      감사합니다.
secret
한 달여만에 또 한번 위키백과 변환 작업을 하였다.

지난 번에는 에러가 나는 부분을 리눅스상에서 스크립트를 사용하여 skip 시켰는데 이번에는 C++ 코드를 작성하여 돌려 보았다.  평소 걸끄러워 보였던 본문 첫 부분의 thumb 문자도 제거해 버렸다.  

제작 방법은 기본적으로 Xcaliber 와 유사하지만 중간에 깨진내용과 thumb 를 처리하기 위한 filtering 프로그램을 한 번 돌려주는 것이 다르다.
 

1. http://download.wikipedia.org/kowiki/ 에서 pages-articles.xml.bz2 파일을 다운받는다. 

2. 알집으로 bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경한다.

3. WikiToMDict 2.0.exe 을 이용해서 wiki.txt파일로 변환한다.

4. wpko_filter.exe 를 이용해서 wiki_filtered.txt 로 변환한다.

5. MdxBuilder를 이용해서 mdx파일로 변환한다. 
Source : wiki_filtered.txt
Target : 위키백과_v8.12.mdx
Original format : MDict(Html)
Encoding : UTF-8(Unicode)
Title : Korean Wikipedia v8.12
Description :  (About 내용입력)

여기서 MdxBuilder 는 MDict 제작사에서 무료로 제공하는 MDict 사전 빌더 프로그램이다.

중요한 역할을 하는 프로그램은 위키백과의 xml 을 해석하여 MDict 빌더 입력을 위한 txt 파일을 생성하는 프로그램인 WikiToMDict 이다.  

이것은 MDict 에서 제공한 것도 아니고 위키백과에서 제공하는 것도 아니다.

출처인 http://www.hi-pda.com/forum/viewthread.php?tid=357806 로 보아 중국에서 만들어 졌음을 알 수 있다.  그런데 화면에 출력되는 진행 표시를 보면 infodisiac.com 에서 제공하는 툼레이더용 변환툴인 WikiToTome.pl 펄스크립트를 고친 것으로 보인다.

수 많은 위키백과 편집자와 infodisiac 의 TomeRaider 용 오리지널 perl 스크립트 개발자, WikiToMDict 개발자, MDict 개발자의 노력이 들어 있는 파일이다.  그것들에 비하면 내가 들인 노력은 아주 조그마한 것이다.

이 자리를 빌어 한국어 위키백과에 공헌하시는 분들께 또 한 번 감사드립니다.


WRITTEN BY
tinysun

트랙백  0 , 댓글  6개가 달렸습니다.
  1. 감사합니다 잘쓸께요~
  2. 정말 대박입니다. 앞으로도 꾸준한 업데이트 부탁드립니다.
  3. 소심이 2009.01.03 23:37
    감사합니다. 정말 좋은 자료입니다. 잘 쓰겠습니다.
  4. 감사드립니다. 덕분에 위키피디아 잘 쓰고 있습니다.
    정말 존경스럽습니다. 퀄리티가 훌륭한 만큼 위키피디아의 검색어가 더 많이 늘어났으면 하는 욕심이네요.

    다름이 아니라 구글에서 영어 위키피디아도 받아 써 보았는데, 약 700메가 되더군요. 하지만 컨텐츠가 상당수 짤려있더라구요. 그래서 제가 직접 변환해봐야겠다 작업을 해봤는데, 잘 안되는데 무엇이 잘못되었는지 알 수 있을까요?^^
    1) http://download.wikipedia.org/enwiki/ 에서 pages-articles.xml.bz2 다운..(지금은2008년7월로 작업했습니다.)압축파일이 4기가..
    2) bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경. (압축을 푸니 17기가..고용량이라 알집으로 풀리지도 않았어요^^)
    3) WikiToMDict 2.0.exe 을 이용해서 변환.. 여기서 시간이 무지 오래 걸렸는데(20시간가량), 다섯 개의 별도 파일이 나오네요.. 확장자가 .1 .2a .2b .2c .2d 이렇게요.. (다섯개 합쳐 19기가..)
    4) 아.. 이제 다섯개의 파일을 어떻게 활용해야 할지 모르겠네요..이게 택스트 파일이라는 것인지.. 용량들이 커서. 제가 갖고 있는 텍스트 편집기로 열리지도 않습니다.
    (참.. 너무 용량이 큰 관계로 mdx builder를 통해 무엇인가 조정을 해야할 듯 한데.. 아직 감이 잘 오지 않아요..)
    -> 혹시 조언이나 팁이 있을까요?^^ 감사합니다!!
    • 잘 쓰고 계시다니 저도 기쁩니다.

      TomeRaider 용 한글 위키백과 데이타를 빌드할 때 WikiToTome.pl 를 패치하면서 알게 되었는데 변환과정은 내부적으로 3 단계(3 Phase)로 처리하도록 되어있습니다. 각 단계마다 임시파일을 생성하고 최종 작업이 성공적으로 완료되면 임시파일을 삭제합니다. WikiToMDict 는 WikiToTome.pl 을 MDict 와 중국어에 맞게 패치한 후 exe 로 변환시킨 것 같습니다.
      말씀하신 생성 파일로 유추해 보건대 2단계 실행중에 에러가 난 듯 합니다. 한글 TomeRaider 파일을 만들 때 2단계 파일이 10개도 더 생겼던걸로 기억하거든요.
      대안으로, 구글에서 english wikipedia v1.1 tr3 torrent download 로 검색하시면 TomeRaider 용 wikipedia full 버전을 구하실 수 있습니다. 이미지 없이 텍스트 뿐인데도 3GB 가 넘는 방대한 양 입니다. 다만 리더(TomeRaider)의 License 를 구해야 하는 것이 단점입니다. 저는 사실 영문판을 MDict 포맷으로 변환하더라도 MDict 리더가 제대로 처리할 수 있을지 약간 의문입니다.
      도움이 되었는지요? 감사합니다.
  5. 아~ 정말 감사합니다.^^아무래도 제가 위키피디아의 매력에 푹 빠져서 TomeRaider를 구입해야할 것 같습니다. ㅎㅎ일단 MDict로는 700메가짜리로 만족해야겠네요. 새해 복 많이 받으세요~~
secret
지난 번 tomeraider 용 위키백과를 만들었지만 인덱스 기능의 부재 때문에 결국 MDict 용 2008.7 판을 애용하고 있었다.

그러다가 엊그제 위키백과 dump 가 올라온 것을 보고서 바로 MDict 용 판을 만들었다.  

Xcaliber 님이 제시한 방법으로 만들어 나갔지만 순탄하지는 않았다.  깨진 표제어가 있었고 긴 표제어가 있어서 편집을 조금 해야 했다.

어쨌든 100MB 가까이 되는 mdx 파일을 공들여 만들어 todaysppc.com 에 올렸더니 생각보다 인기가 많았다.  잘 했다는 생각이 든다.

이 자리를 빌어 위키백과 표제어 80,000건 달성을 축하합니다.

WRITTEN BY
tinysun

트랙백  0 , 댓글  0개가 달렸습니다.
secret
한참 전부터 국내 최고의 과학관이 과천에 생긴다는 것을 알고 개관을 기다려 왔는데 드디어볼 수 있었다.

개관일 바로 다음날 (11/15) 아침에 갔다.   그 큰 건물에 생각보다 많은 사람들이 붐비었다.  심지어 식당에서 밥을 먹기위해 1시간 가까이 기다리는 짜증도 있었다.

여러개의 전시실이 있는데 인기의 격차가 심하다.  가장 인기있는 곳은  어린이 탐구 체험관이다.   어린이를 대상으로 하는데다 입장 인원에 제한을 두기 때문에 길게 줄을 서서 기다리는 광경을 볼 수 있다.

그 다음 인기 전시장은 바로 옆의 기초과학관.  이 곳의 백미는 시간마다 굉음을 내는 번개 발생 장치인 테슬라 코일이다.  어린아이 울음소리도 빠짐없이 들을 수 있다.

2층의 첨단기술관-2 도 인기 만점이다.  로봇들이 전시되어 있고 특히 움직이는 로봇이 시간마다 춤을 추기 때문이다.   아이들이 워낙 좋아 해서 전시물이 많이 고장 날 것 같다.

그 옆의 자연사관 도 꼭 들러야 할 곳이다.   입구 바로 안 쪽에 있는, 소파에 자빠져서 천정의 스크린을 감상하는 전시물에서 잠깐 쉴 수 있다.  가장 재미있는 것은 전시실 깊숙히 안쪽에 숨어있는 지름 2m 의 대형 지구본 (SOS, Science On a Sphere)이다.  어두운 방에서 회전하고 있는 커다란 파란색 지구는 환상적이었다.

그런데 몇 몇 전시실은 재미도 별로고 인기도 별로였다.  개인적 관심사에 따라 다르겠지만...

마지막으로 별도 건물로 되어있는 천체과학관에서 플라네타리움을 구경하고 싶었는데 못했다.  오후에는 예매객만 들여보내기 때문에 발걸음을 돌려야 했다.  다음 기회에...

옥외 전시물은 근처에도 못갔다.  하루만에 모든 전시물을 관람하는 것은 보통 체력이 아니면 안 될듯하다.




WRITTEN BY
tinysun

트랙백  0 , 댓글  0개가 달렸습니다.
secret

 큰사진보기!

지난 번 분당에 볼일 보고 오는 길에 헌인릉을 관람하였다.  외진 곳에 있고 날씨가 막 추워지던 때라 단풍이 볼 만 한데도 사람은 많지 않았다.

헌인릉에는 헌릉과 인릉이 있다.  헌릉은 세종의 아버지인 태종의 릉이고, 인릉은 정조의 아들인 순조의 릉이다.  인릉은 정자각, 비각 보수공사로 인해 관람이 어려웠으나 헌릉은 능침까지 들어가 볼 수 있었다.  12시,1시를 제외하고 매시 정시에 30분간 개방을 하므로 시간에 맞추어 능 꼭대기까지 올라가면 내부를 관람할 수 있다.

(참조)
헌인릉 - 위키백과     http://ko.wikipedia.org/wiki/헌인릉
문화재청 헌릉관리소  http://heonin.cha.go.kr/







WRITTEN BY
tinysun

트랙백  0 , 댓글  0개가 달렸습니다.
secret