http://download.wikipedia.org 에서는 세계 각국 버전의 wikipedia 가 차례대로 순환하며 dump 되고 있다.    한국어 위키백과 dump 가 1바퀴 순환하는데에 지난 11월과 12월사이는 1달이 조금 넘었는데 이번에는 23일 밖에 안걸렸다.  그 사이 dump 서버가 빨라진 것일까?

요사이 kowiki 의 dump 순서가 다가 오는 것을 지켜보고 있다가 아침에 dump 가 된 것을 보자마자 download 하여 잽싸게 MDict 로 변환하였다.   http://todaysppc.com 에 올리기 까지 2시간 남짓 걸렸다.  이렇게 해서 지난 1월 3일 이후 보름여 만에 또 한 무더기의 데이타파일들을 업로드했다.

그런데, About 페이지의 머리글을 2008년 12월 이라고 넣어 버리는 실수를 해버렸다.  어차피 백과사전 본문이 중요한 거니까... 냅 두기로 했다.  다음에는 잘하지 뭐.  다음 dump 는 2월 중순이 될 듯 한데 그 때는 표제어 수가 90,000 을 넘길 것으로 예상된다.


WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글  10개가 달렸습니다.
  1. 감사합니다. 재미있게 읽으면서 매먼 고마움을 새삼 느낍니다. 저도 직접 해보려고 했는데 잘 안되더군요. 그래서 제가 할 수 있는 건 이런 응원 메시지밖에 없네요.
  2. 올리신 자료 보고 이거다 싶어서

    저도 영문판 위키백과를 받아서 mdict파일로 변환 해보려고 합니다..

    영문판 파일을 받아서 다음 과정을 진행해 보려고 다시 들렀는데..

    wpko_filter.exe 를 어디서 찾아야 할지 잘 모르겠습니다..

    도움 부탁드리겠습니다..

    (--) (__) (^^)
  3. 영문판 위키대백과를 mdict용으로 변환해 보려고 합니다..

    직접 해보는 도중에 문제가 발생해서 더 진행을 할수가 없어

    도움을 부탁드리려 합니다..

    검색해 보니 enwiki-20080312-pages-articles.xml 라는

    자료가 있어서 다운로드했고 압축을 풀자 2.1G 정되 되는 XML

    파일이 생성되었습니다..

    이전에 올리신 블로그에서 WikiToMDict 2.0을 받아

    위키덤프 파일과 같은 폴더에 넣어 실행을 시켰더니 작업이

    진행되지 않았고, 혹시나 싶어 파일 이름을 pasges-articles.xml

    로 변경해서 실행했더니 WikiToMDictTemp.1 이 생성되고

    한참을 작업하는듯 하더니 wiki.txt 는 생성되지 않는군요..

    혹 다른 폴더에 생겼을까 싶어서 "wiki" 찾기를 실행해 보았으나

    찾아지질 않습니다..

    도움 부탁드리겠습니다..
  4. 앞의 2008년 12월판(http://tinysun.net/15)의 댓글을 쓰신 zamong 님에 이어 전설바람님도 영문판을 시도해 보셨군요.
    wpko_filter.exe 는 데이터를 다듬는 일만 할 뿐이고 포맷 변환과 무관합니다.
    그런데 영문판은 압축파일만 4 GB 가까이 됩니다. 압축을 풀면 17 GB 안팎 나오구요. 2.1G 되셨다니 푸실때 잘못푸신것 아닌가 싶습니다.
    파일이 크다 보니 처리하는데도 시간이 더 걸릴것입니다. 한국어판보다 30배이상 크니 변환시간이 적어도 24시간은 더 걸릴것 같구요.
    또, 큰 파일중 일부분에서 변환 에러가 나면 최종파일이 생성되지 않습니다.

    저도 최신버전의 영문위키사전을 갖고싶으나 다음 몇 가지 이유로 영문판 빌드를 시도하지 않고 있습니다.

    - WikiToMDict 를 써서 단번에 될 작업으로 보이지 않습니다. WikiToTomb 의 소스를 분석,패치하여야 에러없이 변환 될 듯합니다.

    - 많은 시간을 투자하여야 합니다. 에러난 곳을 고치고 다시 돌리면 또 24시간이상을 기다려야 합니다.

    - 혹시 빌드에 성공하더라도 3GB 이상되는 결과파일을 공유하기도 난감합니다. 20MB 로 나누어도 150 개 파일인데.. 좋은 공유방법을 알려주시면 감사하겠습니다.

    - 톰레이X 용 영문위키 2007년판을 이미 사용하고 있어서 큰 절실함이 없습니다.


    도움이 못되어 미안합니다.
  5. 1월판 정말 유용하게 쓰고 있습니다.

    감사합니다^^

    쓰다보니 욕심이 생기는데 2월판이나 3월판은 작업 안하신거지요?;

    찾아보니 없어서요^^;

    아무튼 1월판도 정말 잘 쓰고 있습니다. 다시 한번 경의를 표합니다.
    • 유용하게 사용해주셔서 고맙습니다.

      요새 download.wikipedia.org 의 업데이트가 지지부진해서 1월을 마지막으로 두 달동안 업그레이드를 못했습니다.

      하지만 근일 중에 3월판을 작업할 수 있을 것 같습니다. 작업한 후에는 투피와 블로그에 자료와 글을 올리테니 시간 나실 때 체크해 보시기 바랍니다.
  6. 작은태양님 안녕하세요.

    투피에서 받아서 잘 사용하겠습니다.
    앞으로도 꾸준한 업데이트 부탁드립니다. ^_^
    • 제가 위키백과 변환 방법을 참조한 그 분이시군요.
      저도 Xcaliber 님이 만드신 2008년 7월판을 잘 사용했었습니다.
      감사합니다.
  7. 영문위키백과에서 특정한 카테고리(예를들면 우주,과학,해양 등)만 따로 만들수도 있습니까?
    • 카테고리별로 article.xml 형식 파일을 만들 수 있으면 가능할 겁니다. 하지만 카테고리별로 표제어 목록 조차 만들기 힘들어 보입니다. 그리고, 특정 카테고리만 넣어서 만들었을 경우 다른 카테고리로 가는 링크는 모두 없어져서 조금 불편해 질 것 같습니다.

      감사합니다.
secret