한 달여만에 또 한번 위키백과 변환 작업을 하였다.

지난 번에는 에러가 나는 부분을 리눅스상에서 스크립트를 사용하여 skip 시켰는데 이번에는 C++ 코드를 작성하여 돌려 보았다.  평소 걸끄러워 보였던 본문 첫 부분의 thumb 문자도 제거해 버렸다.  

제작 방법은 기본적으로 Xcaliber 와 유사하지만 중간에 깨진내용과 thumb 를 처리하기 위한 filtering 프로그램을 한 번 돌려주는 것이 다르다.
 

1. http://download.wikipedia.org/kowiki/ 에서 pages-articles.xml.bz2 파일을 다운받는다. 

2. 알집으로 bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경한다.

3. WikiToMDict 2.0.exe 을 이용해서 wiki.txt파일로 변환한다.

4. wpko_filter.exe 를 이용해서 wiki_filtered.txt 로 변환한다.

5. MdxBuilder를 이용해서 mdx파일로 변환한다. 
Source : wiki_filtered.txt
Target : 위키백과_v8.12.mdx
Original format : MDict(Html)
Encoding : UTF-8(Unicode)
Title : Korean Wikipedia v8.12
Description :  (About 내용입력)

여기서 MdxBuilder 는 MDict 제작사에서 무료로 제공하는 MDict 사전 빌더 프로그램이다.

중요한 역할을 하는 프로그램은 위키백과의 xml 을 해석하여 MDict 빌더 입력을 위한 txt 파일을 생성하는 프로그램인 WikiToMDict 이다.  

이것은 MDict 에서 제공한 것도 아니고 위키백과에서 제공하는 것도 아니다.

출처인 http://www.hi-pda.com/forum/viewthread.php?tid=357806 로 보아 중국에서 만들어 졌음을 알 수 있다.  그런데 화면에 출력되는 진행 표시를 보면 infodisiac.com 에서 제공하는 툼레이더용 변환툴인 WikiToTome.pl 펄스크립트를 고친 것으로 보인다.

수 많은 위키백과 편집자와 infodisiac 의 TomeRaider 용 오리지널 perl 스크립트 개발자, WikiToMDict 개발자, MDict 개발자의 노력이 들어 있는 파일이다.  그것들에 비하면 내가 들인 노력은 아주 조그마한 것이다.

이 자리를 빌어 한국어 위키백과에 공헌하시는 분들께 또 한 번 감사드립니다.


WRITTEN BY
tinysun

받은 트랙백이 없고 , 댓글  6개가 달렸습니다.
  1. 감사합니다 잘쓸께요~
  2. 정말 대박입니다. 앞으로도 꾸준한 업데이트 부탁드립니다.
  3. 감사합니다. 정말 좋은 자료입니다. 잘 쓰겠습니다.
  4. 감사드립니다. 덕분에 위키피디아 잘 쓰고 있습니다.
    정말 존경스럽습니다. 퀄리티가 훌륭한 만큼 위키피디아의 검색어가 더 많이 늘어났으면 하는 욕심이네요.

    다름이 아니라 구글에서 영어 위키피디아도 받아 써 보았는데, 약 700메가 되더군요. 하지만 컨텐츠가 상당수 짤려있더라구요. 그래서 제가 직접 변환해봐야겠다 작업을 해봤는데, 잘 안되는데 무엇이 잘못되었는지 알 수 있을까요?^^
    1) http://download.wikipedia.org/enwiki/ 에서 pages-articles.xml.bz2 다운..(지금은2008년7월로 작업했습니다.)압축파일이 4기가..
    2) bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경. (압축을 푸니 17기가..고용량이라 알집으로 풀리지도 않았어요^^)
    3) WikiToMDict 2.0.exe 을 이용해서 변환.. 여기서 시간이 무지 오래 걸렸는데(20시간가량), 다섯 개의 별도 파일이 나오네요.. 확장자가 .1 .2a .2b .2c .2d 이렇게요.. (다섯개 합쳐 19기가..)
    4) 아.. 이제 다섯개의 파일을 어떻게 활용해야 할지 모르겠네요..이게 택스트 파일이라는 것인지.. 용량들이 커서. 제가 갖고 있는 텍스트 편집기로 열리지도 않습니다.
    (참.. 너무 용량이 큰 관계로 mdx builder를 통해 무엇인가 조정을 해야할 듯 한데.. 아직 감이 잘 오지 않아요..)
    -> 혹시 조언이나 팁이 있을까요?^^ 감사합니다!!
    • 잘 쓰고 계시다니 저도 기쁩니다.

      TomeRaider 용 한글 위키백과 데이타를 빌드할 때 WikiToTome.pl 를 패치하면서 알게 되었는데 변환과정은 내부적으로 3 단계(3 Phase)로 처리하도록 되어있습니다. 각 단계마다 임시파일을 생성하고 최종 작업이 성공적으로 완료되면 임시파일을 삭제합니다. WikiToMDict 는 WikiToTome.pl 을 MDict 와 중국어에 맞게 패치한 후 exe 로 변환시킨 것 같습니다.
      말씀하신 생성 파일로 유추해 보건대 2단계 실행중에 에러가 난 듯 합니다. 한글 TomeRaider 파일을 만들 때 2단계 파일이 10개도 더 생겼던걸로 기억하거든요.
      대안으로, 구글에서 english wikipedia v1.1 tr3 torrent download 로 검색하시면 TomeRaider 용 wikipedia full 버전을 구하실 수 있습니다. 이미지 없이 텍스트 뿐인데도 3GB 가 넘는 방대한 양 입니다. 다만 리더(TomeRaider)의 License 를 구해야 하는 것이 단점입니다. 저는 사실 영문판을 MDict 포맷으로 변환하더라도 MDict 리더가 제대로 처리할 수 있을지 약간 의문입니다.
      도움이 되었는지요? 감사합니다.
  5. 아~ 정말 감사합니다.^^아무래도 제가 위키피디아의 매력에 푹 빠져서 TomeRaider를 구입해야할 것 같습니다. ㅎㅎ일단 MDict로는 700메가짜리로 만족해야겠네요. 새해 복 많이 받으세요~~
secret