한 달여만에 또 한번 위키백과 변환 작업을 하였다.
지난 번에는 에러가 나는 부분을 리눅스상에서 스크립트를 사용하여 skip 시켰는데 이번에는 C++ 코드를 작성하여 돌려 보았다. 평소 걸끄러워 보였던 본문 첫 부분의 thumb 문자도 제거해 버렸다.
제작 방법은 기본적으로 Xcaliber 와 유사하지만 중간에 깨진내용과 thumb 를 처리하기 위한 filtering 프로그램을 한 번 돌려주는 것이 다르다.
1. http://download.wikipedia.org/kowiki/ 에서 pages-articles.xml.bz2 파일을 다운받는다.
2. 알집으로 bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경한다.
3. WikiToMDict 2.0.exe 을 이용해서 wiki.txt파일로 변환한다.
4. wpko_filter.exe 를 이용해서 wiki_filtered.txt 로 변환한다.
5. MdxBuilder를 이용해서 mdx파일로 변환한다.
Source : wiki_filtered.txt
Target : 위키백과_v8.12.mdx
Original format : MDict(Html)
Encoding : UTF-8(Unicode)
Title : Korean Wikipedia v8.12
Description : (About 내용입력)
여기서 MdxBuilder 는 MDict 제작사에서 무료로 제공하는 MDict 사전 빌더 프로그램이다.
중요한 역할을 하는 프로그램은 위키백과의 xml 을 해석하여 MDict 빌더 입력을 위한 txt 파일을 생성하는 프로그램인 WikiToMDict 이다.
이것은 MDict 에서 제공한 것도 아니고 위키백과에서 제공하는 것도 아니다.
출처인 http://www.hi-pda.com/forum/viewthread.php?tid=357806 로 보아 중국에서 만들어 졌음을 알 수 있다. 그런데 화면에 출력되는 진행 표시를 보면 infodisiac.com 에서 제공하는 툼레이더용 변환툴인 WikiToTome.pl 펄스크립트를 고친 것으로 보인다.
수 많은 위키백과 편집자와 infodisiac 의 TomeRaider 용 오리지널 perl 스크립트 개발자, WikiToMDict 개발자, MDict 개발자의 노력이 들어 있는 파일이다. 그것들에 비하면 내가 들인 노력은 아주 조그마한 것이다.
이 자리를 빌어 한국어 위키백과에 공헌하시는 분들께 또 한 번 감사드립니다.
WRITTEN BY
,