'위키백과'에 해당하는 글 8건

이번에 변환한 위키백과 사전에는 기억해야할 의미가 있습니다.

그것은 드디어 10만 항목을 넘긴 점 입니다.  10만 항목을 넘겼다는 것은 표시되는 숫자가 5자리에서 6자리로 바뀌는 것외에 또 다른 중요한 의미가 있습니다.

영문 위키백과 ( http://en.wikipedia.org )와 한국어 위키백과 ( http://ko.wikipedia.org ) 뿐 아니라 다른 언어로 된 위키백과도 모두 초기화면이 있습니다.  그리고 그 초기화면에는 각 국의 위키백과를 항목수에 따라 분류하고 있습니다.  분류는 보통 25만이상, 10만 이상 등으로 나누는데 드디어 한국어 위키백과가 10만 이상 그룹에 들어간 것입니다.



그 동안 5만그룹 또는 4만그룹에 들어 있었는데 그 그룹의 다른 국가명을 살펴보면 우리나라가 그와 같은 등급이라는 것이 믿기지 않고 억울할 정도였습니다.

우리나라는 위키백과 말고도 궁금증을 해소할 수 있는 포탈의 백과사전이나 커뮤니티, 지X인 같은 대안 매체들이 있어서 다른 나라에 비해 상대적으로 위키백과의 발전이 더디지 않았나 생각해 봅니다.  따라서 위키백과 항목수가 국가 정보화 능력을 반영한다거나 인터넷 문화 성숙도와 관계가 있다고 생각하지 않습니다.  하지만 기왕이면 다른 나라의 위키백과에 크게 뒤쳐지지 않았으면 합니다.  굳이 랭킹으로 따진다면 현재 26위 정도 입니다.

이런 의미있는 버전을 빌드하면서 지난 달에 비해 좀 더 특별하게 개선하거나 보완하지 못한 점이 아쉽습니다.  그리고 한국어 위키백과가 어서 빨리 25만 그룹에도 들어가게 되길 바랍니다.



WRITTEN BY
tinysun

트랙백  0 , 댓글  18개가 달렸습니다.
  1. 영어를 검색하면 안나오는데 그걸 해결할 수 있는 방법은 없을까요? ㅜㅜ
  2. 덕분에 잘 사용하고 있습니다. 항상 감사하는 마음을 가지고 있습니다. 수고하십쇼.
  3. ...../ Mdict 프로그램상의 문제 아닐까요...ㅋㅋㅋ

    쥔장님 님때문에 제가 살아요 이거 너무 좋고 편해요 항상

    감사하며 살아가고 있습니다 감사합니다
  4. 작은태양님 덕분에 위키백과 잘 사용하고 있습니다.

    8월판을 사용해보았는데요. 윗 댓글에서도 지적된 영어 검색 부분 등재된 단어가 안 나오는 현상은 해결이 된 것으로 보입니다. 그동안 약간 불편했는데, 수정해주셔서 감사합니다.

    그리고 이건 욕심일지도 모르지만 참고해주시면 감사하겠습니다.

    검색 중에 사진이 있는 부분은 사진이 나오지 않는데,

    가능하시다면 사진이 작은 사이즈라도 나오게 된다면 눈이

    더 즐거울 것 같습니다. 컴맹인 제가 생각해봐도 용량문제

    라던가 프로그래밍상의 어려움 등이 있을 것 같습니다만

    작은태양님의 능력이 워낙 발군이시라 감히 말씀드려봅니다.
  5. 님이 올려주신거 잘 쓰고 있습니다.
    위키백과 데이터가 수정할게 있더라구요..
    제가 가지고 있는 데이터를 제가 수정해서 쓰고 싶은데
    파일을 열어서 수정해야 합니다.
    그런데 무슨 프로그램으로 열 수 있나요?
    드림위버는 열리지않고 울트라에디터는 글이 외계어로 깨져나옵니다. 프로그램 좀 알려주세요.. 수정후 저장만 하면 되는 프로그램없나요? 아니면 비슷한거라두요.. 새롭게 만들 프로그램말고 기존에거 불려드려와 수정하는 프로그램입니다.
    • 방문해 주셔서 감사합니다. 웹브라우저로 http://ko.wikipedia.org/wiki/(수정하고자하는표제어) 를 방문하신다음 상단의 '편집' 탭을 클릭하면 누구든지 위키백과 데이터를 수정하실 수 있습니다. 다만, 수정된 내용이 객관적이지 못하거나 백과사전에 어울리지 않는 경우 다른 편집자들에 의해 원상복구가 될 수 있으므로 주의해야 하겠습니다. 수정된 내용은 다음 빌드에 반영될 것입니다.
  6. 위키디피아 다운 받고 싶은데 어디서 받을 수 없을까요??
    • 저의 블로그를 방문해 주셔서 감사합니다. MDict용으로 변환한 위키백과는 Todaysppc.com의 자료실에서 다운 받으실 수 있습니다. 데이터 소스파일은 download.wikipedia.org에서 받으실 수 있습니다. 도움이 되셨기를 바랍니다.
  7. 정말 감사합니다^^
  8. 혹시 torrent를 통해 공유하실 계획은 없으신지요?
    todaysppc에서 여러 file을 나눠 받는게 좀 귀찮아서요... ^^
    • 제가 올리면 야옹님께서 torrent로 공유해 주시는 것은 어떨런지요? 둘 다 하기엔 부담되고 torrent로만 하면 기존에 받아 쓰시던 분들이 불편하실 것 같아서요.
  9. 위키백과 원본파일을 txt로 변환한다음 mdx파일로 만드려는데
    자꾸 에러가 뜨면서 변환이 안돼네여 그래서 지금 포기상태인데
    혹시 방법좀 알려주시면 감사하겠습니다.
  10. 투데이스피피시에 파일 잘 받아쓰고 있습니다.
    그런데 10월분 파일 10개중 마지막을 안올리셨더군요.
    부탁 드립니다.
  11. 와...여기가 집이셨군요.
    제작자도 모르고 늘 받아만 썼었는데,
    앞으로도 잘 쓰겠습니다.
    아..토런트 공유해주시는 야옹님께도 감사....
  12. 위키백과 더이상 안올려주시나요? 2011 7월꺼 받고싶네요 ㅎㅎ
  13. 7월달판 좀 올려주시길.. ㅠㅠㅜㅜㅜ
  14. 7월달판 좀 올려주시길.. ㅠㅠㅜㅜㅜ
  15. 7월달판 좀 올려주시길.. ㅠㅠㅜㅜㅜ
secret
위키백과 사이트에 가보니 문서 수가 10만개를 넘었습니다.
축하할 만한 일입니다.



WRITTEN BY
tinysun

트랙백  0 , 댓글  1개가 달렸습니다.
  1. 이것은 위대한 게시물이며 있는지 이것을 사랑하고 이것을 공유 주셔서 감사하려고 많은 사람들이있다
secret
5월판 mdx 를 빌드하여 투피 에 포스팅 한 지 벌써 보름이 넘었는데 이제 노트를 남김니다. 요새는 wikipedia 백업 사이트의 진행속도를 가늠하지 못하겠습니다.   얼마전 까지만 해도 막 에러가 나서 언제 다음 번 백업이 될까 걱정되었는데 요새는 5일 주기로 백업이 반복되기도 합니다.  

사실 mdx 파일을 만든 5월 6일 이후 5/11, 5/16 에 wikipedia download 사이트에서 백업이 있었습니다.  2일 내로 또 한번 백업 될 것 같군요.  이대로 라면 2달에 1번 릴리즈 하던 것을 1달에 2번 릴리즈 할 수 도 있겠습니다.  릴리즈도 2009년 5월 6일판  이런 식으로 써야겠지요.

참, 앞의 덧글의 강기윤님 께서  wpko_filter.exe 파일을 원하셔서 여기에 첨부합니다.
아이팟을 위해 위키백과를 wedict 과 stardict 포맷으로 변환하여 올린 사이트를 찾았습니다.  (eu81273 님의 블로그)  위키백과의 xml 파일을 바꾸는 코드를 직접 작성하신 것 같아  대단하다는 생각이 듭니다. 한 편, 제가 사용한 방법을 응용하여 stardict 용을 만들어 그 분 것과 비교해보면 어떨지 궁금 합니다.

WRITTEN BY
tinysun

트랙백  0 , 댓글  3개가 달렸습니다.
  1. 작은태양님, 트랙백 너무 감사드립니다^^
    위키백과 변환하시는 분을 만나게 되니까 무지 반갑네요. 그 고충을 누가 알아줄런지 :)
    사실 저도 XML 코드를 직접 바꾸진 못하구요, 마찬가지로 WikiToMDict 을 이용해서 TXT로 변환한 후에 정규식을 이용해서 StarDict에 어울리지 않는 부분만 조금 수정해 주는 수준이랍니다.
    WikiToMDict을 대체할만한 것을 찾아봐도 마땅한게 없네요. 특히 테이블 변환이 완전하지 않아서 참 아쉽습니다.
    난관에 부딪힐때마다 여기에 찾아와서 하소연해야겠네요. ^^
    즐거운 하루 보내세요 :)
  2. 작은태양팬 2009.05.30 23:49 신고
    항상 올려주셔서 고맙습니다. 애용하고 있습니다.
  3. 안녕하세요, 연극<사람을 찾습니다>의 극단 Soulmate입니다. 후기 잘 읽었습니다. 너무 감사드려요.
secret
http://download.wikipedia.org/backup-index.html  을 처리하는 서버가 1달반 가량 이상했었다.  전세계 wikipedia 의 백업이 되다 말다 하더니 결국 2월에는 MDict 데이터 파일을만들지 못했다.  하마터면 3월도 넘길 뻔 했다.  backup-index 페이지를 모니터링 하다가 덤프가 되자 마자 다운받아서 MDict 데이터 파일을 만들었다.  늘 그랬듯이 투피 에 올렸다.

3월판은 지난 번 판에 비해 표제어 수가 늘면서 파일수가 5개에서 6개로 늘었다.  파일용량이 압축해도 100M를 훌쩍 넘기는데다 투피에 업로드 제한이 있어 5 개 이내로는 맞출 수 가 없었다.   또, 달라진 것은 별거 아니지만 압축 파일명을 위키백과200903.7z 에서 위키백과_v9.03.7z  이런 식으로 바꿨다.  그 밖의 것은 1월판과 동일하다.

백과사전을 주머니에 넣고 다니면서 언제 어디서나 무엇이든 검색하는 것이 아주 편하고 유용하다.  표제어 수가 계속 늘고 있어 최신 판도 계속 만드는데, 투피에서 다운로드한 분들의 호응이 너무 좋아서 의무감 마저 생긴다.

현재 표제어 수가 93,000 여개이다.  두어달 후면 10만건을 넘길 것으로 보인다.  꾸준히 증가하고 있는 것이 고맙고 어찌보면 신통하다.


WRITTEN BY
tinysun

트랙백  0 , 댓글  10개가 달렸습니다.
  1. 매번 수고해주십니다.
    3월달 위키백과 감사히 잘쓰겠습니다^^;
    항상 행복하세요~
  2. 감사합니다

    매번 올려주셔서 잘쓰고있습니다..
  3. 언제나 감사히 쓰고 있습니다~ 수고하셨습니다~
  4. 정말 매번 감사할 따름입니다. ^^
  5. 고마운사람 2009.04.25 20:33 신고
    투피에서 늘 받아가서 잘 쓰고 있는 유저입니다.
    누가 이런걸 만들었을까 생각은 했지만, 우연히 발견하게 되네요. 정말 감사합니다.
    10만 표제어 넘는 것이 얼마 안 남았다죠? 화이팅입니다.

    참.. 영문도 이런식으로 만들어 놓은 것이 있나요? 어디가면 받을 수 있죠?
  6. http://sh0dan.blogspot.com/2008/09/wikipedia-mdict-for-windows-mobile.html 에 torrent 링크가 있는데요. 들어가 보니 아쉽게도 70만표제어만 입력된 MDict 파일입니다.

    표제어가 full 로 들어간 것은 http://www.mininova.org/tor/1237296 에서 구할 수 있습니다. 그런데 이것은 MDict 용이 아니고 ebook reader 인 TomeRaider 용 파일입니다. TomeRaider 는 현재 15파운드(약3만원)하는 유료 프로그램이고 혹시 구매하시더라도 한글 지원이 미비해 다른 용도로는 사용이 힘듭니다.
  7. 감사합니다. 위키백과 잘 받아 쓰고 있는 유저입니다~
    다름이 아니고 저도 한번 해보고 싶은 욕심이 생겼는데
    wpko_filter.exe 이 파일을 구할 수 없었어요.
    이 과정없이 mdx파일 추출하니 mdict에서 인식을 못합니다.
    가능하시면 파일공유 좀 부탁드립니다~~
  8. 위키사전소스좀 부탁드려도 될까요?
    800*480화면에서는 너무 글자가 작아서 폰트를 키워 배포하려고 합니다.
    dexter99@naver.com 입니다
    폰트가 16이상은 되야 정상적으로 읽을수 있을거 같아서요
    꼭 부탁드립니다
    • wiki.txt 를 생성하는 프로그램의 소스를 원하시는 것 같은데 저도WikiToMDict 2.0.exe 이라는 실행파일 밖에 가지고 있지 않습니다. perl 로 짜여진 것을 컴파일 한 것이라는 추측만 하고 있구요. 비슷한 것을 얻거나 만들게 되면 블로그에 올리겠습니다.
secret
http://download.wikipedia.org 에서는 세계 각국 버전의 wikipedia 가 차례대로 순환하며 dump 되고 있다.    한국어 위키백과 dump 가 1바퀴 순환하는데에 지난 11월과 12월사이는 1달이 조금 넘었는데 이번에는 23일 밖에 안걸렸다.  그 사이 dump 서버가 빨라진 것일까?

요사이 kowiki 의 dump 순서가 다가 오는 것을 지켜보고 있다가 아침에 dump 가 된 것을 보자마자 download 하여 잽싸게 MDict 로 변환하였다.   http://todaysppc.com 에 올리기 까지 2시간 남짓 걸렸다.  이렇게 해서 지난 1월 3일 이후 보름여 만에 또 한 무더기의 데이타파일들을 업로드했다.

그런데, About 페이지의 머리글을 2008년 12월 이라고 넣어 버리는 실수를 해버렸다.  어차피 백과사전 본문이 중요한 거니까... 냅 두기로 했다.  다음에는 잘하지 뭐.  다음 dump 는 2월 중순이 될 듯 한데 그 때는 표제어 수가 90,000 을 넘길 것으로 예상된다.


WRITTEN BY
tinysun

트랙백  0 , 댓글  10개가 달렸습니다.
  1. 감사합니다. 재미있게 읽으면서 매먼 고마움을 새삼 느낍니다. 저도 직접 해보려고 했는데 잘 안되더군요. 그래서 제가 할 수 있는 건 이런 응원 메시지밖에 없네요.
  2. 올리신 자료 보고 이거다 싶어서

    저도 영문판 위키백과를 받아서 mdict파일로 변환 해보려고 합니다..

    영문판 파일을 받아서 다음 과정을 진행해 보려고 다시 들렀는데..

    wpko_filter.exe 를 어디서 찾아야 할지 잘 모르겠습니다..

    도움 부탁드리겠습니다..

    (--) (__) (^^)
  3. 영문판 위키대백과를 mdict용으로 변환해 보려고 합니다..

    직접 해보는 도중에 문제가 발생해서 더 진행을 할수가 없어

    도움을 부탁드리려 합니다..

    검색해 보니 enwiki-20080312-pages-articles.xml 라는

    자료가 있어서 다운로드했고 압축을 풀자 2.1G 정되 되는 XML

    파일이 생성되었습니다..

    이전에 올리신 블로그에서 WikiToMDict 2.0을 받아

    위키덤프 파일과 같은 폴더에 넣어 실행을 시켰더니 작업이

    진행되지 않았고, 혹시나 싶어 파일 이름을 pasges-articles.xml

    로 변경해서 실행했더니 WikiToMDictTemp.1 이 생성되고

    한참을 작업하는듯 하더니 wiki.txt 는 생성되지 않는군요..

    혹 다른 폴더에 생겼을까 싶어서 "wiki" 찾기를 실행해 보았으나

    찾아지질 않습니다..

    도움 부탁드리겠습니다..
  4. 앞의 2008년 12월판(http://tinysun.net/15)의 댓글을 쓰신 zamong 님에 이어 전설바람님도 영문판을 시도해 보셨군요.
    wpko_filter.exe 는 데이터를 다듬는 일만 할 뿐이고 포맷 변환과 무관합니다.
    그런데 영문판은 압축파일만 4 GB 가까이 됩니다. 압축을 풀면 17 GB 안팎 나오구요. 2.1G 되셨다니 푸실때 잘못푸신것 아닌가 싶습니다.
    파일이 크다 보니 처리하는데도 시간이 더 걸릴것입니다. 한국어판보다 30배이상 크니 변환시간이 적어도 24시간은 더 걸릴것 같구요.
    또, 큰 파일중 일부분에서 변환 에러가 나면 최종파일이 생성되지 않습니다.

    저도 최신버전의 영문위키사전을 갖고싶으나 다음 몇 가지 이유로 영문판 빌드를 시도하지 않고 있습니다.

    - WikiToMDict 를 써서 단번에 될 작업으로 보이지 않습니다. WikiToTomb 의 소스를 분석,패치하여야 에러없이 변환 될 듯합니다.

    - 많은 시간을 투자하여야 합니다. 에러난 곳을 고치고 다시 돌리면 또 24시간이상을 기다려야 합니다.

    - 혹시 빌드에 성공하더라도 3GB 이상되는 결과파일을 공유하기도 난감합니다. 20MB 로 나누어도 150 개 파일인데.. 좋은 공유방법을 알려주시면 감사하겠습니다.

    - 톰레이X 용 영문위키 2007년판을 이미 사용하고 있어서 큰 절실함이 없습니다.


    도움이 못되어 미안합니다.
  5. 1월판 정말 유용하게 쓰고 있습니다.

    감사합니다^^

    쓰다보니 욕심이 생기는데 2월판이나 3월판은 작업 안하신거지요?;

    찾아보니 없어서요^^;

    아무튼 1월판도 정말 잘 쓰고 있습니다. 다시 한번 경의를 표합니다.
    • 유용하게 사용해주셔서 고맙습니다.

      요새 download.wikipedia.org 의 업데이트가 지지부진해서 1월을 마지막으로 두 달동안 업그레이드를 못했습니다.

      하지만 근일 중에 3월판을 작업할 수 있을 것 같습니다. 작업한 후에는 투피와 블로그에 자료와 글을 올리테니 시간 나실 때 체크해 보시기 바랍니다.
  6. 작은태양님 안녕하세요.

    투피에서 받아서 잘 사용하겠습니다.
    앞으로도 꾸준한 업데이트 부탁드립니다. ^_^
    • 제가 위키백과 변환 방법을 참조한 그 분이시군요.
      저도 Xcaliber 님이 만드신 2008년 7월판을 잘 사용했었습니다.
      감사합니다.
  7. 영문위키백과에서 특정한 카테고리(예를들면 우주,과학,해양 등)만 따로 만들수도 있습니까?
    • 카테고리별로 article.xml 형식 파일을 만들 수 있으면 가능할 겁니다. 하지만 카테고리별로 표제어 목록 조차 만들기 힘들어 보입니다. 그리고, 특정 카테고리만 넣어서 만들었을 경우 다른 카테고리로 가는 링크는 모두 없어져서 조금 불편해 질 것 같습니다.

      감사합니다.
secret
한 달여만에 또 한번 위키백과 변환 작업을 하였다.

지난 번에는 에러가 나는 부분을 리눅스상에서 스크립트를 사용하여 skip 시켰는데 이번에는 C++ 코드를 작성하여 돌려 보았다.  평소 걸끄러워 보였던 본문 첫 부분의 thumb 문자도 제거해 버렸다.  

제작 방법은 기본적으로 Xcaliber 와 유사하지만 중간에 깨진내용과 thumb 를 처리하기 위한 filtering 프로그램을 한 번 돌려주는 것이 다르다.
 

1. http://download.wikipedia.org/kowiki/ 에서 pages-articles.xml.bz2 파일을 다운받는다. 

2. 알집으로 bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경한다.

3. WikiToMDict 2.0.exe 을 이용해서 wiki.txt파일로 변환한다.

4. wpko_filter.exe 를 이용해서 wiki_filtered.txt 로 변환한다.

5. MdxBuilder를 이용해서 mdx파일로 변환한다. 
Source : wiki_filtered.txt
Target : 위키백과_v8.12.mdx
Original format : MDict(Html)
Encoding : UTF-8(Unicode)
Title : Korean Wikipedia v8.12
Description :  (About 내용입력)

여기서 MdxBuilder 는 MDict 제작사에서 무료로 제공하는 MDict 사전 빌더 프로그램이다.

중요한 역할을 하는 프로그램은 위키백과의 xml 을 해석하여 MDict 빌더 입력을 위한 txt 파일을 생성하는 프로그램인 WikiToMDict 이다.  

이것은 MDict 에서 제공한 것도 아니고 위키백과에서 제공하는 것도 아니다.

출처인 http://www.hi-pda.com/forum/viewthread.php?tid=357806 로 보아 중국에서 만들어 졌음을 알 수 있다.  그런데 화면에 출력되는 진행 표시를 보면 infodisiac.com 에서 제공하는 툼레이더용 변환툴인 WikiToTome.pl 펄스크립트를 고친 것으로 보인다.

수 많은 위키백과 편집자와 infodisiac 의 TomeRaider 용 오리지널 perl 스크립트 개발자, WikiToMDict 개발자, MDict 개발자의 노력이 들어 있는 파일이다.  그것들에 비하면 내가 들인 노력은 아주 조그마한 것이다.

이 자리를 빌어 한국어 위키백과에 공헌하시는 분들께 또 한 번 감사드립니다.


WRITTEN BY
tinysun

트랙백  0 , 댓글  6개가 달렸습니다.
  1. 감사합니다 잘쓸께요~
  2. 정말 대박입니다. 앞으로도 꾸준한 업데이트 부탁드립니다.
  3. 감사합니다. 정말 좋은 자료입니다. 잘 쓰겠습니다.
  4. 감사드립니다. 덕분에 위키피디아 잘 쓰고 있습니다.
    정말 존경스럽습니다. 퀄리티가 훌륭한 만큼 위키피디아의 검색어가 더 많이 늘어났으면 하는 욕심이네요.

    다름이 아니라 구글에서 영어 위키피디아도 받아 써 보았는데, 약 700메가 되더군요. 하지만 컨텐츠가 상당수 짤려있더라구요. 그래서 제가 직접 변환해봐야겠다 작업을 해봤는데, 잘 안되는데 무엇이 잘못되었는지 알 수 있을까요?^^
    1) http://download.wikipedia.org/enwiki/ 에서 pages-articles.xml.bz2 다운..(지금은2008년7월로 작업했습니다.)압축파일이 4기가..
    2) bz2 압축을 풀고 pages-articles.xml 파일로 이름을 변경. (압축을 푸니 17기가..고용량이라 알집으로 풀리지도 않았어요^^)
    3) WikiToMDict 2.0.exe 을 이용해서 변환.. 여기서 시간이 무지 오래 걸렸는데(20시간가량), 다섯 개의 별도 파일이 나오네요.. 확장자가 .1 .2a .2b .2c .2d 이렇게요.. (다섯개 합쳐 19기가..)
    4) 아.. 이제 다섯개의 파일을 어떻게 활용해야 할지 모르겠네요..이게 택스트 파일이라는 것인지.. 용량들이 커서. 제가 갖고 있는 텍스트 편집기로 열리지도 않습니다.
    (참.. 너무 용량이 큰 관계로 mdx builder를 통해 무엇인가 조정을 해야할 듯 한데.. 아직 감이 잘 오지 않아요..)
    -> 혹시 조언이나 팁이 있을까요?^^ 감사합니다!!
    • 잘 쓰고 계시다니 저도 기쁩니다.

      TomeRaider 용 한글 위키백과 데이타를 빌드할 때 WikiToTome.pl 를 패치하면서 알게 되었는데 변환과정은 내부적으로 3 단계(3 Phase)로 처리하도록 되어있습니다. 각 단계마다 임시파일을 생성하고 최종 작업이 성공적으로 완료되면 임시파일을 삭제합니다. WikiToMDict 는 WikiToTome.pl 을 MDict 와 중국어에 맞게 패치한 후 exe 로 변환시킨 것 같습니다.
      말씀하신 생성 파일로 유추해 보건대 2단계 실행중에 에러가 난 듯 합니다. 한글 TomeRaider 파일을 만들 때 2단계 파일이 10개도 더 생겼던걸로 기억하거든요.
      대안으로, 구글에서 english wikipedia v1.1 tr3 torrent download 로 검색하시면 TomeRaider 용 wikipedia full 버전을 구하실 수 있습니다. 이미지 없이 텍스트 뿐인데도 3GB 가 넘는 방대한 양 입니다. 다만 리더(TomeRaider)의 License 를 구해야 하는 것이 단점입니다. 저는 사실 영문판을 MDict 포맷으로 변환하더라도 MDict 리더가 제대로 처리할 수 있을지 약간 의문입니다.
      도움이 되었는지요? 감사합니다.
  5. 아~ 정말 감사합니다.^^아무래도 제가 위키피디아의 매력에 푹 빠져서 TomeRaider를 구입해야할 것 같습니다. ㅎㅎ일단 MDict로는 700메가짜리로 만족해야겠네요. 새해 복 많이 받으세요~~
secret
지난 번 tomeraider 용 위키백과를 만들었지만 인덱스 기능의 부재 때문에 결국 MDict 용 2008.7 판을 애용하고 있었다.

그러다가 엊그제 위키백과 dump 가 올라온 것을 보고서 바로 MDict 용 판을 만들었다.  

Xcaliber 님이 제시한 방법으로 만들어 나갔지만 순탄하지는 않았다.  깨진 표제어가 있었고 긴 표제어가 있어서 편집을 조금 해야 했다.

어쨌든 100MB 가까이 되는 mdx 파일을 공들여 만들어 todaysppc.com 에 올렸더니 생각보다 인기가 많았다.  잘 했다는 생각이 든다.

이 자리를 빌어 위키백과 표제어 80,000건 달성을 축하합니다.

WRITTEN BY
tinysun

트랙백  0 , 댓글  0개가 달렸습니다.
secret

위키백과 ebook

위키백과 2008.10.25 09:09
영문 wikipedia ebook 포맷(No image full version .tr3 포맷)을 PDA 에 담아서 오프라인으로 사용하였다.  wikipedia ebook 과 imdb ebook 으로 유명한 tomeraider 와 함께. 크기는 약 1GB 로 2GB 플래쉬 메모리에 넣고도 남았다.

영어의 압박으로 해석하느라 불편함이 있었지만 한글 위키백과는 ebook 버전을 찾을 수 없으니 어쩔 수 없었다.  그래도 방대한 양의 백과사전을 주머니에 넣고 다니면서 임의의 항목을 언제 어디서나 바로 조회하여 궁금함을 달랠 수 있어서 아주 좋았다.

그런데 얼마전 맘마미아 영화를 보고 배우들의 프로필을 알려고 PDA 에서 찾았지만 해당 항목의 내용이 부실해서 아쉬웠다.

wikipedia ebook 이 2006년도 판이라 2008년 개봉 영화에 관해서는 자세한 내용은 없고 제작예정이라는 정보뿐이었다.  최신 wikipedia 용량이 3GB+ 나 되어서 4GB 짜리 메모리카드를 사서 넣으니 좀 자세한 정보가 나왔다.  아마 다음 버전은 4GB 메모리로도 부족할 정도로 방대해 지지 않을까 생각한다.

어쨌든 이런 이유로 PDA 메모리가 업그레이드 되었다.

그런데 메모리카드에 3GB+ 파일을 넣고도 수백메가가 남으니 여기에 한글 위키백과가 있으면 좋겠다는 생각이 점점 커지게 되었다.  한글 위키백과는 영문에 비해 표제어수가 1/10 아래라서 300MB 도 안될 것 같았기 때문이다.  

하지만 또 아무리 인터넷을 뒤져도 한글판 위키백과 ebook 을 찾을 수 없었는데 이번에는 
http://infodisiac.com/Wikipedia/ProcedureTR3.html 를 찾을 수 있었다. 하지만 사이트 내용을 보면 지원되는 언어는 안타깝게도 DE (German), EN (English), EO (Esperanto), ES (Spanish), FR (French), NL (Dutch) or PL (Polish) 뿐이다.

그래도 혹시나 해서 절차를 따라 갔지만 한글 버전에는 역시 안 통했다.  심지어 돌다가 멈춰버린다. 그래도 조금만 손대면 될 수도 있겠다는 생각에 마음먹고 perl 스크립트 삽질을 시작했다.  

결국 일요일 하루와 며칠간의 아침잠을 헌납하여 숯한 시행착오 끝에 한글 tr3 파일을 만들 수 있었다.  처음 표제어 검색을 하려면 수만건의 표제어를 스크롤하여서 찾아야 하는 불편함이 있지만 컨텐츠간의 하이퍼링크는 정확히 작동했다.

이제 영문 wikipedia 와 한글 위키백과를 PDA의 4GB 메모리카드에 넣어 한 손에 들고 다닐 수 있게 되었다.  ^^;

허접 하지만 가져가서 써보고 싶은 분을 위해 링크를 걸어둔다.




WRITTEN BY
tinysun

트랙백  0 , 댓글  3개가 달렸습니다.
  1. 위키백과를 잘 받아쓰는 사용자입니다.
    이런 일을 어떤 분이 하셨나라는 생각으로 여기까지 왔네요.
    감사하다는 말씀 드립니다.
  2. 정말 감사합니다^^
  3. 감사합니다. 잘 쓰겠습니다.
secret