2017年02月22日

[韓国語]93万語の形態素辞典「NIADic」公開

 韓国情報化振興院(NIA)は,韓国語の形態素分析に関するサービスの開発を支援するための形態素辞典「NIADic」を21日に公開したと,各メディアが伝えました.

●“한글 빅데이터 서비스 마중물”..NIA, 형태소 사전 개방(이데일리)2017.02.21
http://www.edaily.co.kr/news/NewsRead.edy?newsid=03637526615832816&SCD=JE41&DCD=A00504

●NIA, 빅데이터 서비스 개발 위한 형태소 사전 제작 개방(전자신문)2017.02.21
http://www.etnews.com/20170221000372

 形態素辞典は学習者が使う一般の辞典とは異なり,研究やソフトウェア開発などで利用される大きなデータのまとまりです.解析用のソフトウェアと一緒に利用して,解析用ソフトに文章を入力すると,形態素単位に分解して出力します.…などと書いても,形態素解析が何で,どんなことに応用できるのかイメージをつかみづらいと思いますので,例としてネット上で公開されていて自由に利用できるサービスをご紹介しておきます.

●MeCabによる韓国語の形態素解析(MeCabで韓国語 [コンピュータと朝鮮語のための覚え書き])
http://porocise.sakura.ne.jp/korean/mecab/analyzer.html

 記事によると,これまでもオープンソースの「한글 자연어 분석 패키지(KoNLP)」の「세종사전(Sejong Dic)」という形態素辞典が利用されていたそうですが,データ数が少なく,新造語などに対応するため,今回新しい形態素辞典が作られたそうです.

 「세종사전(Sejong Dic)」という名前から推測すると,この形態素辞典は2000年前後に国立国語院が行っていた「21세기 세종계획」で作られたものと思われます.このプロジェクトの成果物は,CD-ROMやネットで公開されましたが,入手には申請が必要で,研究者などの専門家でない場合,入手は難しかったようです.

 今回作成された「NIADic」は,誰でも自由に利用できるようでしたので,이데일리の記事にあった빅데이터센터のURLにアクセスしてみました.サイトの새소식に,きょう22日付で「NIADic」について掲載されていました.そこからリンク先に飛ぶと,エクセル形式の辞書データが公開されていました.

●한글형태소 사전 NIADic(빅데이터센터 새소식)
https://kbig.kr/?q=%EC%83%88%EC%86%8C%EC%8B%9D/16456

●한글형태소 사전 NIADic(빅데이터센터 지식자료실)
https://kbig.kr/index.php?page=0&sv=title&sw=&q=knowledge/pds_&tgt=view&page=1&idx=16451&sw=&sv=title

 エクセル形式の「NIADic.xlsx」を入手して開いてみましたが,ファイル内のタグの意味などはよくわかりません….すぐに使ってみるためのチュートリアル資料「NIADic_tutorial.pdf」も公開されていますが,どのような環境で動かすことを前提としているのか,パソコン上でも動作可能なのか,といった詳しいことがよくわからず,とりあえずきょうはここでお手上げです.
posted by kajiritate webmaster at 23:29| Comment(0) | 日記