Giter Site home page Giter Site logo

gomoku's Introduction

Gomoku

バージョン

  • 0.0.7

概要

  • Igo( http://igo.sourceforge.jp/ )から派生した形態素解析器
  • 辞書データがあらかじめjarファイルに含まれていることが特徴
  • デフォルトではIPADIC(mecab-ipadic-2.7.0-20070801)を使用している
    • common lispで書かれた辞書構築コマンドを使うことでカスタマイズは可能
    • 現状ではIPADIC以外に対応しようとする場合は(おそらく)ソースコードの修正が必要
  • 素性としては品詞情報のみを保持
    • 原型や読みの情報などの情報は破棄している
  • その他、形態素解析器としての特徴は、おおむねIgoと同様

形態素解析器

形態素解析を行う(Java)。

ビルド方法

cd analyzer
ant
ls gomoku-x.x.x.jar

形態素解析コマンド

# 形態素解析
java -cp gomoku-x.x.x.jar net.reduls.gomoku.bin.Gomoku < 解析対象テキスト

# 分かち書き
java -cp gomoku-x.x.x.jar net.reduls.gomoku.bin.Gomoku -wakati < 解析対象テキスト

java API

package net.reduls.gomoku;

class Tagger {
  public static List<Morpheme> parse(String text);
  public static List<String> wakati(String text);
}

class Morpheme {
  public final String surface;  // 形態素表層形
  public final String feature;  // 形態素素性 (== 品詞)
  public final int start;       // 入力テキスト内での形態素の出現開始位置
}

辞書構築コマンド

Gomoku用のバイナリ辞書を構築する(Common Lisp)。 デフォルトの辞書(IPADIC)をカスタマイズしたい場合は、このコマンドを使ってバイナリ辞書を作成し、jarを再ビルドする必要がある。

ソース辞書にはMecabのサイト( http://mecab.sourceforge.net/ )にて配布されている辞書を想定。

※ 現時点ではIPADICにのみ対応。他の辞書での動作は未確認。

依存パッケージ

辞書構築コマンド作成方法

cd dicbuilder
sbcl --script make-build-dic-command.lisp [コマンドの作成先ディレクトリ]
ls gomoku-build-dic

辞書構築コマンド使用方法

gomoku-build-dic <入力テキスト辞書ディレクトリ> <出力バイナリ辞書ディレクトリ> [テキスト辞書の文字コード(デフォルトはeuc-jp)]
# 注意! ディレクトリ指定は最後の'/'が必要

Gomoku辞書の更新手順

cd analyzer
gomoku-build-dic mecab-ipadic-2.7.0-20070801/ src/net/reduls/gomoku/dicdata/  # 新しい辞書データで上書き
ant clean
ant

ライセンス

  • Gomoku本体(ソースファイル及びjarファイル)
    • MITライセンス: 詳細はCOPYINGファイルを参照
  • Gomokuに含まれるIPADICバイナリデータ  - IPADICのライセンスに準拠: 詳細はCOPYING.ipadicを参照

TODO

  • サロゲートペア対応
  • CSVパーサ
  • IPADIC以外の辞書に対応
  • ヒープ実装最適化
  • 諸々整理

gomoku's People

Contributors

sile avatar koher avatar

Watchers

 avatar James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.