【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した【Part.2】

前回の「【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した【Part.1】」では、環境を設定しましたが「Part.2」では Python から「形態素解析」を試してみます。

 

前回の記事

【AWS】【機械学習】Deep Learning AMI(Amazon Linux)を試した

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した【Part.1】

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した【Part.2】

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した(Janomeのインストール)【Part.3】

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した(Janome&mecab-ipadic-neologd で解析)【Part.4】

 

 

 

 

簡単な形態素解析プログラム

以下簡単な形態素解析プログラム例です。

ubuntu@AWS_TEST deeplearning] vi ma-mecab.py
# -*- coding: utf-8 -*-

import MeCab
mecab = MeCab.Tagger('-Ochasen')
malist = mecab.parse('お笑いコンビ・オードリーが、13日深夜放送のレギュラーのラジオ番組『オードリーのオールナイトニッポン』(ニッポン放送 毎週土曜 深1:00~)に生出演。')
print(malist)
ubuntu@AWS_TEST deeplearning]

 

 

上記プログラムを実行します。

ubuntu@AWS_TEST deeplearning] python3.6 ma-mecab.py
お笑い  オワライ        お笑い  名詞-一般
コンビ  コンビ  コンビ  名詞-一般
・      ・      ・      記号-一般
オードリー      オードリー      オードリー      名詞-固有名詞-人名-一般
が      ガ      が      助詞-格助詞-一般
、      、      、      記号-読点
13      13      13      名詞-数
日      ニチ    日      名詞-接尾-助数詞
深夜    シンヤ  深夜    名詞-副詞可能
放送    ホウソウ        放送    名詞-サ変接続
の      ノ      の      助詞-連体化
レギュラー      レギュラー      レギュラー      名詞-一般
の      ノ      の      助詞-連体化
ラジオ  ラジオ  ラジオ  名詞-一般
番組    バングミ        番組    名詞-一般
『      『      『      記号-括弧開
オードリー      オードリー      オードリー      名詞-固有名詞-人名-一般
の      ノ      の      助詞-連体化
オールナイト    オールナイト    オールナイト    名詞-一般
ニッポン        ニッポン        ニッポン        名詞-固有名詞-地域-国
』      』      』      記号-括弧閉
(      (      (      記号-括弧開
ニッポン放送    ニッポンホウソウ        ニッポン放送    名詞-固有名詞-組織
                     記号-空白
毎週    マイシュウ      毎週    名詞-副詞可能
土曜    ドヨウ  土曜    名詞-副詞可能
                     記号-空白
深      フカ    深い    形容詞-自立     形容詞・アウオ段        ガル接続
1       1       1       名詞-数
:      :      :      記号-一般
00      00      00      名詞-数
~)    ~)    ~)    名詞-サ変接続
に      ニ      に      助詞-格助詞-一般
生      ナマ    生      接頭詞-名詞接続
出演    シュツエン      出演    名詞-サ変接続
。      。      。      記号-句点
EOS

ubuntu@AWS_TEST deeplearning]

 

 

ここまで実行して気が付いたのですが、前回の記事でインストールした「mecab-ipadic-neologd」が利用されていません。

Python プログラムを改修します。

 

【改修後のプログラム】

ubuntu@AWS_TEST deeplearning] cat ma-mecab.py
# -*- coding: utf-8 -*-

import MeCab
mecab = MeCab.Tagger('-d /usr/lib/mecab/dic/mecab-ipadic-neologd') ← mecab-ipadic-neologdを利用するようにオプションを入れます。
malist = mecab.parse('お笑いコンビ・オードリーが、13日深夜放送のレギュラーのラジオ番組『オードリーのオールナイトニッポン』(ニッポン放送 毎週土曜 深1:00~)に生出演。')
print(malist)
ubuntu@AWS_TEST deeplearning]

 

 

【プログラム実行結果】

ubuntu@AWS_TEST deeplearning] python3.6 ma-mecab.py
お笑いコンビ    名詞,固有名詞,一般,*,*,*,お笑いコンビ,オワライコンビ,オワライコンビ
・      記号,一般,*,*,*,*,・,・,・
オードリー      名詞,固有名詞,人名,一般,*,*,オードリー,オードリー,オードリー
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
、      記号,読点,*,*,*,*,、,、,、
13日    名詞,固有名詞,一般,*,*,*,13日,ジュウサンニチ,ジュウサンニチ
深夜放送        名詞,固有名詞,一般,*,*,*,深夜放送,シンヤホウソウ,シンヤホウソー
の      助詞,連体化,*,*,*,*,の,ノ,ノ
レギュラー      名詞,一般,*,*,*,*,レギュラー,レギュラー,レギュラー
の      助詞,連体化,*,*,*,*,の,ノ,ノ
ラジオ番組      名詞,固有名詞,一般,*,*,*,ラジオ番組,ラジオバングミ,ラジオバングミ
『      記号,括弧開,*,*,*,*,『,『,『
オードリーのオールナイトニッポン        名詞,固有名詞,一般,*,*,*,オードリーのオールナイトニッポン,オードリーノオールナイトニッポン,オードリーノオールナイトニッポン
』      記号,括弧閉,*,*,*,*,』,』,』
(      記号,括弧開,*,*,*,*,(,(,(
ニッポン放送    名詞,固有名詞,組織,*,*,*,ニッポン放送,ニッポンホウソウ,ニッポンホーソー
       記号,空白,*,*,*,*, , , 
毎週    名詞,副詞可能,*,*,*,*,毎週,マイシュウ,マイシュー
土曜    名詞,副詞可能,*,*,*,*,土曜,ドヨウ,ドヨー
       記号,空白,*,*,*,*, , , 
深      形容詞,自立,*,*,形容詞・アウオ段,ガル接続,深い,フカ,フカ
1       名詞,数,*,*,*,*,*
:      記号,一般,*,*,*,*,:,:,:
00      名詞,数,*,*,*,*,*
~)    記号,一般,*,*,*,*,*
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
生出演  名詞,固有名詞,人名,一般,*,*,生出演,オイデヒロシ,オイデヒロシ
。      記号,句点,*,*,*,*,。,。,。
EOS

ubuntu@AWS_TEST deeplearning]

 

名詞を区切る個所が前よりも自然になりました。

(かなり最新まで固有名詞を認識させることができるようになりました)

 

 

参考にした書籍

現在以下の書籍で機械学習のさわり部分を勉強しています。

まだまだ学ぶべき部分は多いですが、「Pythonによるスクレイピング&機械学習 開発テクニック」は機械学習のための様々なライブラリを分かりやすく解説しています。

専門的な部分まで取り扱っていませんが、機械学習初心者にとって、本書は入り口としては最適だと思います。

いきなり難しい専門書を読んでもすぐに挫折すると思うので、最初にこの本を読んでおくのがいいと思います。

Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう

 

 

今までの記事

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した【Part.1】

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した【Part.2】

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した(Janomeのインストール)【Part.3】

 

【AWS】【機械学習】Deep Learning AMI(Ubuntu)で【形態素解析】を試した(Janome&mecab-ipadic-neologd で解析)【Part.4】

 

 

Posted by 100%レンタルサーバーを使いこなすサイト管理人