読者です 読者をやめる 読者になる 読者になる

バイアスと戯れる

Rと言語処理と(Rによる言語処理100本ノック終了)

広がる宇宙の話

概要

 この記事はR Advent Calendar 2016の14日目の記事です。Rで言語処理する話ばかりしているので、今年は宇宙の話をします。
 急速に広がる宇宙。R界の「宇宙」といえば、tidyverseですね。ということで、CRAN巡りまたはRパッケージ探しが趣味である自分がtidyverseの流れを受けたと「勝手に」考えたライブラリをご紹介します。また、参考ページも併記するので、コードや詳細についてはそちらをご参照ください。
 なお、そもそもtidyverseが何かわからないという方はまず下記のサイトを一読ください。

続きを読む

Japan.R 2015にてLT発表しました

概要

 記事を書くのが遅くなりましたが、12月5日に開催されたJapan.RのLTセッションにて、『Rと形態素解析』というタイトルで形態素解析の説明と、Rで形態素解析ならびにわかち書きする方法を紹介しました。総ページ数80オーバーでしたが、なんとか無事に終えることができました。運営の方々、参加者の皆さん、お疲れさまでした。
 今回は参照しやすいように資料内に書いたRコードを、ブログに記述しました。

続きを読む

"An R package for creating and exploring word2vec and other vector models"を試す(+ GloVeと比較)

前書き

 Rでword2vecが適用できるという{wordVectors}がGitHub上に公開されたので、早速試してみました(+「言語処理100本ノックの課題でGloVeによる結果と比較」)。
 オリジナルのword2vecのC実装を.C()でラップした{tmcn.word2vec}を修正したもので、モデル構築のパラメータを変更できる点や、類似度や似た単語を抽出する関数群が定義されております。
 下記がそのパッケージのGitHubリンクです。

続きを読む

Rによる言語処理100本ノック後半まとめと全体での総括

はじめに

 Rによる言語処理100本ノック(2015版)を最後まで終えることができたので、後半のまとめ記事と全体総括を書きました。Rの実行結果は下記のRPubsにアップロード済みですので、ご確認ください。


 RmdファイルはGitHubにあります(READMEも修正)。
github.com

続きを読む

第51回R勉強会@東京(TokyoR)にてLT発表しました

概要

 10月10日に開催されたTokyoRのLTセッションにて、『Rでいろんな言語』というタイトルでRからPythonを呼ぶパッケージ{PythonInR}を紹介しました。発表の途中でスクリーンが砂嵐になるというトラブルに見舞われましたが、なんとか無事に時間内に収めることができました。
 また、公開したスライドに未掲載だった{PythonInR}を使ってChainerを呼び出したコードを手直ししたので、メモ書きとして残しておきます。

続きを読む

第4回「NLP勉強会」を開催しました #NLPStudy

はじめに

 去る9月23日(水)に株式会社ドワンゴ歌舞伎座タワー本社にて、第4回言語処理勉強会(ハッシュタグ「#NLPStudy」)を開催しました。
 会場提供ならびにご案内をしていただいたドワンゴ様、まことにありがとうございます。
 また、発表者の皆様、ボランティア参加の方々、そして参加者の方々、シルバーウィーク最終日というゆっくりと休みたい日にお集まりいただきましてありがとうございました。

 tokyoscrapper.connpass.com

続きを読む

"ranger: A Fast Implementation of Random Forests"のメモ書き

前書き

 とあるRのお悩み相談室*1にて、激しい圧力を受けたRandom Forestの新しいパッケージ{ranger}の「行数よりも列数の方が大きい疎なデータ」への適用に関して、とてもざっくりとした申し訳ない程度のメモを書きました。
 パッケージ自体は下記リンクをご参照ください。

続きを読む