微忘録

好奇心に記憶力がついていかない人のブログ

Python

numpyオブジェクトをjson.dumpできるようにエンコーダーを拡張する方法

最近、友人の運営する大学講義の検索サイトを、機械学習で良い感じにしてます。 地味に悩んだのが「JSON形式でのデータ入出力」の部分。具体的には、「JSON形式で渡されたデータに、推定結果の一部numpyオブジェクトを加えたJSONデータを返す」作業。 Python…

gensimのmodels.TfidfModel()で、引数にSMART notationが使えるようになっていた話

つい先日こんなツイートをしたところ、爆速で公式からリプライが来ました。 With new "SMART" feature, you are free to choice any kind of normalization. Look at latest release note - https://t.co/V6mMH0nvmZ— Gensim (@gensim_py) 2018年2月6日 「20…

MALLETラッパーを用いた、gensimでの"Gibbs sampler"によるトピック推定を試す

LSIやLDAなどのトピック分析をPythonで実行するなら、gensimモジュールの利用が一般的です。しかしgensimでは変分ベイズ法による推定しか基本的に対応しておらず、その他のギブスサンプリングなどを用いるには少し工夫が必要です。 そこで今回はgensimにある…

2015年度版NLP100本ノック第2章をPython3で解く

前回(2015年度版NLP100本ノック第1章をPython3で解く - 微忘録)の続き。 bashとPython3で。各コードの実行結果は、こちらのリポジトリにて公開しています。 第2章: UNIXコマンドの基礎 10. 行数のカウント 11. タブをスペースに置換 12. 1列目をcol1.txtに…

2015年度版NLP100本ノック第1章をPython3で解く

Djangoアプリへの導入などを考えて、Pythonでやり直したいと思い挑戦したので備忘録。 各コードの実行結果はこちらのリポジトリにて公開しています。 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02. 「パトカー」+「タクシー」=「パタト…

協調フィルタリングで将来レビュー値を予測する

いまコレ↓読んでます。卒論の参考図書です。 情報推薦システム入門 -理論と実践-作者: Dietmar Jannach,Markus Zanker,Alexander Felfernig,Gerhard Friedrich,田中克己,角谷和俊出版社/メーカー: 共立出版発売日: 2012/06/22メディア: 単行本購入: 1人 クリ…

Pyenv環境でのPythonバージョン設定

Pyenvでの環境構築でコマンドをド忘れしがちなので備忘録 解決策 最後に 解決策 現在のインストール済みバージョンを確認 『*』マーク付きがglobal環境で設定されている $ pyenv versions system * 3.5.0 (set by /usr/local/var/pyenv/version) 現ディレク…