微忘録

好奇心に記憶力がついていかない人のブログ

pandasでtimezoneを含むstringレコードをdatetimeに型変換する方法

pandasのto_datetime()関数はtimezoneフォーマットの%zに対応していなかったので、解決策を備忘録。 t.co github.com 解決策 今回はnginxログで23/Apr/2018:14:21:43 +0000 形式の文字列を例として用います。 解決方法は要は、datetime.strptime()関数で推論…

numpyオブジェクトをjson.dumpできるようにエンコーダーを拡張する方法

最近、友人の運営する大学講義の検索サイトを、機械学習で良い感じにしてます。 地味に悩んだのが「JSON形式でのデータ入出力」の部分。具体的には、「JSON形式で渡されたデータに、推定結果の一部numpyオブジェクトを加えたJSONデータを返す」作業。 Python…

GitHubのセキュリティ設定でやるべきこと

GitHub周りのセキュリティ設定、何回忘れたのかさえ忘れました。 公開鍵でSSH接続して、EmailをPrivateするだけの備忘録です。 ※厳密なセキュリティ設定は記述しないので、他の猛者の方々の記事を参考にして下さい。 アカウントと公開鍵の設定 鍵セットの作…

gensimのmodels.TfidfModel()で、引数にSMART notationが使えるようになっていた話

つい先日こんなツイートをしたところ、爆速で公式からリプライが来ました。 With new "SMART" feature, you are free to choice any kind of normalization. Look at latest release note - https://t.co/V6mMH0nvmZ— Gensim (@gensim_py) 2018年2月6日 「20…

MALLETラッパーを用いた、gensimでの"Gibbs sampler"によるトピック推定を試す

LSIやLDAなどのトピック分析をPythonで実行するなら、gensimモジュールの利用が一般的です。しかしgensimでは変分ベイズ法による推定しか基本的に対応しておらず、その他のギブスサンプリングなどを用いるには少し工夫が必要です。 そこで今回はgensimにある…

2015年度版NLP100本ノック第2章をPython3で解く

前回(2015年度版NLP100本ノック第1章をPython3で解く - 微忘録)の続き。 bashとPython3で。各コードの実行結果は、こちらのリポジトリにて公開しています。 第2章: UNIXコマンドの基礎 10. 行数のカウント 11. タブをスペースに置換 12. 1列目をcol1.txtに…

2015年度版NLP100本ノック第1章をPython3で解く

Djangoアプリへの導入などを考えて、Pythonでやり直したいと思い挑戦したので備忘録。 各コードの実行結果はこちらのリポジトリにて公開しています。 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02. 「パトカー」+「タクシー」=「パタト…

分類問題の評価指標をおさらいする

流行に敏感なのでインフルエンザB型に罹患しました。鼻奥の痛いあの検査の結果を待つ間に、「これ分類問題のやつだ!」と思い出し、評価指標をおさらいしたので備忘録。 分類問題の評価 評価指標 「正しさ」を評価する指標 「間違い」を評価する指標 適合率…

協調フィルタリングで将来レビュー値を予測する

いまコレ↓読んでます。卒論の参考図書です。 情報推薦システム入門 -理論と実践-作者: Dietmar Jannach,Markus Zanker,Alexander Felfernig,Gerhard Friedrich,田中克己,角谷和俊出版社/メーカー: 共立出版発売日: 2012/06/22メディア: 単行本購入: 1人 クリ…

集合からベイズの定理の公式までを復習

雰囲気でベイズ推定を扱うことから脱却したい。まずはベイズの定理の公式理解まで。 しかし数式だけで納得できる頭脳ではないので、具体例を添えて復習し直したので備忘録。 ※本記事の情報正確性については担保できないため。体系的な書籍を購入することをお…

R言語の並列処理パッケージ{parallel}について調べて使った

R

先日2017年度のJapan.Rに参加しました。 運営と参加者の皆様方に感謝しております。 当日の発表内容のなかで印象深かったのが、先日刊行された下記書籍の主筆Kun Renさんの『Boosting R Code Performance』です。 Rプログラミング本格入門: 達人データサイエ…

MySQLの導入からDB構築、クエリ実行までの基礎

はじめに TRUNKという会社が学生対象に提供しているMySQL基礎トレーニングに参加しました。 事前準備から講座内容と、気になって調べたところを備忘録。 本題 以下の内容を勉強した。 MySQLインストールと設定 MySQLサーバー起動とデータベース作成 データベ…

『Bluetooth』と『ANT』の通信規格について調べる

はじめに ここ最近『Zwift』という実走データと連動するサイクルトレーニングゲームにハマっています。超楽しい。 しかし、このゲームの初期設定の通信規格の選択で、一度挫折しました。センサーデータを取得するための通信設定として『Bluetooth』と『ANT』…

『第三者割当増資』など増資について調べる

ここ最近、ニュース記事などで頻繁に目にする『第三者割当増資』。成長ベンチャーから財務不振の大企業まで、幅広い企業が行っている増資手段です。 ただ増資手段の意味やメリットについて無知だったので、かるーく調べたついでに備忘録。 本題 要は『第三者…

Pyenv環境でのPythonバージョン設定

Pyenvでの環境構築でコマンドをド忘れしがちなので備忘録 解決策 最後に 解決策 現在のインストール済みバージョンを確認 『*』マーク付きがglobal環境で設定されている $ pyenv versions system * 3.5.0 (set by /usr/local/var/pyenv/version) 現ディレク…

R言語でデータフレームの特定行を除外する方法

発端 {RMeCab}パッケージによる形態素解析をした結果、無駄な行名が一部あった。 元の文章をgsub関数なりで先に綺麗にすれば良いが、「そういえば行名指定で取り除く方法って何だっけ」と思い調べたのでメモ。 方法 重複確認に便利な%in%演算子を用いて、指…

Homebrewインストールのlinkエラーを修正する方法

問題 PostgreSQLをbrew installした時に以下のようなエラーに遭遇した。 $ brew install postgresql Warning: postgresql 10.1 is already installed, it's just not linked. You can use `brew link postgresql` to link this version. どうやらリンクされ…

DataCampがR言語の初学者にとって素晴らしいサービスだった話

つい先日、DataCampにおける『R言語 中級編』である『Intermediate R』まで修了しました。 体系的に学べる環境が身近にない、初学者の自分にとって非常に良いサービスでしたので、宣伝と感想を下記。 DataCampについて 概要 講座の種類は? サービス料金は?…