西野カナ風な歌詞自動生成「カナかな?」をリリースしてみた。
お疲れ様です。高橋です。
昨日はずっと助詞に関する実装をしていたのですが、どうしてもうまくいきませんでした。最終的にはなんとか解決し、本物の歌詞に於ける単語出現率は完全シミュレート出来たのですが、日本語的にはまだまだおかしな所だらけです。
処理が上手く行かなかった箇所で、最初はHashMapという型のせいかと疑いましたが、全然そんな事はありませんでした。
変換用文字列をテキストファイルにUTF-8で格納しておいて、それを読み込んでゴニョゴニョしていたんですが、取り込んだ後の物をバイナリレベルで見ると、「い」という文字が「EF BB BF E3 81 84」と、6バイト消費している事がわかりました。
UTF-8は普通3byteなので、先頭にゴミが付いていたのです。
じゃあ、この「EF BB BF」ってなんぞ?と思ってググると、
バイト順マークの使用について
UTF-8で符号されたテキストデータはエンディアンに関わらず同じ内容になるので、バイト順マーク (BOM) は必要ない。しかし、テキストデータがUTF-8で符号化されていることの標識として、データの先頭にEF BB BF(16進。UCSでのバイト順マークU+FEFFのUTF-8での表現)を付加することが許される。一部のテキスト処理アプリケーション(エディタなど)がこのような動作をする(TeraPad、EmEditorエディタのように付加するかどうかを選択できるものもある)。
という事でした。
最初はHashMapのSynchronize系を疑っていたのですが、私が使っていたテキストエディタがゴミを先頭文字に付加していたようです。JAVA神(じゃばがみ)様、疑って大変申し訳ございませんでした。
という事で大きな問題を解決する事が出来たので、Twitter連携とLINE連携を10分で実装し、Google Playに公開しました。
Google Playへのアプリ公開の一連の手順を早く踏んでみたかったのもあります。
Google Playにアップロードする時に、様々なタイプの画像を準備しないといけないのですが、これがなかなかの量で、想定外の作業でした。アイコンや、検索時に表示される画像、バナー、スクリーンショットをスマホ版、タブレット版、などなど。非常に面倒だったので、こんな感じで漢らしく行きました。
リリース初週のダウンロード数は20程度行けばいいかな、と思っています。なんとなく20行けば良いレベルだと感じたからです。
Twitterを使った意図的な拡散は、もう少し日本語の精度を高めてから行おうと思います。
一番の問題は、アプリケーションの品質やアイコンや宣伝バナーのクリエイティブなんかより、実機で一度も試験していない、というか、実機を持っていない事なので、その問題に比べれば全て瑣末な事なのです。
明日はAndroidを持っている会社の人に人身御供になってもらいます。特にTwitterとLINEの自動連携部分が気になっています。
以上、よろしくお願い致します。
関連記事
-
-
リリースした事をスッカリ忘れていた2つのアプリの今について。
お疲れ様です。高橋です。 最近すっかりArduinoにハマってしまって、Andr …
-
-
街頭インタビュー リリースしてみた
お疲れ様です。高橋です。 リリース 街頭インタビューアプリをリリースしました。 …
-
-
遅刻の言い訳提案システム 第一週最終日
お疲れ様です。高橋です。 今週は稼働→分析→修正→稼働、という繰り返しを何度か実 …
-
-
総務省統計APIで引っ張ったデータをHoloGraphLibraryで可視化してみた
お疲れ様です。高橋です。 先日の「総務省の統計APIからデータを取得する」ではデ …
-
-
寝坊検知&遅刻の言い訳提案システム #2
お疲れ様です。高橋です。 昨日作った遅刻の言い訳提案システムですが、Tweetの …
-
-
「カナかな?」を実機デバッグし、ログ送出機能を追加してリリースしてみた。
お疲れ様です。高橋です。 デバッグしてみた 先日リリースした、西野カナ風の歌詞を …
-
-
遅刻の言い訳提案システム 稼働初日
お疲れ様です。高橋です。 先日まで微調整を重ねてきた「遅刻の言い訳提案システム」 …
-
-
URL付き言い訳提案システム 稼働初日
お疲れ様です。高橋です。 本日から、よりDL数を高める施策として、提案の中にUR …
-
-
総務省の統計APIからデータを取得する
お疲れ様です。高橋です。 androidアプリから総務省APIをコールしてみる …
-
-
androidアプリの作り方
お疲れ様です。高橋です。 androidアプリの作り方は、ググったところ大体下記 …



