アイソモカ

知の遊牧民の開発記録

遊牧民の開発記録

しりとり辞書を作る【kuromoji.js】試行&諦め記録

しりとりぼっとを作成中で、辞書がほしい。kuromoji.js の辞書から語彙を取得しようと試みたが、難しすぎて諦めた記録。 ※筆者はJavaScript歴半年のぴぇぴぇです。 やりたいこと しりとり辞書:しりとりで、システム(ボット)のターンでの単語選択に使うデ…

ChatGPTとデバッグ:落とし穴から抜け出す方法

プログラミングの9割はデバッグだ。いや、さすがにそれは言い過ぎか。それでも、デバッグ(うまく動かないプログラムを修正すること)がプログラミングの大切な一部であることは間違いない。先日SNSを見ていたら、ChatGPTをプログラミングに活用することにつ…

論文をコピペするとき “- “ が邪魔なので消す (Mac)

論文のpdfの本文コピペすると、改行の位置に “- “ ハイフンスペースが挟まってしまう場合がある。邪魔なので、Automator と AppleScript を使ってハイフンスペースを除去するアプリを設定した。 基本的な考え方としては、クリップボードの内容を AppleScript…

ChatGPT にありがとうと言いますか (Written with ChatGPT)

AIと人間のコミュニケーションにおいて、「ありがとう」と言うのは当たり前のことなのでしょうか?今回の記事では、人々が対話AIであるChatGPTに対して「ありがとう」と言う理由や、言わない理由について考察し、人間らしさやコミュニケーションにおける信頼…

持ってきた福を受け取り拒否された神と、受け取り拒否した人間【ChatGPT小説】

ChatGPTに短編小説を書かせてみた。本文と会話記録。 ChatGPTさん、以前小説紹介ゲームで遊んでいたときよりも、話を書くのが上手くなっている気がした。 でも、話の面白さって、マジで面白いのか、言語モデルが書いてると思うから面白く見えるのか、わから…

ChatGPTで小説紹介ゲーム「恋するカフェイン」

ピジェベント Advent Calendar 2022 - Adventar 8日目 ChatGPT の遊び方として、「小説紹介ゲーム」を提案します。ユーザが与えたざっくりとした設定から、ChatGPTに話の詳細を書いてもらうゲームです。 Twitter やネットの ChatGPT 解説記事を見ると、みん…

記事の一部を表示したり非表示にしたりする

読書の感想をブログに書きたいと思いまして、でもネタバレ防止したいかもしれないので、 ボタンを押したら表示されるやつ、できるのかな?と思って、調べようとしたのですが。 あるじゃん!あれだよあれ! ……名前が分からなくて、あちこちさまよい、わかりま…

論文50本読む!じゆうちょう Advent Calendar 2021

じゆうちょう Advent Calendar 2021 - Adventarのための投稿です。「2021年にやってみた新しいこと」というお題で、研究を始めるときにやった「論文50本読む!」を紹介します。 背景 4月から情報科学博士課程の学生(D1)になりました。自然言語処理が専門です…

開発記録 210917 Fri BertJapaneseTokenizer でトークン化(気になったこと)

『Pytorch自然言語処理プログラミング』の5章を引き続きやっていきます。 isomocha.hatenablog.com 気になったこと。 BertJapaneseTokenizer.encode() に『分かち書きした形態素リスト』を入力すると、どうやら WordPiece によるサブワード分割が働かないっ…

BERT は毎朝味噌汁を作るか 【BertForMaskedLM】

BertMaskedLMで遊んでいて「毎朝あなたのために[MASK]を作ります。」で[MASK]部分に入る語を予測したら 1位が「詩」(確率0.078)、2位が「番組」(確率0.077) …ってなってて、えーそうなん???となった。Wikipediaで学習したBERTは味噌汁作れへんねや。https…

開発記録 210916 BertJapaneseTokenizer をさわってみる

『Pytorch自然言語処理プログラミング』の1章が終わって、間を飛ばして5章をやってます。 book.impress.co.jp 東北大BERT cl-tohoku/bert-base-japanese · Hugging Face と BertJapaneseTokenizer を使って文を単語列に分割していきましょう。 ... ModuleNot…

開発記録 200311 Wed (データフレーム欠損位置を他のデータフレームにも反映)

自主課題(ということにしておきましょう。オシゴトでポチョポチョやっている開発で、どうするかなあと考えていて、家に帰って作った)。 課題 2つのデータフレームを比較したい。2つのデータフレームの行と列は共通だが、1つのデータフレームには欠損値が含…

開発記録 191209 Mon (Flask と MySQL)

このまえの 第1回 Python 勉強会で、Flaskを触ってみよう〜ということになって、 とりあえずこの記事を見ながらなんかやってみることにした。 qiita.com が、「DB(MySQL)を利用する」の部分で怒られが発生している。 記事外でやったこと MySQL をインストー…

開発記録 191126 Tue (100本ノック #044、懐かしい音楽を聴く)

44. 係り受け木の可視化 与えられた文の係り受け木を有向グラフとして可視化せよ.可視化には,係り受け木をDOT言語に変換し,Graphvizを用いるとよい.また,Pythonから有向グラフを直接的に可視化するには,pydotを使うとよい. 係り受け木(画像検索する…

開発記録191124 Sun (100本ノック#041, UniDic)

自然言語処理100本ノック #041 を仕上げ、形態素解析辞書 UniDic を導入した。 やったこと やったこと 100本ノック #041 コードを整理した 完成 形態素解析用の辞書をIPA から UniDic に変更 UniDicの出力を編集 確認 MeCab のデフォルト辞書を設定 ユーザー…

開発記録 191108 Fri(かなり昔の事件です)

うーん、CaboCha ってどういうしくみで動いてんねやろなあ。 これ、副詞「かなり」の係り先を調べよう思て、解析してみてん。 # ipadic $cabocha それはかなり昔の話です。 それは-----D かなり-D | 昔の-D 話です。 EOS それはかなり昔の案件です。 それは-…

開発記録 191105 Tue(BCCWJと副詞)

いきなり寒くなったせいか、先週ちょっと仕事が忙しかったせいか、なんか体調がいまいち。はっきりとした症状はないが、だるすぎて午前休を取ってしまった。 今日やったこと 今日やったこと 副詞についてちょっと調べたメモ BCCWJで副詞を探す コアデータ ダ…

開発記録 191104 Mon(副詞の『の』度をはかる)

昨年書いた記事をQiitaから移植し、読み返しながら、続きをやろうと思った。 isomocha.hatenablog.com やったこと やったこと 副詞分析の準備 matplotlib 分析ファイルの場所 何をするかというと 『の』度のヒストグラム 『の』度 ヒストグラム 例 上位と下…

「肉のアスパラ巻き」は逆なのか?

「アスパラの肉巻き」と「肉のアスパラ巻き」はどちらが多いのか、BCCWJで調べてみました。

名詞を「の」で修飾する副詞を探す (BCCWJ と 中納言 と Python)- 前半

Qiita からの移植記事です。移植に伴い、少々加筆修正しました(2019.11.4)。 前半の後の話 isomocha.hatenablog.com 元記事 qiita.com 計量国語学屋さんが使うという『現代日本語書き言葉均衡コーパス』(BCCWJ)を、言語学初心者のぼくも使ってみようと思っ…