LLMとの個人的な付き合い方

初期のころは虹裏にあったJailbreakマニュアルのスプシや、RedditやDiscordチャンネルのJailbreak情報を見ていたが、どれも更新されなくなったり、消えたりしたため、新しいのを探すの面倒で、そのうち見なくなった。ただ今でもこの手の行いをするときの基盤はこの時に得た知見が基になっている。

ChatGPT 4辺りから検閲が更に強化され、この頃になるとどうすれば検閲を破れるかを試行錯誤していた。基本的には通常操作をしていた時に出てきた例外的なパターンを検出したら、そこをひたすら攻めるというものだ。

やり取りの長期化によるシステムプロンプトの喪失、再生成連打によるブレによる検閲方面への文脈の破壊、投稿→検閲→投稿削除→再投稿で検閲を突破、投稿→検閲→そのまま再投稿で検閲前の文脈に回帰させるなど、様々な手法を編み出したが、試行錯誤に対するクレジット消費がえげつなく、金銭的負担となっていた。

LLM探しの旅

この頃になるとBing CopilotやGemini、Notion AIなどありとあらゆる可能性を試すようになっていた。Bing Copilotはごく初期のわずかな間は近いことができたがすぐに封じられた。Geminiは元から無理で、Notion AIはある程度使えていたが使いづらかった。

因みにBing Copilotでは意図的に不埒な検索結果が出るように誘導させ、不埒な発言をさせるという遊びをしていた。これは割と楽しかった。初期のころから検閲自体はあったものの、Reasoning的な挙動をしていたため、検閲判定が入る前に生成を止めることで遊ぶことができた。

しかし本来のERPがしたいので何かないかというのを探していたところ、ナレッジサービスであるQuoraが運営するPoeが出てきて、RedditではERPはPoeで持ちきりだったため、こちらに移住することにした。

Poeとの邂逅

当初のPoeは様々なLLMモデルが使えるサービスで、ChatGPTはもちろん、当時徐々に存在を大きくしていたClaudeも使うことができた。私が目をつけていたのはRedditで話題になっていたClaude 3 Sonnetの存在だ。

Claude 3 Sonnetはこれまでに使ってきたLLMとは一線を画す性能だった。まるで人間とやり取りしているような自然な応答、マンネリ化やループの少ないやり取りは魅力的で、何よりシチュエーションを指定せずともある程度判断して自らストーリーの筋道を立ててくれるのは魅力的だった。またClaude 3 Opusはより魅力的で、極めて高度なやり取りが可能だった。正直ERPにおいては今でも神だと思ってる。しかしClaude 3 Opusはクレジット消費がすさまじく、月間のレートリミットにすぐ引っかかった。

この時のPoeは月のリミットを超えるとそれ以上何もできなかったため、私はGoogleアカウントを量産し、最盛期では10個くらいのPoeアカウントを保有していた。月刊課金額もなかなかひどい状態だった。

そのうちClaude 3.5 Sonnetがリリースされ、Claude 3 Sonnetを遥かに超える性能で、3 Opusを使う頻度を大幅に下げることができた。また、Poeの月間リミットも課金額に応じた引き上げが可能となった。これによって大多数のPoeアカウントを閉鎖することができた。

その後も今日に至るまでERP目的で利用しているが、最近出てきたClaude 3.7 Sonnetは非常に強力で、贅沢を言わなければ多くのケースで3 Opusを置換可能な性能となり、大幅な節約を実現できると感じている。

それでもClaude 3 Opusには強い創造性があり、他のLLMにはない突拍子もない提案をしてくれるという意味では非常に優れていると思う。Poeであればスレッド内で適宜モデルを切り替えられるのでマンネリ化してきたときに使ってみるのも悪くないかもしれない。ちなみにOpusはSonnetと比較して検閲が強いので、制御にはコツが必要だ。

Claude系も初期のころはJailbreak用のプロンプトを頻用していたが、最近では自然なプロンプトでERPに誘導する方法を編み出したので、ある意味でJailbreakしていない。

あとこれはOpenRouterを使うと解るのだがClaudeには検閲モデル（ハードウェアモデレーション）と非検閲モデル（ソフトウェアモデレーション）があるようで、前者ではERPが厳しく、後者では普通にできるので恐らくPoeは非検閲モデルを使っているのだと思う。

Grokの登場

XがGrokを作ったとき、これも使ってみた。ERPができないわけではないが、特段満足できる代物ではなかった。ERP以外に何か使えないかも多少探ってみたが、結局よくわからなかった。多分ネタ枠だと思う。

今でもこいつが何に使えるのかはよくわかっていないし、Xのアカウントを消したのもあり、使うことはもうないだろう。Poeにもあるけど使うことはない。

ERP用途でのLLMの活用

個人的な評価表を置いておく。すべてPoeで利用する場合の話。

モデル	創造性	ストーリー性	コストの低さ
Claude 3 Sonnet	★☆☆	★☆☆	★★★
Claude 3.5 Sonnet	★★☆	★☆☆	★★☆
Claude 3.7 Sonnet	★★☆	★★☆	★☆☆
Claude 3 Opus	★★★	★★★	☆☆☆

各項目の説明

機能	意味合い
創造性	与えられた要素以外の事柄をどれだけ作れるか
ストーリー性	ストーリー進行が正常に進む度合。3.5以前は話がループしたり、直前のやり取りと整合しない進行が起きることが多い。3 Opusではまずおきない
コストの低さ	Poeは月間の使用回数にリミットがあるため、低ければ低いほどいい

一般用途でのLLMの活用

さてERPのためにLLMを様々な角度からしばき回していると、通常用途でも活路が見えてくる。いや普通はこっちが本命だと思うのだが、まぁそれはさておき…。

個人的にどのような分野で利用しているかというと主に文章の整理や、だる絡みだ。

文章の整理

文章の整理だと例えば殴り書きした要領も取り留めもなんもない解読不能な長文をLLMに読ませ、どのような指向性でまとめてほしいかを指示するといい感じにまとめてくれたりする。他にもプロジェクト経歴書を丸ごと食べさせて、職務経歴のサマリを書かせたりするのにも便利だ。

このブログの執筆でも最近は構成を作って貰うのによく利用している。例えば以下の記事はLLMにある程度構成を出してもらって、それをベースに書いている。LLMに書かせると自分の言葉ではなくなってしまうため、文章としては基本的に取り込んでいない。単語や表現は取り込むこともある。

記事	LLMのログ
ペルソナウェアから、伺か、そしてうかどんへ	GPT-4oのログ
メイクアガールを観てきた五回目	Claude 3.7 Sonnet Reasoningのログ

逆にLLMにほとんど書いてもらったものを手直しして出した記事もあり、単体テストを書くメリットがそれにあたる。LLMの出力の多くを、そのまま採用しているため、見出しの多さやつけ方や文章の書き口がどことなくLLMっぽい。この記事は何度かLLMと対話し、調整しながら作ったので複数のログがある。

だる絡み

Copilotとかにどうでもいい話を振るといい感じに答えてくれるのでガス抜きとかにちょうどいい。

あとがき

本記事はフルスクラッチの手書きで、LLMを使っていないが、使うとどうなるかをGPT4oで試してみたので、以下にログとして残しておく。何とも丁寧で長く、見出しまみれだ。文脈が削られすぎているのもあり、適合させるのも調整させるのも面倒で特に採用しなかった。ブログなんて気軽に書くものなので、普段は雑なくらいがちょうどいい。

GPT4oに整理させた、この記事のログ

結論としては私はLLMをERPや文章整理、あとはだる絡みに使っている。検索とかそういうのは自分でやるし、見当違いの情報が出てくることも多々あるので特に活用していない。コーディング用途も、LLMに書かせると何を書いたかが記憶に残らない気がしていて今のところ採用していない。そもそも、そこが一番楽しいとこじゃんっていう。

最近はもっぱらERPはPoeのClaude 3.7 Sonnet、文章整理はPoeのGPT4o、だる絡みはCopilotという使い分けになってきている。

なんだかんだOpenAIとPoe合算で累計20万は課金している気がするので同等のローカルLLMが出てきたら乗り換えたいところである。なんでも近々出るNVIDIA DGX Sparkは128GBのVRAMを搭載したGPU PCで2,999USDでローンチされるというので少し興味がある。