「返品したい」と同じカテゴリのデータの例

24 Oct, 2025

「返品したい」「商品が入っていなかった」「商品が届かないんですけど...」みたいなお客さんのメッセージからカテゴリを分類するようにLLMをファインチューニングすることを考えてみるよぃ

機械学習でも、ファインチューニングでも、検証用のデータは学習に使うデータとは別に必要って言われるよぃ

なんでかっていうと同じデータを使うと「その文に合致した場合だけ」正解を返すように過学習しちゃうからなんだよぃ

検証用データは人工的に作るのかな？と思いきや、クレンジング済みの実データをこんな感じで分割することが多いみたぃ

軽く検索しただけだけど、日本語のデータセット見当たらないから、自分で作らないとかもだけど

これくらいバリエーションがあるといいみたぃだよぃ

カテゴリ	サンプル文	テストの狙い
🔹 ストレート表現	返品したいです	基本的な理解
🔹 カジュアル表現	返品ってできますか？	丁寧語・口語対応
🔹 遠回しな表現	商品が合わなかったので返したいです	“返品”という単語なしの理解
🔹 ネガティブトーン	不良品だったんで交換か返品してほしい	感情の強い表現の理解
🔹 混乱系	間違って2個注文しちゃったんですが、1つキャンセルしたい	“キャンセル”と“返品”の混同テスト
🔹 時間条件つき	届いてから一週間経ったんですが、まだ返品できますか？	条件文の理解
🔹 ショップ依存表現	サイズが合わなかったんで返送したい	「返送＝返品」と判断できるか？
🔹 英語混じり	returnしたいです…	外来語対応テスト
🔹 確認系	返品ポリシーってどこにありますか？	“返品”に関する質問もカバーできるか
🔹 誤字ノイズ	へんぴんしたいんですが	誤字耐性テスト

returnしたいです…ww

たしかに「返送＝返品」と判断できるか？とかは大事そう

GPTのアイディアマンな一面がまた見れましたぃ