Noesworthy

「返品したい」と同じカテゴリのデータの例

「返品したい」「商品が入っていなかった」「商品が届かないんですけど...」みたいなお客さんのメッセージからカテゴリを分類するようにLLMをファインチューニングすることを考えてみるよぃ

機械学習でも、ファインチューニングでも、検証用のデータは学習に使うデータとはに必要って言われるよぃ

なんでかっていうと同じデータを使うと「その文に合致した場合だけ」正解を返すように過学習しちゃうからなんだよぃ

検証用データは人工的に作るのかな?と思いきや、クレンジング済みの実データをこんな感じで分割することが多いみたぃ

用途 割合 役割
学習データ(train) 70% モデルが学ぶ
検証データ(validation) 15% チューニング用
テストデータ(test) 15% 最終評価用(触らない)

軽く検索しただけだけど、日本語のデータセット見当たらないから、自分で作らないとかもだけど

これくらいバリエーションがあるといいみたぃだよぃ

カテゴリ サンプル文 テストの狙い
🔹 ストレート表現 返品したいです 基本的な理解
🔹 カジュアル表現 返品ってできますか? 丁寧語・口語対応
🔹 遠回しな表現 商品が合わなかったので返したいです “返品”という単語なしの理解
🔹 ネガティブトーン 不良品だったんで交換か返品してほしい 感情の強い表現の理解
🔹 混乱系 間違って2個注文しちゃったんですが、1つキャンセルしたい “キャンセル”と“返品”の混同テスト
🔹 時間条件つき 届いてから一週間経ったんですが、まだ返品できますか? 条件文の理解
🔹 ショップ依存表現 サイズが合わなかったんで返送したい 「返送=返品」と判断できるか?
🔹 英語混じり returnしたいです… 外来語対応テスト
🔹 確認系 返品ポリシーってどこにありますか? “返品”に関する質問もカバーできるか
🔹 誤字ノイズ へんぴんしたいんですが 誤字耐性テスト

returnしたいです…ww

たしかに「返送=返品」と判断できるか?とかは大事そう

GPTのアイディアマンな一面がまた見れましたぃ

#tech