「返品したい」と同じカテゴリのデータの例
「返品したい」「商品が入っていなかった」「商品が届かないんですけど...」みたいなお客さんのメッセージからカテゴリを分類するようにLLMをファインチューニングすることを考えてみるよぃ
機械学習でも、ファインチューニングでも、検証用のデータは学習に使うデータとは別に必要って言われるよぃ
なんでかっていうと同じデータを使うと「その文に合致した場合だけ」正解を返すように過学習しちゃうからなんだよぃ
検証用データは人工的に作るのかな?と思いきや、クレンジング済みの実データをこんな感じで分割することが多いみたぃ
| 用途 | 割合 | 役割 |
|---|---|---|
| 学習データ(train) | 70% | モデルが学ぶ |
| 検証データ(validation) | 15% | チューニング用 |
| テストデータ(test) | 15% | 最終評価用(触らない) |
軽く検索しただけだけど、日本語のデータセット見当たらないから、自分で作らないとかもだけど
これくらいバリエーションがあるといいみたぃだよぃ
| カテゴリ | サンプル文 | テストの狙い |
|---|---|---|
| 🔹 ストレート表現 | 返品したいです | 基本的な理解 |
| 🔹 カジュアル表現 | 返品ってできますか? | 丁寧語・口語対応 |
| 🔹 遠回しな表現 | 商品が合わなかったので返したいです | “返品”という単語なしの理解 |
| 🔹 ネガティブトーン | 不良品だったんで交換か返品してほしい | 感情の強い表現の理解 |
| 🔹 混乱系 | 間違って2個注文しちゃったんですが、1つキャンセルしたい | “キャンセル”と“返品”の混同テスト |
| 🔹 時間条件つき | 届いてから一週間経ったんですが、まだ返品できますか? | 条件文の理解 |
| 🔹 ショップ依存表現 | サイズが合わなかったんで返送したい | 「返送=返品」と判断できるか? |
| 🔹 英語混じり | returnしたいです… | 外来語対応テスト |
| 🔹 確認系 | 返品ポリシーってどこにありますか? | “返品”に関する質問もカバーできるか |
| 🔹 誤字ノイズ | へんぴんしたいんですが | 誤字耐性テスト |
returnしたいです…ww
たしかに「返送=返品」と判断できるか?とかは大事そう
GPTのアイディアマンな一面がまた見れましたぃ