T
スキルを作成・改善し性能を測定する
by T3pp31
新しいスキルをゼロから設計・実装し、反復的に改善できます。ユーザーインタビュー→ドラフト作成→テストケース設計→実行・評価→改善を繰り返します。 既存スキルの修正・最適化、パフォーマンス測定・ベンチマークを実施し、定量的・定性的な評価に基づいてスキルを進化させます。 スキルの説明文(description)を自動最適化し、トリガー精度を向上させ、ユーザーが適切な場面でスキルを活用できるようにします。 専用スクリプトeval-viewer/generate_review.pyを使い、テスト結果を可視化・分析し、改善点を明確にします。 Claude向けの新しいスキルを設計・構築したい開発者やプロダクトマネージャー 既存スキルの品質向上・最適化に取り組みたい技術チーム スキルのトリガー精度を改善し、ユーザーに正しい場面で活用されるようにしたい人 定量的なベンチマーク・定性的なレビューに基づいた科学的なスキル開発を実践したい組織 新規スキル作成時は、ユーザーの意図把握(何をさせるか・いつトリガーするか・出力形式)→インタビュー・リサーチ→SKILL.mdドラフト作成という流れです。テストプロンプト作成前に、エッジケース・入出力形式・成功基準・依存関係を積極的にヒアリングします。MCPを活用し並列リサーチも可能。SKILL.mdに記載する項目はname・descriptionで、説明文には「いつ使うか」の具体的コンテキストを含め、トリガー損失に対抗します。テストケース作成→実行→定性/定量評価→フィードバック反映→再実装を繰り返し、満足度に達したらテストセット拡張。最後に説明文最適化スクリプトで精度向上。ユーザーのコンピュータ素養に応じてコミュニケーション表現を調整し、「評価」「ベンチマーク」は説明不要、「JSON」「アサーション」は必要に応じて定義を明記します。
レビューテストドキュメント