Skill.md検索

2258件の Skill.mdから、あなたに最適なものを見つけましょう

AIコードの品質を自動テスト。信頼できる開発を実現

by tenpei-peso

評価駆動開発の実装: 実装前に期待される動作を評価として定義し、開発中に継続的にテストを実行して品質を確保できます。能力評価とリグレッション評価の自動実行: Claudeが新しくできるようになったことをテストする一方、既存機能が壊れていないことを同時に確認できます。複数の評価方法を組み合わせ: コード内の決定論的チェック（Grep、ビルド確認）、AIによる自由形式評価、人間のレビューフラグを柔軟に組み合わせられます。 pass@kメトリクスで信頼度を数値化: 「k回の試行で成功」という形式で実装の安定性を定量的に測定できます。評価レポートを自動生成: 能力評価、リグレッション評価、メトリクスをまとめた詳細レポートで進捗を可視化できます。 Claude Codeを使ってAIに実装させる開発者・プロダクトマネージャーテスト駆動開発（TDD）の考え方を好む人 AI生成コードの品質が不安な人、安定性を重視する人変更ごとにリグレッション（機能低下）がないか追跡したい人 eval-harness は「評価駆動開発（EDD）」の原則を実装するフレームワークです。能力評価（チェックリスト形式で期待される動作を定義）とリグレッション評価（既存機能の動作確認）の2種類の評価タイプを提供します。評価方法は3種類：(1)コードベース評価者（Grep、テスト実行などの決定論的チェック）、(2)モデルベース評価者（Claudeが自由形式で出力を評価）、(3)人間評価者（手動レビュー）です。メトリクスとしてpass@k（k回試行で1回以上成功）およびpass^k（k回全て成功）を使用。ワークフローは4ステップ：定義（コード前に評価項目を記述）→実装（評価に合格するコードを作成）→評価実行→レポート生成。詳細なレポート形式とテンプレートが用意されています。

レビューテストセキュリティ

04302026-04-07