T
AIコードの品質を自動テスト。信頼できる開発を実現
by tenpei-peso
評価駆動開発の実装: 実装前に期待される動作を評価として定義し、開発中に継続的にテストを実行して品質を確保できます。 能力評価とリグレッション評価の自動実行: Claudeが新しくできるようになったことをテストする一方、既存機能が壊れていないことを同時に確認できます。 複数の評価方法を組み合わせ: コード内の決定論的チェック(Grep、ビルド確認)、AIによる自由形式評価、人間のレビューフラグを柔軟に組み合わせられます。 pass@kメトリクスで信頼度を数値化: 「k回の試行で成功」という形式で実装の安定性を定量的に測定できます。 評価レポートを自動生成: 能力評価、リグレッション評価、メトリクスをまとめた詳細レポートで進捗を可視化できます。 Claude Codeを使ってAIに実装させる開発者・プロダクトマネージャー テスト駆動開発(TDD)の考え方を好む人 AI生成コードの品質が不安な人、安定性を重視する人 変更ごとにリグレッション(機能低下)がないか追跡したい人 eval-harness は「評価駆動開発(EDD)」の原則を実装するフレームワークです。能力評価(チェックリスト形式で期待される動作を定義)とリグレッション評価(既存機能の動作確認)の2種類の評価タイプを提供します。評価方法は3種類:(1)コードベース評価者(Grep、テスト実行などの決定論的チェック)、(2)モデルベース評価者(Claudeが自由形式で出力を評価)、(3)人間評価者(手動レビュー)です。メトリクスとしてpass@k(k回試行で1回以上成功)およびpass^k(k回全て成功)を使用。ワークフローは4ステップ:定義(コード前に評価項目を記述)→実装(評価に合格するコードを作成)→評価実行→レポート生成。詳細なレポート形式とテンプレートが用意されています。
レビューテストセキュリティ