Skill.md検索
2258件の Skill.mdから、あなたに最適なものを見つけましょう
新バージョン訓練ワークフローを完全自動実行
by kim-xps12
マルチフェーズ訓練プロセスを一括実行:準備→訓練→分析→報告を順次自動実行し、新バージョン作成の手作業を大幅削減します 前バージョンの成果を自動継承:前回レポートの「次バージョンへの提案」を自動読み込み、改善内容を引き継ぎます 訓練をバックグラウンド実行+リアルタイム監視:訓練スクリプトをバックグラウンドで起動し、tmux監視ペインで進捗をリアルタイム追跡できます Agent Teams で分析を並列化:Phase 3で複数エージェントが同時に異なるデータ解析を進め、訓練完了後の分析時間を短縮します 考察を強制的に挿入:データ収集→直接報告の邪道を禁止し、因果関係特定・報酬設計の体系整理・複数改善案の検討を必須化し、品質を担保します 機械学習/強化学習プロジェクト:訓練サイクルを高速化し、バージョン回転数を増やしたい研究チーム ロボット学習(Droid RL等)を実験するチーム:訓練の間に分析を並列実行し、待ち時間を有効活用したい場合 バージョン管理とレポート作成の手間を減らしたい:スケルトン自動生成+主レポート自動更新で、ドキュメント作業を簡素化 実験の再現性と追跡可能性を重視するチーム:各Phase のチェックリストと自動レポート生成で、実験の「いつ誰が何をした」が明確に記録される このスキルはバージョン V$ARGUMENTS を作成し、E2Eワークフローを実行します。Phase 1(準備):phase1-prepare.mdのチェックリストに従い、前バージョンレポート(exp008_report_v{N-1}.md)から次バージョンへの提案を抽出、トレーニングスクリプトをコピー(cp droid_train_narrow_v{N-1}.py → v{N}.py)、必要に応じて報酬関数を追加、lint・型チェック(AGENTS.mdルール参照)、レポートスケルトン作成(report-template.md準拠)、主レポートのバージョン一覧を更新。Phase 2(訓練):run_in_background: trueで訓練スクリプト実行(uv run python droid_train_narrow_v{N}.py --max_iterations 500)、tmux監視ペイン作成(tmux split-window -v で tail -f 出力ファイル)、訓練完了後は監視ペイン閉じて次へ。Phase 3(分析):phase3-analyze.mdに従いAgent Teams で並列データ収集、Step D(独立考察)は必須(省略禁止):(1)動作悪化メカニズムの因果関係特定、(2)報酬設計の体系整理(寄与度ランキング・削減候補)、(3)複数改善案設計(1変更1検証原則)、(4)推奨案決定。Phase 4(報告):結果サマリーとバージョン提案をユーザーに提示。
EXP008強化学習歩容実験のルール準拠
by kim-xps12
実験ルール・ドキュメント体系の参照:BSL-Droid Simplified V2二脚ロボット強化学習歩容獲得実験(exp008)に関連する作業時に、必須ドキュメントを自動参照・適用します。 バージョン管理と実験記録の確保:exp008_rules.mdに記載されたバージョン管理原則・実験記録ルールを確実に遵守できます。 報酬設計の正確な実装:報酬項目数・ペナルティ制約・報酬設計原則をexp008_reward_design.mdから確認し、適切な報酬関数を構築できます。 ワークフロー体系の把握:exp008実験の各フェーズ(新規バージョン作成、訓練、評価、考察)を効率的に進められます。 exp007知見の活用:先行実験(exp007)の教訓を確認し、改善案設計に反映できます。 ロボット強化学習研究者:exp008プロジェクトの実験規約を正確に遵守しながら進めたい 開発チーム:複数メンバーで実験を進める際に記録ルール・バージョン管理を統一したい 実験管理者:exp007の知見を踏まえてexp008を効率的に実施したい exp008(BSL-Droid Simplified V2二脚ロボット強化学習歩容獲得実験)関連作業時の必須ドキュメント参照スキル。droid_env_unitree.py、droid_train_narrow_v*.py、exp008報告書、狭いトルソモデルの強化学習訓練・評価作業時に自動適用。必読ドキュメント:常に最初にexp008_rules.mdを読む(バージョン管理・実験記録ルール)。ワークフロー確認時にexp008_workflow.md参照。コマンド実行時にexp008_commands.md参照。報酬設計変更・トラブルシューティング時にexp008_reward_design.md参照。訓練後考察・改善案設計時にexp007関連ドキュメント参照。全コマンドはcd rl_ws実行後に使用。