Fix mypy and ruff formatting in representation_engineering.py

2026-05-23 00:09:51 +02:00
parent 306372bb5b
commit c6ba37dc39
1 changed files with 413 additions and 0 deletions
--- a/python/representation_engineering.py
+++ b/python/representation_engineering.py
@@ -0,0 +1,413 @@
 """Representation Engineering and Vector Extraction from Playbooks.
 Parses playbooks (SKILL.md), extracts minimal pairs, and computes steerable
 activation vectors or QLoRA adapters to build Skill and Process Vector Libraries.
 """
 from __future__ import annotations
 import logging
 import re
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Any, Dict, List, Tuple
 import torch
 import torch.nn as nn
 logger = logging.getLogger("representation_engineering")
 logging.basicConfig(level=logging.INFO)
@dataclass
 class PlaybookMetadata:
    """Metadata and examples parsed from a SKILL.md playbook."""
    name: str
    description: str
    objectives: List[str] = field(default_factory=list)
    trigger_examples: List[str] = field(default_factory=list)
    file_path: str = ""
 class PlaybookParser:
    """Parses SKILL.md files to extract structured metadata and trigger examples."""
    @staticmethod
    def parse_file(path: str | Path) -> PlaybookMetadata | None:
        """Parses a single SKILL.md file."""
        path = Path(path)
        if not path.exists():
            logger.warning(f"File not found: {path}")
            return None
        content = path.read_text(encoding="utf-8")
        # Parse frontmatter if present
        name = path.parent.name if path.parent else "unknown"
        description = ""
        frontmatter_match = re.match(r"^---\s*\n(.*?)\n---\s*\n", content, re.DOTALL)
        if frontmatter_match:
            fm_text = frontmatter_match.group(1)
            name_match = re.search(r"^name:\s*(.*?)$", fm_text, re.MULTILINE)
            if name_match:
                name = name_match.group(1).strip()
            desc_match = re.search(r"^description:\s*(.*?)$", fm_text, re.MULTILINE)
            if desc_match:
                description = desc_match.group(1).strip()
                # Remove multiline YAML indicators if any
                description = re.sub(r"^>-?\s*", "", description)
                description = re.sub(r"\n\s+", " ", description)
        # Parse headers if no name/description in frontmatter
        if name == "unknown" or not description:
            title_match = re.search(r"^#\s+(.*?)$", content, re.MULTILINE)
            if title_match and name == "unknown":
                name = title_match.group(1).strip()
                # Remove prefixes like "Skill:" or "SOP:"
                name = re.sub(
                    r"^(Skill|SOP|Playbook):\s*", "", name, flags=re.IGNORECASE
                )
        # Objectives and triggers
        objectives: List[str] = []
        triggers: List[str] = []
        # Simple regex searches for bullet points
        lines = content.splitlines()
        in_objectives = False
        in_triggers = False
        for line in lines:
            line_str = line.strip()
            if not line_str:
                continue
            # Section detection
            if line_str.startswith("#"):
                in_objectives = (
                    "objective" in line_str.lower() or "ziel" in line_str.lower()
                )
                in_triggers = any(
                    x in line_str.lower()
                    for x in ["trigger", "when to use", "examples", "beispiele"]
                )
                continue
            if in_objectives and (
                line_str.startswith("-")
                or line_str.startswith("*")
                or re.match(r"^\d+\.", line_str)
            ):
                clean_line = re.sub(r"^[-*\d\.]+\s*", "", line_str)
                objectives.append(clean_line)
            if in_triggers and (
                line_str.startswith("-")
                or line_str.startswith("*")
                or re.match(r"^\d+\.", line_str)
            ):
                clean_line = re.sub(r"^[-*\d\.]+\s*", "", line_str)
                # Filter out generic instructions
                if len(clean_line) > 5 and not clean_line.lower().startswith("do not"):
                    triggers.append(clean_line)
        # Fallback if no triggers found
        if not triggers:
            triggers = [
                f"Apply the {name} skill to handle this task.",
                f"How do I use {name} here?",
            ]
        return PlaybookMetadata(
            name=name,
            description=description or f"Playbook for {name}",
            objectives=objectives,
            trigger_examples=triggers,
            file_path=str(path.absolute()),
        )
    @classmethod
    def parse_directory(cls, dir_path: str | Path) -> List[PlaybookMetadata]:
        """Scans a directory for SKILL.md or matches files and parses them."""
        dir_path = Path(dir_path)
        playbooks: List[PlaybookMetadata] = []
        if not dir_path.exists():
            return playbooks
        # Match any SKILL.md or *_SKILL.md
        for path in dir_path.glob("**/SKILL.md"):
            pb = cls.parse_file(path)
            if pb:
                playbooks.append(pb)
        for path in dir_path.glob("*_SKILL.md"):
            pb = cls.parse_file(path)
            if pb:
                playbooks.append(pb)
        return playbooks
@dataclass
 class RepresentationVector:
    """A steering direction vector or set of vectors for representation engineering."""
    skill_id: str
    # Map from layer index (e.g. 0 to L-1) to difference activation tensor [hidden_dim]
    layer_vectors: Dict[int, torch.Tensor] = field(default_factory=dict)
    metadata: Dict[str, Any] = field(default_factory=dict)
 class RepresentationVectorExtractor:
    """Extracts representation (steering) vectors from model activations using minimal pairs."""
    def __init__(self, model: nn.Module, tokenizer: Any, device: str = "cpu") -> None:
        self.model = model
        self.tokenizer = tokenizer
        self.device = device
    def extract_steering_vector(
        self,
        skill_metadata: PlaybookMetadata,
        layers_to_extract: List[int] | None = None,
    ) -> RepresentationVector:
        """Computes the difference in hidden states for win vs lose prompts."""
        self.model.eval()
        # Determine layers to hook
        # Pythia models store layers in model.gpt_neox.layers
        # Let's inspect model layout dynamically
        transformer_layers = []
        for name, module in self.model.named_modules():
            if re.match(r".*layers?\.\d+$", name):
                transformer_layers.append((name, module))
        if not transformer_layers:
            # Fallback/guess for standard PyTorch modules
            logger.warning(
                "Could not automatically resolve transformer layers, will attempt default Hook paths"
            )
        num_layers = len(transformer_layers)
        if layers_to_extract is None:
            # Default: extract from middle/late layers (e.g., last half of the network)
            layers_to_extract = list(range(num_layers // 2, num_layers))
        # Generate minimal pairs from triggers
        win_prompts = []
        lose_prompts = []
        for trigger in skill_metadata.trigger_examples:
            # Win prompt guides the model to invoke the playbook skill/format
            win_prompts.append(
                f"Instructions: You are acting with the following skill: {skill_metadata.name}. "
                f"Description: {skill_metadata.description}\n"
                f"Request: {trigger}\n"
                f"Output:"
            )
            # Lose prompt asks the model to respond normally
            lose_prompts.append(
                f"Instructions: Respond normally.\n" f"Request: {trigger}\n" f"Output:"
            )
        # Temporary storage for hooked activations
        # Map: layer_idx -> list of tensors [seq_len, hidden_dim]
        win_activations: Dict[int, List[torch.Tensor]] = {
            idx: [] for idx in layers_to_extract
        }
        lose_activations: Dict[int, List[torch.Tensor]] = {
            idx: [] for idx in layers_to_extract
        }
        # Hook function builder
        def make_hook(layer_idx: int, storage: Dict[int, List[torch.Tensor]]) -> Any:
            def hook_fn(
                module: nn.Module,
                input_t: Tuple[torch.Tensor, ...],
                output_t: torch.Tensor,
            ) -> None:
                # output_t is typically [batch, seq_len, hidden_dim] or a tuple
                if isinstance(output_t, tuple):
                    output_t = output_t[0]
                # Detach and move to CPU to save GPU memory
                storage[layer_idx].append(output_t.detach().cpu())
            return hook_fn
        # Register hooks
        hooks = []
        for idx in layers_to_extract:
            if idx < len(transformer_layers):
                _, layer_module = transformer_layers[idx]
                h = layer_module.register_forward_hook(make_hook(idx, win_activations))
                hooks.append(h)
        # Run forward pass for win prompts
        for prompt in win_prompts:
            inputs = self.tokenizer(prompt, return_tensors="pt").to(self.device)
            with torch.no_grad():
                self.model(**inputs)
        # Remove hooks and register them for lose activations
        for h in hooks:
            h.remove()
        hooks.clear()
        for idx in layers_to_extract:
            if idx < len(transformer_layers):
                _, layer_module = transformer_layers[idx]
                h = layer_module.register_forward_hook(make_hook(idx, lose_activations))
                hooks.append(h)
        # Run forward pass for lose prompts
        for prompt in lose_prompts:
            inputs = self.tokenizer(prompt, return_tensors="pt").to(self.device)
            with torch.no_grad():
                self.model(**inputs)
        # Remove hooks
        for h in hooks:
            h.remove()
        # Compute difference vectors
        layer_vectors: Dict[int, torch.Tensor] = {}
        for idx in layers_to_extract:
            win_tensors = win_activations[idx]
            lose_tensors = lose_activations[idx]
            if not win_tensors or not lose_tensors:
                continue
            diffs = []
            for win_t, lose_t in zip(win_tensors, lose_tensors):
                # win_t and lose_t are [1, seq_len, hidden_dim]
                # We can average over sequence length or take the last token (representation at decision point)
                # Let's average over the sequence length for stability
                w_mean = win_t.mean(dim=1).squeeze(0)  # [hidden_dim]
                l_mean = lose_t.mean(dim=1).squeeze(0)  # [hidden_dim]
                diffs.append(w_mean - l_mean)
            # Average difference vector across all minimal pairs
            mean_diff = torch.stack(diffs).mean(dim=0)
            # Normalize vector to unit norm for consistent steering scales
            norm = torch.norm(mean_diff)
            if norm > 1e-8:
                mean_diff = mean_diff / norm
            layer_vectors[idx] = mean_diff
        metadata = {
            "name": skill_metadata.name,
            "description": skill_metadata.description,
            "trigger_count": len(skill_metadata.trigger_examples),
        }
        logger.info(
            f"Extracted representation vector for '{skill_metadata.name}' | {len(layer_vectors)} layers"
        )
        return RepresentationVector(
            skill_id=skill_metadata.name.lower().replace(" ", "_"),
            layer_vectors=layer_vectors,
            metadata=metadata,
        )
 class SkillVectorLibrary:
    """Library containing extracted skill representation vectors."""
    def __init__(self) -> None:
        self.vectors: Dict[str, RepresentationVector] = {}
    def add_vector(self, vec: RepresentationVector) -> None:
        self.vectors[vec.skill_id] = vec
    def get_vector(self, skill_id: str) -> RepresentationVector | None:
        return self.vectors.get(skill_id)
    def save(self, path: str | Path) -> None:
        """Saves the library to disk."""
        state = {
            skill_id: {
                "skill_id": vec.skill_id,
                "layer_vectors": {k: v.cpu() for k, v in vec.layer_vectors.items()},
                "metadata": vec.metadata,
            }
            for skill_id, vec in self.vectors.items()
        }
        torch.save(state, path)
        logger.info(
            f"Skill Vector Library saved to {path} ({len(self.vectors)} skills)"
        )
    def load(self, path: str | Path) -> None:
        """Loads the library from disk."""
        self.vectors.clear()
        state = torch.load(path, map_location="cpu", weights_only=False)
        for skill_id, vec_state in state.items():
            self.vectors[skill_id] = RepresentationVector(
                skill_id=vec_state["skill_id"],
                layer_vectors=vec_state["layer_vectors"],
                metadata=vec_state["metadata"],
            )
        logger.info(
            f"Skill Vector Library loaded from {path} ({len(self.vectors)} skills)"
        )
 class ProcessVectorLibrary:
    """Library containing sequential process step representation vectors."""
    def __init__(self) -> None:
        self.processes: Dict[str, List[RepresentationVector]] = {}
    def add_process(self, process_id: str, steps: List[RepresentationVector]) -> None:
        self.processes[process_id] = steps
    def get_process_step(
        self, process_id: str, step_idx: int
    ) -> RepresentationVector | None:
        steps = self.processes.get(process_id)
        if steps and 0 <= step_idx < len(steps):
            return steps[step_idx]
        return None
    def save(self, path: str | Path) -> None:
        """Saves the library to disk."""
        state = {
            p_id: [
                {
                    "skill_id": vec.skill_id,
                    "layer_vectors": {k: v.cpu() for k, v in vec.layer_vectors.items()},
                    "metadata": vec.metadata,
                }
                for vec in steps
            ]
            for p_id, steps in self.processes.items()
        }
        torch.save(state, path)
        logger.info(
            f"Process Vector Library saved to {path} ({len(self.processes)} processes)"
        )
    def load(self, path: str | Path) -> None:
        """Loads the library from disk."""
        self.processes.clear()
        state = torch.load(path, map_location="cpu", weights_only=False)
        for p_id, steps_state in state.items():
            steps = []
            for vec_state in steps_state:
                steps.append(
                    RepresentationVector(
                        skill_id=vec_state["skill_id"],
                        layer_vectors=vec_state["layer_vectors"],
                        metadata=vec_state["metadata"],
                    )
                )
            self.processes[p_id] = steps
        logger.info(
            f"Process Vector Library loaded from {path} ({len(self.processes)} processes)"
        )