new observation properties for testing of technical limitations

2021-11-05 15:59:19 +01:00
parent b5c6105b7b
commit d69cf75c15
9 changed files with 424 additions and 263 deletions
--- a/environments/factory/base/base_factory.py
+++ b/environments/factory/base/base_factory.py
@@ -16,7 +16,8 @@ from environments.helpers import Constants as c, Constants
 from environments import helpers as h
 from environments.factory.base.objects import Agent, Tile, Action
 from environments.factory.base.registers import Actions, Entities, Agents, Doors, FloorTiles, WallTiles, PlaceHolders
-from environments.utility_classes import MovementProperties
+from environments.utility_classes import MovementProperties, ObservationProperties
+from environments.utility_classes import AgentRenderOptions as a_obs

 import simplejson

@@ -33,7 +34,7 @@ class BaseFactory(gym.Env):

    @property
    def observation_space(self):
-        if r := self.pomdp_r:
+        if r := self._pomdp_r:
            z = self._obs_cube.shape[0]
            xy = r*2 + 1
            level_shape = (z, xy, xy)
@@ -44,24 +45,32 @@ class BaseFactory(gym.Env):

    @property
    def pomdp_diameter(self):
-        return self.pomdp_r * 2 + 1
+        return self._pomdp_r * 2 + 1

    @property
    def movement_actions(self):
        return self._actions.movement_actions

    def __enter__(self):
-        return self if self.frames_to_stack == 0 else FrameStack(self, self.frames_to_stack)
+        return self if self.obs_prop.frames_to_stack == 0 else \
+            FrameStack(self, self.obs_prop.frames_to_stack)

    def __exit__(self, exc_type, exc_val, exc_tb):
        self.close()

-    def __init__(self, level_name='simple', n_agents=1, max_steps=int(5e2), pomdp_r: Union[None, int] = 0,
-                 movement_properties: MovementProperties = MovementProperties(), parse_doors=False,
-                 combin_agent_obs: bool = False, frames_to_stack=0, record_episodes=False,
-                 omit_agent_in_obs=False, done_at_collision=False, cast_shadows=True, additional_agent_placeholder=None,
+    def __init__(self, level_name='simple', n_agents=1, max_steps=int(5e2),
+                 mv_prop: MovementProperties = MovementProperties(),
+                 obs_prop: ObservationProperties = ObservationProperties(),
+                 parse_doors=False, record_episodes=False, done_at_collision=False,
                 verbose=False, doors_have_area=True, env_seed=time.time_ns(), **kwargs):
-        assert frames_to_stack != 1 and frames_to_stack >= 0, "'frames_to_stack' cannot be negative or 1."
+
+        if isinstance(mv_prop, dict):
+            mv_prop = MovementProperties(**mv_prop)
+        if isinstance(obs_prop, dict):
+            obs_prop = ObservationProperties(**obs_prop)
+
+        assert obs_prop.frames_to_stack != 1 and \
+               obs_prop.frames_to_stack >= 0, "'frames_to_stack' cannot be negative or 1."
        if kwargs:
            print(f'Following kwargs were passed, but ignored: {kwargs}')

@@ -69,24 +78,18 @@ class BaseFactory(gym.Env):
        self.env_seed = env_seed
        self.seed(env_seed)
        self._base_rng = np.random.default_rng(self.env_seed)
-        if isinstance(movement_properties, dict):
-            movement_properties = MovementProperties(**movement_properties)
-        self.movement_properties = movement_properties
+        self.mv_prop = mv_prop
+        self.obs_prop = obs_prop
        self.level_name = level_name
        self._level_shape = None
        self.verbose = verbose
-        self.additional_agent_placeholder = additional_agent_placeholder
        self._renderer = None  # expensive - don't use it when not required !
        self._entities = Entities()

        self.n_agents = n_agents

        self.max_steps = max_steps
-        self.pomdp_r = pomdp_r
-        self.combin_agent_obs = combin_agent_obs
-        self.omit_agent_in_obs = omit_agent_in_obs
-        self.cast_shadows = cast_shadows
-        self.frames_to_stack = frames_to_stack
+        self._pomdp_r = self.obs_prop.pomdp_r

        self.done_at_collision = done_at_collision
        self.record_episodes = record_episodes
@@ -130,24 +133,32 @@ class BaseFactory(gym.Env):
            parsed_doors = h.one_hot_level(parsed_level, c.DOOR)
            if np.any(parsed_doors):
                door_tiles = [floor.by_pos(pos) for pos in np.argwhere(parsed_doors == c.OCCUPIED_CELL.value)]
-                doors = Doors.from_tiles(door_tiles, self._level_shape, context=floor)
+                doors = Doors.from_tiles(door_tiles, self._level_shape,
+                                         entity_kwargs=dict(context=floor)
+                                         )
                entities.update({c.DOORS: doors})

        # Actions
-        self._actions = Actions(self.movement_properties, can_use_doors=self.parse_doors)
+        self._actions = Actions(self.mv_prop, can_use_doors=self.parse_doors)
        if additional_actions := self.additional_actions:
            self._actions.register_additional_items(additional_actions)

        # Agents
        agents = Agents.from_tiles(floor.empty_tiles[:self.n_agents], self._level_shape,
-                                   individual_slices=not self.combin_agent_obs)
+                                   individual_slices=self.obs_prop.render_agents == a_obs.SEPERATE,
+                                   hide_from_obs_builder=self.obs_prop.render_agents == a_obs.LEVEL,
+                                   is_observable=self.obs_prop.render_agents != a_obs.NOT
+                                   )
        entities.update({c.AGENT: agents})

-        if self.additional_agent_placeholder is not None:
+        if self.obs_prop.additional_agent_placeholder is not None:
+            # TODO: Make this accept Lists for multiple placeholders

            # Empty Observations with either [0, 1, N(0, 1)]
            placeholder = PlaceHolders.from_tiles([self._NO_POS_TILE], self._level_shape,
-                                                  fill_value=self.additional_agent_placeholder)
+                                                  entity_kwargs=dict(
+                                                      fill_value=self.obs_prop.additional_agent_placeholder)
+                                                  )

            entities.update({c.AGENT_PLACEHOLDER: placeholder})

@@ -163,24 +174,11 @@ class BaseFactory(gym.Env):
        return self._entities

    def _init_obs_cube(self):
-        arrays = self._entities.observable_arrays
+        arrays = self._entities.obs_arrays

-        # FIXME: Move logic to Register
-        if self.omit_agent_in_obs and self.n_agents == 1:
-            del arrays[c.AGENT]
-        # This does not seem to be necesarry, because this case is allready handled by the Agent Register Class
-        # elif self.omit_agent_in_obs:
-        #    arrays[c.AGENT] = np.delete(arrays[c.AGENT], 0, axis=0)
        obs_cube_z = sum([a.shape[0] if not self[key].is_per_agent else 1 for key, a in arrays.items()])
        self._obs_cube = np.zeros((obs_cube_z, *self._level_shape), dtype=np.float32)

-        # Optionally Pad this obs cube for pomdp cases
-        if r := self.pomdp_r:
-            x, y = self._level_shape
-            # was c.SHADOW
-            self._padded_obs_cube = np.full((obs_cube_z, x + r*2, y + r*2), c.SHADOWED_CELL.value, dtype=np.float32)
-            self._padded_obs_cube[:, r:r+x, r:r+y] = self._obs_cube
-
    def reset(self) -> (np.ndarray, int, bool, dict):
        _ = self._base_init_env()
        self._init_obs_cube()
@@ -198,7 +196,6 @@ class BaseFactory(gym.Env):

        assert isinstance(actions, Iterable), f'"actions" has to be in [{int, list}]'
        self._steps += 1
-        done = False

        # Pre step Hook for later use
        self.hook_pre_step()
@@ -285,17 +282,22 @@ class BaseFactory(gym.Env):
    def _build_per_agent_obs(self, agent: Agent, state_array_dict) -> np.ndarray:
        agent_pos_is_omitted = False
        agent_omit_idx = None
-        if self.omit_agent_in_obs and self.n_agents == 1:
+
+        if self.obs_prop.omit_agent_self and self.n_agents == 1:
            # There is only a single agent and we want to omit the agent obs, so just remove the array.
-            del state_array_dict[c.AGENT]
-        elif self.omit_agent_in_obs and self.combin_agent_obs and self.n_agents > 1:
+            # del state_array_dict[c.AGENT]
+            # Not Needed any more,
+            pass
+        elif self.obs_prop.omit_agent_self and self.obs_prop.render_agents in [a_obs.COMBINED, ] and self.n_agents > 1:
            state_array_dict[c.AGENT][0, agent.x, agent.y] -= agent.encoding
            agent_pos_is_omitted = True
-        elif self.omit_agent_in_obs and not self.combin_agent_obs and self.n_agents > 1:
+        elif self.obs_prop.omit_agent_self and self.obs_prop.render_agents == a_obs.SEPERATE and self.n_agents > 1:
            agent_omit_idx = next((i for i, a in enumerate(self[c.AGENT]) if a == agent))

        running_idx, shadowing_idxs, can_be_shadowed_idxs = 0, [], []
+        self._obs_cube[:] = 0

+        # FIXME: Refactor this! Make a globally build observation, then add individual per-agent-obs
        for key, array in state_array_dict.items():
            # Flush state array object representation to obs cube
            if not self[key].hide_from_obs_builder:
@@ -309,12 +311,15 @@ class BaseFactory(gym.Env):
                        for array_idx in range(array.shape[0]):
                            self._obs_cube[running_idx: running_idx+z] = array[[x for x in range(array.shape[0])
                                                                                if x != agent_omit_idx]]
-                    elif key == c.AGENT and self.omit_agent_in_obs and self.combin_agent_obs:
+                    # Agent OBS are combined
+                    elif key == c.AGENT and self.obs_prop.omit_agent_self \
+                            and self.obs_prop.render_agents == a_obs.COMBINED:
                        z = 1
                        self._obs_cube[running_idx: running_idx + z] = array
+                    # Each Agent is rendered on a seperate array slice
                    else:
                        z = array.shape[0]
-                        self._obs_cube[running_idx: running_idx+z] = array
+                        self._obs_cube[running_idx: running_idx + z] = array
                # Define which OBS SLices cast a Shadow
                if self[key].is_blocking_light:
                    for i in range(z):
@@ -328,19 +333,14 @@ class BaseFactory(gym.Env):
        if agent_pos_is_omitted:
            state_array_dict[c.AGENT][0, agent.x, agent.y] += agent.encoding

-        if r := self.pomdp_r:
-            self._padded_obs_cube[:] = c.SHADOWED_CELL.value   # Was c.SHADOW
-            # self._padded_obs_cube[0] = c.OCCUPIED_CELL.value
-            x, y = self._level_shape
-            self._padded_obs_cube[:, r:r + x, r:r + y] = self._obs_cube
-            global_x, global_y = map(sum, zip(agent.pos, (r, r)))
-            x0, x1 = max(0, global_x - self.pomdp_r), global_x + self.pomdp_r + 1
-            y0, y1 = max(0, global_y - self.pomdp_r), global_y + self.pomdp_r + 1
-            obs = self._padded_obs_cube[:, x0:x1, y0:y1]
+        if self._pomdp_r:
+            obs = self._do_pomdp_obs_cutout(agent, self._obs_cube)
        else:
            obs = self._obs_cube

-        if self.cast_shadows:
+        obs = obs.copy()
+
+        if self.obs_prop.cast_shadows:
            obs_block_light = [obs[idx] != c.OCCUPIED_CELL.value for idx in shadowing_idxs]
            door_shadowing = False
            if self.parse_doors:
@@ -350,8 +350,8 @@ class BaseFactory(gym.Env):
                            for group in door.connectivity_subgroups:
                                if agent.last_pos not in group:
                                    door_shadowing = True
-                                    if self.pomdp_r:
-                                        blocking = [tuple(np.subtract(x, agent.pos) + (self.pomdp_r, self.pomdp_r))
+                                    if self._pomdp_r:
+                                        blocking = [tuple(np.subtract(x, agent.pos) + (self._pomdp_r, self._pomdp_r))
                                                    for x in group]
                                        xs, ys = zip(*blocking)
                                    else:
@@ -361,8 +361,8 @@ class BaseFactory(gym.Env):
                                    obs_block_light[0][xs, ys] = False

            light_block_map = Map((np.prod(obs_block_light, axis=0) != True).astype(int))
-            if self.pomdp_r:
-                light_block_map = light_block_map.do_fov(self.pomdp_r, self.pomdp_r, max(self._level_shape))
+            if self._pomdp_r:
+                light_block_map = light_block_map.do_fov(self._pomdp_r, self._pomdp_r, max(self._level_shape))
            else:
                light_block_map = light_block_map.do_fov(*agent.pos, max(self._level_shape))
            if door_shadowing:
@@ -374,6 +374,20 @@ class BaseFactory(gym.Env):
        else:
            pass

+        # Agents observe other agents as wall
+        if self.obs_prop.render_agents == a_obs.LEVEL and self.n_agents > 1:
+            other_agent_obs = self[c.AGENT].as_array()
+            if self.obs_prop.omit_agent_self:
+                other_agent_obs[:, agent.x, agent.y] -= agent.encoding
+
+            if self.obs_prop.pomdp_r:
+                oobs = self._do_pomdp_obs_cutout(agent, other_agent_obs)[0]
+                mask = (oobs != c.SHADOWED_CELL.value).astype(int)
+                obs[0] += oobs * mask
+
+            else:
+                obs[0] += other_agent_obs
+
        # Additional Observation:
        for additional_obs in self.additional_obs_build():
            obs[running_idx:running_idx+additional_obs.shape[0]] = additional_obs
@@ -384,6 +398,37 @@ class BaseFactory(gym.Env):

        return obs

+    def _do_pomdp_obs_cutout(self, agent, obs_to_be_padded):
+        assert obs_to_be_padded.ndim == 3
+        r, d = self._pomdp_r, self.pomdp_diameter
+        x0, x1 = max(0, agent.x - r), min(agent.x + r + 1, self._level_shape[0])
+        y0, y1 = max(0, agent.y - r), min(agent.y + r + 1, self._level_shape[1])
+        # Other Agent Obs = oobs
+        oobs = obs_to_be_padded[:, x0:x1, y0:y1]
+        if oobs.shape[0:] != (d,) * 2:
+            if xd := oobs.shape[1] % d:
+                if agent.x > r:
+                    x0_pad = 0
+                    x1_pad = (d - xd)
+                else:
+                    x0_pad = r - agent.x
+                    x1_pad = 0
+            else:
+                x0_pad, x1_pad = 0, 0
+
+            if yd := oobs.shape[2] % d:
+                if agent.y > r:
+                    y0_pad = 0
+                    y1_pad = (d - yd)
+                else:
+                    y0_pad = r - agent.y
+                    y1_pad = 0
+            else:
+                y0_pad, y1_pad = 0, 0
+
+            oobs = np.pad(oobs, ((0, 0), (x0_pad, x1_pad), (y0_pad, y1_pad)), 'constant')
+        return oobs
+
    def get_all_tiles_with_collisions(self) -> List[Tile]:
        tiles_with_collisions = list()
        for tile in self[c.FLOOR]:
@@ -449,7 +494,7 @@ class BaseFactory(gym.Env):
            if self._actions.is_moving_action(agent.temp_action):
                if agent.temp_valid:
                    # info_dict.update(movement=1)
-                    # reward += 0.00
+                    reward -= 0.001
                    pass
                else:
                    reward -= 0.01
@@ -501,7 +546,7 @@ class BaseFactory(gym.Env):
    def render(self, mode='human'):
        if not self._renderer:  # lazy init
            height, width = self._obs_cube.shape[1:]
-            self._renderer = Renderer(width, height, view_radius=self.pomdp_r, fps=5)
+            self._renderer = Renderer(width, height, view_radius=self._pomdp_r, fps=5)

        walls = [RenderEntity('wall', wall.pos) for wall in self[c.WALLS]]

--- a/environments/factory/base/registers.py
+++ b/environments/factory/base/registers.py
@@ -1,3 +1,4 @@
+import numbers
 import random
 from abc import ABC
 from typing import List, Union, Dict
@@ -91,21 +92,18 @@ class EntityObjectRegister(ObjectRegister, ABC):
        raise NotImplementedError

    @classmethod
-    def from_tiles(cls, tiles, *args, **kwargs):
+    def from_tiles(cls, tiles, *args, entity_kwargs=None, **kwargs):
        # objects_name = cls._accepted_objects.__name__
        register_obj = cls(*args, **kwargs)
-        try:
-            del kwargs['individual_slices']
-        except KeyError:
-            pass
-        entities = [cls._accepted_objects(tile, str_ident=i, **kwargs)
+        entities = [cls._accepted_objects(tile, str_ident=i, **entity_kwargs if entity_kwargs is not None else {})
                    for i, tile in enumerate(tiles)]
        register_obj.register_additional_items(entities)
        return register_obj

    @classmethod
-    def from_argwhere_coordinates(cls, positions: [(int, int)], tiles, *args, **kwargs):
-        return cls.from_tiles([tiles.by_pos(position) for position in positions], *args, **kwargs)
+    def from_argwhere_coordinates(cls, positions: [(int, int)], tiles, *args, entity_kwargs=None, **kwargs, ):
+        return cls.from_tiles([tiles.by_pos(position) for position in positions], *args, entity_kwargs=entity_kwargs,
+                              **kwargs)

    @property
    def positions(self):
@@ -166,10 +164,15 @@ class PlaceHolders(MovingEntityObjectRegister):

    # noinspection DuplicatedCode
    def as_array(self):
-        if isinstance(self.fill_value, int):
+        if isinstance(self.fill_value, numbers.Number):
            self._array[:] = self.fill_value
-        elif self.fill_value == "normal":
-            self._array = np.random.normal(size=self._array.shape)
+        elif isinstance(self.fill_value, str):
+            if self.fill_value.lower() in ['normal', 'n']:
+                self._array = np.random.normal(size=self._array.shape)
+            else:
+                raise ValueError('Choose one of: ["normal", "N"]')
+        else:
+            raise TypeError('Objects of type "str" or "number" is required here.')

        if self.individual_slices:
            return self._array
@@ -183,10 +186,12 @@ class Entities(Register):

    @property
    def observable_arrays(self):
+        # FIXME: Find a better name
        return {key: val.as_array() for key, val in self.items() if val.is_observable}

    @property
    def obs_arrays(self):
+        # FIXME: Find a better name
        return {key: val.as_array() for key, val in self.items() if val.is_observable and not val.hide_from_obs_builder}

    @property
@@ -208,6 +213,10 @@ class Entities(Register):
    def register_additional_items(self, others: Dict):
        return self.register_item(others)

+    def by_pos(self, pos: (int, int)):
+        found_entities = [y for y in (x.by_pos(pos) for x in self.values() if hasattr(x, 'by_pos')) if y is not None]
+        return found_entities
+

 class WallTiles(EntityObjectRegister):
    _accepted_objects = Wall
@@ -289,6 +298,10 @@ class Agents(MovingEntityObjectRegister):

    _accepted_objects = Agent

+    def __init__(self, *args, hide_from_obs_builder=False, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.hide_from_obs_builder = hide_from_obs_builder
+
    # noinspection DuplicatedCode
    def as_array(self):
        self._array[:] = c.FREE_CELL.value