Home assistant deixa de funcionar

Bom dia,

Desde há alguns dias que o meu HA tem deixado de funcionar sem que consiga perceber o motivo e apenas o reactivo fazendo reboot ao raspberry pi via ssh.

Não encontro nada de relevante no home-assistant.log antes da paragem fo HA

Apenas tenho acesso ao system.log de rearranque e as mensagens a vermelho na ultima vez foram:

19-05-20 05:39:42 ERROR (MainThread) [hassio.utils.gdbus] DBus return error: b'Error: GDBus.Error:org.freedesktop.DBus.Error.ServiceUnknown: The name de.pengutronix.rauc was not provided by any .service files\n'
19-05-20 05:39:42 WARNING (MainThread) [hassio.dbus.rauc] Can't connect to rauc
19-05-20 05:40:07 ERROR (SyncWorker_13) [hassio.docker] Can't start addon_core_ssh: 500 Server Error: Internal Server Error ("driver failed programming external connectivity on endpoint addon_core_ssh (2d3b5d1adaf0560a54b333e658821a1b32b8106bb60f1c4162aafe8d7c89e5f7): Error starting userland proxy: listen tcp 0.0.0.0:22: bind: address already in use")
19-05-20 05:40:10 ERROR (MainThread) [asyncio] Task exception was never retrieved future: <Task finished coro=<Addon.start() done, defined at /usr/src/hassio/hassio/addons/addon.py:459> exception=AddonsError()> Traceback (most recent call last): File "/usr/src/hassio/hassio/addons/addon.py", line 479, in start raise AddonsError() from None 

Como referi o meu HA está instalado em rbp 3B
Hass.io supervisor: 163
System: Raspbian GNU/Linux 9 (stretch)

System Health

arch armv7l
dev false
docker true
hassio true
os_name Linux
python_version 3.7.3
timezone Europe/Lisbon
version 0.92.2
virtualenv false

Alguma sugestão como investigar a origem deste problema?
Obrigado

O sistema está instalado no cartão SD?

Sim, instalado em cartão SD

Está lá escrito qual é o problema, tens dois addons a usar a mesma porta.

Obrigado @j_assuncao pela análise

Não tinha percebido que havia dois addons a usar a mesma porta. É a porta 22 - SSH?
Não instalei nem alterei recentemente nenhum addon mas vou rever todas as configurações para perceber porque agora o HA deixa completamente de responder.

Entretanto tentei também perceber se os seviços relativos ao HA (serão apenas estes 2?) estavam activos e obtive o seguinte:

pi@hassio:~ $ sudo systemctl status hassio*
● hassio-apparmor.service - Hass.io AppArmor
   Loaded: loaded (/etc/systemd/system/hassio-apparmor.service; enabled; vendor preset: enabled)
   Active: active (exited) since Mon 2019-05-20 06:30:26 BST; 31s ago
  Process: 18286 ExecStart=/usr/sbin/hassio-apparmor (code=exited, status=0/SUCCESS)
Main PID: 18286 (code=exited, status=0/SUCCESS)
      CPU: 69ms

May 20 06:30:26 hassio systemd[1]: Starting Hass.io AppArmor...
May 20 06:30:26 hassio hassio-apparmor[18286]: Warning: unable to find a suitable fs in /proc/mounts, is it mounted?
May 20 06:30:26 hassio hassio-apparmor[18286]: Use --subdomainfs to override.
May 20 06:30:26 hassio hassio-apparmor[18286]: [Error]: Can't load profile /usr/share/hassio/apparmor/hassio-supervisor
May 20 06:30:26 hassio systemd[1]: Started Hass.io AppArmor.

● hassio-supervisor.service - Hass.io supervisor
   Loaded: loaded (/etc/systemd/system/hassio-supervisor.service; enabled; vendor preset: enabled)
   Active: active (running) since Mon 2019-05-20 06:26:59 BST; 3min 57s ago
  Process: 17602 ExecStop=/usr/bin/docker stop hassio_supervisor (code=exited, status=0/SUCCESS)
  Process: 17741 ExecStartPre=/usr/bin/docker stop hassio_supervisor (code=exited, status=0/SUCCESS)
Main PID: 17756 (hassio-supervis)
      CPU: 1.478s
   CGroup: /system.slice/hassio-supervisor.service
           ├─17756 /bin/sh /usr/sbin/hassio-supervisor
           └─17785 docker start --attach hassio_supervisor

Parece que tens aí mais algum problema. Isso aconteceu depois de alguma actualização? Que hardware usas e que addons tens instalados?

Instalei a versão 0.92.2 no outro fim de semana e estas paragens apenas começaram na passada 6ª feira.
Uso um Raspberry Pi 3B e como tenho instalados o Samba, SHH, DuckDNS, MQTT, Red Node, EspHome e TasmoAdmin.

Aparentemente nenhum desses addons tem problemas de conflitos de portas entre eles mas seja com for confirma.

Esperemos instalar a 0.93.0 para ver se o problema está no próprio HA, sem esquecer de verificar as breaking changes.

Obrigado @j_assuncao

O problema é que, após a chegada do HA lá a casa, a vida mudou e há coisas que de que já não conseguimos prescindir :neutral_face:

Não obstante do problema vir a estar relacionado com software ao nível do HA, será conveniente algum tipo de despiste relacionado com o hardware, SO ou algum serviço.

  • Quando dizes que o HA deixa de funcionar, significa que funciona normalmente e deixa de funcionar (passado quanto tempo)?
  • Ficas sem acesso ao raspberry como se o sistema tivesse ficado “congelado” ou é só ao HA?
  • Consegues verificar as temperaturas quando acontece ou logo após?
  • Podes monitorizar (htop) o comportamento “anormal” do cpu, ram, swap,… ou algum serviço?
  • Podes trocar o transformador, ou verificar o correto funcionamento?

… outras futuras questões, relacionadas com o cartão sd.

Muito obrigado @Luis_Andrade ,

Quando digo que o HA deixa de funcionar quero dizer que toda a automação deixa de responder e, após o reboot, não há qualquer informação em arquivo relativos ao período de paragem. No entanto a parte web do lovelace continua activa e consigo mudar de screen mas sem a actualização da informação das entidades do HA. Este períodos de actividade após rebood são de várias horas até alguns minutos (10 minutos).

Depois disto continuo a ter acessso remoto aro rpi via SSH onde faço o reboot.

Tenho um sensor de temperatura e atividade do CPU do rpi antes da falha e não identifica nada de anormal. Não tenho ram nem swap mas poderei tentar acrescentar nas janelas de funcionamento do HA.

Sim, vou trocar de fonte de alimentação e ver se alguma coisa se altera.

Há algum tutorial/aplicação para replicar o cartão SD?

@jgracio
Pela descrição tem todo o aspecto de ser um problema de corrupção de um, ou mais, ficheiros. Se for esse o caso, replicar o cartão é replicar o problema.

Aconselhava-te a fazeres uma nova instalação num outro cartão para despistar o problema.

Sendo o processo mais rápido o clone do cartão, podes começar por esse despiste. Contudo, como o @j_assuncao disse… aparentemente, está relacionado com algum ficheiro corrompido e o erro vai ser replicado no clone. Este processo poderá ser útil ou até solução (caso o cartão esteja a ficar com “stress” e promova erros aleatórios) e antes de fazer o processo de eliminação, por segurança de dados (mesmo que alguns estejam corrompidos).

Antes de fazer uma reinstalação de raiz tentaria apagar a bd do ha, reinstalar o mosquito e eventualmente algum outro addon que guarde informação. Fazendo o processo individualmente e testando antes de ir para o próximo addon. Isto caso não seja necessário guardar histórico.

Obrigado @j_assuncao e @Luis_Andrade

Seguindo os vossos conselhos vou indo passo a passo. Para já clonei o cartao SD e substituí a fonte de alimentação. Passei também a monitorizar a ram e swap livres. Vou ver se o problema persiste antes de qualquer reinstalação parcial ou total.

Há alguma forma de monitorizar a tensão de alimentação ao rbp ou de detectar os erros de subtensão?

Consegues monitorizar a voltagem… mas, não será nada que possa servir de referência se tiveres problemas nessa matéria.

Se pretendes ter esse nível de monitorização, controlo e segurança,… mais rapidamente assistia a alimentação com uma ups e mudava o sistema do HA para um NUC.

Obrigado
O HA voltou a parar após trocar de fonte de alimentação. Instalei a versão 0.93.1 e durante a noite não voltou a parar … boas perspectivas.

Dada a dependecia que nesta altura já tenho do HA/Node Red/MQTT/ …tenho que implementar uma solução mais robusta: PI3 com UPS?, NUC?, Box Android?? - Um projecto a pensar até ao próximo crash …

Se queres algo robusto, versátil, simples de manter e com altos níveis de segurança e redundância o ideal é uma UPS a alimentar um NUC com proxmox e uma VM para o Hass.io.

Tens vários membros da nossa comunidade que mudaram para este sistema e só dizem bem até ao momento. Certo @j_assuncao @jpm @Encarnacao @Mervoes @miruim

Certíssimo @Luis_Andrade!

Mais certo não podia ser @Luis_Andrade

O HA voltou a parar … vou então reinstalar os addons antes de reinstalar tudo desde o zero. O frustrante é não ter qualquer log que possa ajudar a chegar à falha !!!

Obrigado pela sugestão relativamente à configuração mais musculada.
Utilizando uma piada recentemente transportada para o futebol - não basta ter um Ferrari, é necessário ter mãos para ele. Sou um curioso nesta questão dos micro controladores e apenas vou mantendo (e agora nem isso) o HA porque vou tendo o vosso apoio aqui no forum. Gerir um servidor “promox e uma VM” transcende totalmente os meus conhecimentos e, provavelmente, não falharia pela máquina mas sim pelo seu operador que seria suposto dar-lhe assistência. No entanto vou ver mais qualquer coisa de NUCs e Promoxs e … quem sabe ?


Copyright © 2017-2020. Todos os direitos reservados
CPHA.pt - info@cpha.pt


FAQ | Termos de Serviço/Regras | Política de Privacidade