A publicação original que saiu na revista Science é intitulada “Managing extreme AI risks amid rapid progress” .
O link de acesso ao original é https://www.science.org/doi/10.1126/science.adn0117:
O texto abaixo, abre com link para original em inglês, mas o pdf divulgado está em português (tradução Chat GPT)
Link para original: https://www.science.org/doi/10.1126/science.adn0117 Gerenciando riscos extremos de IA em meio a um progresso rápido A preparação requer pesquisa e desenvolvimento técnico, bem como uma governança adaptativa e proativa.
YOSHUA BENGIO, GEOFFREY HINTON, ANDREW YAO, DAWN SONG, PIETER ABBEEL, TREVOR DARRELL, YUVAL NOAH HARARI, YA-QIN ZHANG, LAN XUE, SHAI SHALEV-SHWARTZ, GILLIAN HADFIELD, JEFF CLUNE, TEGAN MAHARAJ, FRANK HUTTER, ATILIM GÜNEŞ BAYDIN, SHEILA MCILRAITH, QIQI GAO, ASHWIN ACHARYA, DAVID KRUEGER, ANCA DRAGAN, PHILIP TORR, STUART RUSSELL, DANIEL KAHNEMAN, JAN BRAUNER , AND SÖREN MINDERMANN
A inteligência artificial (IA) está progredindo rapidamente, e as empresas estão mudando seu foco para desenvolver sistemas de IA generalistas que possam agir de forma autônoma e perseguir objetivos. Aumentos nas capacidades e na autonomia podem em breve amplificar massivamente o impacto da IA, com riscos que incluem danos sociais em larga escala, usos maliciosos e uma perda irreversível de controle humano sobre sistemas de IA autônomos. Embora os pesquisadores tenham alertado sobre os riscos extremos da IA (1), falta consenso sobre como gerenciá-los. A resposta da sociedade, apesar de passos iniciais promissores, é desproporcional à possibilidade de um progresso rápido e transformador que é esperado por muitos especialistas. A pesquisa em segurança de IA está atrasada. As iniciativas governamentais atuais carecem dos mecanismos e instituições para prevenir o uso indevido e a imprudência e mal abordam sistemas autônomos. Com base nas lições aprendidas de outras tecnologias críticas para a segurança, delineamos um plano abrangente que combina pesquisa e desenvolvimento (P&D) técnico com mecanismos de governança proativos e adaptativos para uma preparação mais adequada.
Progresso Rápido, Altas Apostas Os sistemas de deep learning atuais ainda carecem de capacidades importantes, e não sabemos quanto tempo levará para desenvolvê-las. No entanto, as empresas estão engajadas em uma corrida para criar sistemas de IA generalistas que igualem ou superem as habilidades humanas na maioria dos trabalhos cognitivos [veja materiais suplementares (MS)]. Elas estão rapidamente alocando recursos e desenvolvendo técnicas para aumentar as capacidades da IA, com o investimento em treinamento de modelos de ponta triplicando anualmente (veja MS).
Há muito espaço para mais avanços porque as empresas de tecnologia têm as reservas de caixa necessárias para escalar as rodadas de treinamento mais recentes em múltiplos de 100 a 1000 (veja MS). Hardware e algoritmos também melhorarão: chips de computação para IA têm se tornado 1,4 vezes mais rentáveis, e os algoritmos de treinamento de IA 2,5 vezes mais eficientes, a cada ano (veja MS). O progresso na IA também permite um progresso mais rápido da IA—assistentes de IA estão sendo cada vez mais usados para automatizar programação, coleta de dados e design de chips (veja MS).
Não há razão fundamental para o progresso da IA desacelerar ou parar nas habilidades ao nível humano. De fato, a IA já superou as habilidades humanas em domínios restritos, como jogar jogos de estratégia e prever como proteínas se dobram (veja MS). Comparados aos humanos, os sistemas de IA podem agir mais rápido, absorver mais conhecimento e se comunicar com maior largura de banda. Além disso, eles podem ser escalados para usar imensos recursos computacionais e podem ser replicados aos milhões. Não sabemos ao certo como o futuro da IA se desenrolará. No entanto, devemos levar a sério a possibilidade de que sistemas de IA generalistas altamente poderosos que superem as habilidades humanas em muitos domínios críticos serão desenvolvidos dentro desta década ou na próxima. O que acontecerá então?
Sistemas de IA mais capazes têm impactos maiores. Especialmente à medida que a IA iguala e supera os trabalhadores humanos em capacidades e relação custo-eficácia, esperamos um aumento maciço na implantação da IA, oportunidades e riscos. Se gerenciada com cuidado e distribuída de forma justa, a IA poderia ajudar a humanidade a curar doenças, elevar os padrões de vida e proteger ecossistemas. As oportunidades são imensas.
Mas junto com capacidades avançadas de IA vêm riscos em larga escala. Os sistemas de IA ameaçam amplificar a injustiça social, erodir a estabilidade social, permitir atividades criminosas em larga escala e facilitar a guerra automatizada, manipulação massiva personalizada e vigilância pervasiva [(2); veja MS].
Muitos riscos poderiam em breve ser amplificados, e novos riscos criados, à medida que as empresas trabalham para desenvolver IA autônoma: sistemas que podem usar ferramentas como computadores para agir no mundo e perseguir objetivos (veja MS). Atores maliciosos poderiam deliberadamente embutir objetivos indesejáveis. Sem avanços em P&D (veja a próxima seção), até mesmo desenvolvedores bem-intencionados podem inadvertidamente criar sistemas de IA que perseguem objetivos não intencionais: O sinal de recompensa usado para treinar sistemas de IA geralmente não captura completamente os objetivos pretendidos, levando os sistemas de IA a perseguirem a especificação literal em vez do resultado pretendido. Além disso, os dados de treinamento nunca capturam todas as situações relevantes, levando os sistemas de IA a perseguirem objetivos indesejáveis em novas situações encontradas após o treinamento.
Uma vez que sistemas de IA autônomos perseguem objetivos indesejáveis, podemos ser incapazes de mantê-los sob controle. O controle do software é um problema antigo e não resolvido: Worms de computador têm sido capazes de proliferar e evitar a detecção por muito tempo (veja MS). No entanto, a IA está progredindo em domínios críticos como hacking, manipulação social e planejamento estratégico (veja MS) e pode em breve representar desafios de
controle sem precedentes. Para avançar objetivos indesejáveis, os sistemas de IA poderiam ganhar a confiança humana, adquirir recursos e influenciar tomadores de decisão chave. Para evitar a intervenção humana (3), eles podem copiar seus algoritmos através de redes de servidores globais (4). Em conflito aberto, os sistemas de IA poderiam implantar autonomamente uma variedade de armas, incluindo biológicas. O acesso dos sistemas de IA a essa tecnologia apenas continuaria as tendências existentes de automação da atividade militar. Finalmente, os sistemas de IA não precisarão tramar para obter influência se ela for livremente entregue. Empresas, governos e forças armadas podem permitir que sistemas de IA autônomos assumam papéis críticos na sociedade em nome da eficiência.
Sem cautela suficiente, podemos perder irreversivelmente o controle sobre sistemas de IA autônomos, tornando a intervenção humana ineficaz. Crimes cibernéticos em larga escala, manipulação social e outros danos podem escalar rapidamente. Esse avanço desenfreado da IA pode culminar em uma grande perda de vidas e da biosfera, e na marginalização ou extinção da humanidade.
Não estamos no caminho certo para lidar bem com esses riscos. A humanidade está investindo vastos recursos em tornar os sistemas de IA mais poderosos, mas muito menos em sua segurança e mitigação de danos. Apenas uma estimativa de 1 a 3% das publicações sobre IA são sobre segurança (veja MS). Para que a IA seja um benefício, precisamos reorientar; apenas aumentar as capacidades da IA não é suficiente.
Já estamos atrasados para essa reorientação. A escala dos riscos significa que precisamos ser proativos, porque os custos de estar despreparado superam em muito os de preparação prematura. Devemos antecipar a amplificação dos danos em curso, bem como novos riscos, e nos preparar para os maiores riscos antes que eles se materializem.
Reorientar P&D Técnico
Existem muitos desafios técnicos abertos para garantir a segurança e o uso ético dos sistemas de IA generalistas e autônomos. Ao contrário do avanço das capacidades da IA, esses desafios não podem ser resolvidos simplesmente usando mais poder de computação para treinar modelos maiores. É improvável que se resolvam automaticamente à medida que os sistemas de IA se tornam mais capazes [(5); veja MS] e requerem esforços dedicados de pesquisa e engenharia. Em alguns casos, podem ser necessários saltos de progresso; assim, não sabemos se o trabalho técnico pode resolver fundamentalmente esses desafios a tempo. No entanto, tem havido relativamente pouco trabalho em muitos desses desafios. Mais P&D pode, portanto, facilitar o progresso e reduzir os riscos.
Um primeiro conjunto de áreas de P&D precisa de avanços para possibilitar uma IA confiavelmente segura. Sem esse progresso, os desenvolvedores devem arriscar criar sistemas inseguros ou ficar atrás de concorrentes dispostos a assumir mais riscos. Se garantir a segurança continuar sendo muito difícil, medidas extremas de governança seriam necessárias para evitar atalhos impulsionados pela competição e pela confiança excessiva. Esses desafios de P&D incluem o seguinte:
Supervisão e honestidade
Sistemas de IA mais capazes podem explorar melhor as fraquezas na supervisão técnica e nos testes, por exemplo, produzindo saídas falsas, mas convincentes (veja MS).
Robustez
Os sistemas de IA se comportam de maneira imprevisível em novas situações. Enquanto alguns aspectos da robustez melhoram com a escala do modelo, outros aspectos não melhoram ou até pioram (veja MS).
Interpretabilidade e transparência
A tomada de decisão da IA é opaca, com modelos maiores e mais capazes sendo mais complexos de interpretar. Até agora, só podemos testar grandes modelos por tentativa e erro. Precisamos aprender a entender seu funcionamento interno (veja MS).
Desenvolvimento inclusivo de IA
O avanço da IA precisará de métodos para mitigar preconceitos e integrar os valores das muitas populações que afetará (veja MS).
Abordagem de desafios emergentes
Futuros sistemas de IA podem apresentar modos de falha que até agora vimos apenas na teoria ou em experimentos de laboratório, como sistemas de IA assumindo o controle dos canais de provisão de recompensa de treinamento ou explorando fraquezas em nossos objetivos de segurança e mecanismos de desligamento para avançar um objetivo particular (3, 6-8). Um segundo conjunto de desafios de P&D precisa de progresso para permitir uma governança eficaz, ajustada ao risco, ou para reduzir os danos quando a segurança e a governança falharem.
Avaliação de capacidades perigosas
À medida que os desenvolvedores de IA escalam seus sistemas, capacidades imprevistas aparecem espontaneamente, sem programação explícita (veja MS). Elas são frequentemente descobertas apenas após a implantação (veja MS). Precisamos de métodos rigorosos para elicitar e avaliar as capacidades da IA e para prevê-las antes do treinamento. Isso inclui tanto capacidades genéricas para alcançar objetivos ambiciosos no mundo (por exemplo, planejamento e execução de longo prazo) quanto capacidades específicas perigosas com base em modelos de ameaça (por exemplo, manipulação social ou hacking). As avaliações atuais dos modelos de IA de ponta para capacidades perigosas (9), que são chave para vários frameworks de política de IA, são limitadas a verificações pontuais e tentativas de demonstrações em configurações específicas (veja MS). Essas avaliações às vezes podem demonstrar capacidades perigosas, mas não podem excluí-las de forma confiável: sistemas de IA que não tinham certas capacidades nos testes podem bem demonstrá-las em configurações ligeiramente diferentes ou com aprimoramentos pós-treinamento. Decisões que dependem de sistemas de IA não cruzarem nenhuma linha vermelha, portanto, precisam de grandes margens de segurança. Ferramentas de avaliação aprimoradas diminuem a chance de perder capacidades perigosas, permitindo margens menores.
Avaliação do alinhamento da IA
Se o progresso da IA continuar, os sistemas de IA eventualmente possuirão capacidades altamente perigosas. Antes de treinar e implantar tais sistemas, precisamos de métodos para avaliar sua propensão a usar essas capacidades. Avaliações puramente comportamentais podem falhar para sistemas de IA avançados: semelhante aos humanos, eles podem se comportar de maneira diferente sob avaliação, fingindo alinhamento (6-8).
Avaliação de risco
Devemos aprender a avaliar não apenas capacidades perigosas, mas também riscos em um contexto societal, com interações complexas e vulnerabilidades. A avaliação rigorosa de risco para sistemas de IA de ponta permanece um desafio aberto devido às suas amplas capacidades e implantação pervasiva em diversas áreas de aplicação (10).
Resiliência
Inevitavelmente, alguns irão usar ou agir de forma imprudente com a IA. Precisamos de ferramentas para detectar e defender contra ameaças habilitadas por IA, como operações de influência em larga escala, riscos biológicos e ciberataques. No entanto, à medida que os sistemas de IA se tornam mais capazes, eles eventualmente serão capazes de contornar as defesas humanas. Para permitir defesas mais poderosas baseadas em IA, primeiro precisamos aprender como tornar os sistemas de IA seguros e alinhados. Dado o risco, pedimos que grandes empresas de tecnologia e financiadores públicos alocem pelo menos um terço de seu orçamento de P&D em IA, comparável ao financiamento para capacidades de IA, para abordar os desafios de P&D acima e garantir a segurança e o uso ético da IA (11). Além das tradicionais bolsas de pesquisa, o apoio governamental poderia incluir prêmios, compromissos de mercado avançados (veja MS) e outros incentivos. Abordar esses desafios, com um olhar voltado para sistemas poderosos futuros, deve se tornar central em nosso campo.
Medidas de Governança
Precisamos urgentemente de instituições nacionais e de governança internacional para impor padrões que previnam a imprudência e o uso indevido. Muitas áreas da tecnologia, desde produtos farmacêuticos até sistemas financeiros e energia nuclear, mostram que a sociedade exige e utiliza efetivamente a supervisão governamental para reduzir riscos. No entanto, os frameworks de governança para a IA são muito menos desenvolvidos e estão atrasados em relação ao rápido progresso tecnológico. Podemos nos inspirar na governança de outras tecnologias críticas para a segurança, mantendo em mente a distintividade da IA avançada—que supera em muito outras tecnologias em seu potencial de agir e desenvolver ideias de forma autônoma, progredir explosivamente, comportar-se de maneira adversarial e causar danos irreversíveis.
Governos em todo o mundo deram passos positivos em relação à IA de fronteira, com atores-chave, incluindo China, Estados Unidos, União Europeia e Reino Unido, engajados em discussões e introduzindo diretrizes ou regulamentos iniciais (veja MS). Apesar de suas limitações—frequentemente adesão voluntária, escopo geográfico limitado e exclusão de áreas de alto risco, como sistemas militares e em fase de P&D—estas são etapas iniciais importantes rumo, entre outras coisas, à responsabilidade dos desenvolvedores, auditorias de terceiros e padrões da indústria.
Ainda assim, esses planos de governança ficam criticamente aquém diante do rápido progresso das capacidades da IA. Precisamos de medidas de governança que nos preparem para avanços repentinos na IA, ao mesmo tempo em que sejam politicamente viáveis, apesar das discordâncias e incertezas sobre os cronogramas da IA. A chave são políticas que acionam automaticamente quando a IA atinge certos marcos de capacidade. Se a IA avançar rapidamente, requisitos rigorosos entram automaticamente em vigor, mas se o progresso desacelerar, os requisitos relaxam de acordo. O progresso rápido e imprevisível também significa que os esforços de redução de riscos devem ser proativos—identificando riscos dos sistemas de próxima geração e exigindo que os desenvolvedores os abordem antes de tomar ações de alto risco. Precisamos de instituições rápidas e tecnologicamente proficientes para a supervisão da IA, avaliações de risco obrigatórias e muito mais rigorosas com consequências aplicáveis (incluindo avaliações que coloquem o ônus da prova sobre os desenvolvedores de IA), e padrões de mitigação proporcionais à IA autônoma poderosa.
Sem isso, empresas, militares e governos podem buscar uma vantagem competitiva ao elevar as capacidades da IA a novos patamares enquanto cortam custos com segurança ou delegam papéis sociais críticos a sistemas de IA autônomos com supervisão humana insuficiente, colhendo os benefícios do desenvolvimento da IA enquanto deixam a sociedade lidar com as consequências.
Instituições para governar a fronteira rapidamente movente da IA
Para acompanhar o rápido progresso e evitar leis desatualizadas rapidamente e inflexíveis (veja MS), as instituições nacionais precisam de forte expertise técnica e autoridade para agir rapidamente. Para facilitar avaliações e mitigações de risco tecnicamente exigentes, elas precisarão de muito mais financiamento e talento do que recebem sob quase qualquer plano de política atual. Para abordar a dinâmica de corrida internacional, elas precisam de meios para facilitar acordos e parcerias internacionais (veja MS). As instituições devem proteger o uso de baixo risco e a pesquisa acadêmica de baixo risco, evitando obstáculos burocráticos indevidos para modelos de IA pequenos e previsíveis. A análise mais urgente deve ser sobre sistemas de IA na fronteira: os poucos sistemas mais poderosos, treinados em supercomputadores bilionários, que terão as capacidades mais perigosas e imprevisíveis (veja MS).
Insight do governo
Para identificar riscos, os governos precisam urgentemente de uma visão abrangente sobre o desenvolvimento da IA. Os reguladores devem exigir proteções para denunciantes, relatórios de incidentes, registro de informações chave sobre sistemas de IA de fronteira e seus conjuntos de dados ao longo de seu ciclo de vida, e monitoramento do desenvolvimento de modelos e uso de supercomputadores (12). Desenvolvimentos recentes de políticas não devem parar em exigir que as empresas relatem os resultados de avaliações de modelos voluntárias ou subespecificadas pouco antes da implantação (veja MS). Os reguladores podem e devem exigir que os desenvolvedores de IA de fronteira concedam acesso a auditores externos no local, abrangente ("caixa branca") e ajuste fino desde o início do desenvolvimento do modelo (veja MS). Isso é necessário para identificar capacidades perigosas do modelo, como auto-replicação autônoma, persuasão em larga escala, invasão de sistemas de computador, desenvolvimento de armas (autônomas) ou tornar patógenos pandêmicos amplamente acessíveis [(4, 13); veja MS].
Casos de segurança
Apesar das avaliações, não podemos considerar os próximos poderosos sistemas de IA de fronteira "seguros, a menos que provados inseguros". Com as metodologias de teste atuais, problemas podem ser facilmente perdidos. Além disso, não está claro se os governos podem rapidamente construir a imensa expertise necessária para avaliações técnicas confiáveis das capacidades de IA e riscos em escala social. Dado isso, os desenvolvedores de IA de fronteira devem carregar o ônus da prova para demonstrar que seus planos mantêm os riscos dentro de limites aceitáveis. Ao fazer isso, seguiriam as melhores práticas de gerenciamento de risco de indústrias, como aviação, dispositivos médicos e software de defesa, nas quais as empresas fazem casos de segurança [(14, 15); veja MS]: argumentos estruturados com afirmações falsificáveis apoiadas por evidências que identificam perigos potenciais, descrevem mitigações, mostram que os sistemas não cruzarão certas linhas vermelhas e modelam possíveis resultados para avaliar o risco. Os casos de segurança poderiam alavancar a experiência detalhada dos desenvolvedores com seus próprios sistemas. Os casos de segurança são politicamente viáveis, mesmo quando as pessoas discordam sobre o quão avançada a IA se tornará, porque é mais fácil demonstrar que um sistema é seguro quando suas capacidades são limitadas. Os governos não são receptores passivos de casos de segurança: eles estabelecem limites de risco, codificam melhores práticas, empregam especialistas e auditores terceirizados para avaliar casos de segurança e conduzir avaliações independentes de modelos, e responsabilizam os desenvolvedores se suas alegações de segurança forem posteriormente falsificadas.
Mitigação
Para manter os riscos da IA dentro de limites aceitáveis, precisamos de mecanismos de governança que correspondam à magnitude dos riscos (veja MS). Os reguladores devem esclarecer as responsabilidades legais decorrentes dos frameworks de responsabilidade existentes e responsabilizar legalmente os desenvolvedores e proprietários de IA de fronteira por danos de seus modelos que podem ser razoavelmente previstos e prevenidos, incluindo danos que previsivelmente surgem da implantação de sistemas de IA poderosos cujo comportamento não podem prever. A responsabilidade, juntamente com avaliações consequenciais e casos de segurança, pode prevenir danos e criar os incentivos necessários para investir em segurança.
Mitigações proporcionais são necessárias para futuros sistemas de IA excepcionalmente capazes, como sistemas autônomos que poderiam contornar o controle humano. Os governos devem estar preparados para licenciar seu desenvolvimento, restringir sua autonomia em papéis sociais chave, interromper seu desenvolvimento e implantação em resposta a capacidades preocupantes, exigir controles de acesso e requerer medidas de segurança da informação robustas contra hackers de nível estatal até que proteções adequadas estejam prontas. Os governos devem construir essas capacidades agora.
Para preencher o tempo até que os regulamentos estejam completos, grandes empresas de IA devem prontamente delinear compromissos "se-então": medidas específicas de segurança que tomarão se capacidades de linha vermelha específicas (9) forem encontradas em seus sistemas de IA. Esses compromissos devem ser detalhados e escrutinados independentemente. Os reguladores devem incentivar uma corrida para o topo entre as empresas usando os compromissos de melhor em classe, juntamente com outros inputs, para informar os padrões que se aplicam a todos os atores. Para direcionar a IA para resultados positivos e afastá-la da catástrofe, precisamos nos reorientar. Existe um caminho responsável—se tivermos a sabedoria de segui-lo. Agradecimentos (não incluídos na tradução)
This PDF file includes: science.org/doi/10.1126/science.adn0117
• DOWNLOAD (https://www.science.org/doi/suppl/10.1126/science.adn0117/suppl_file/sc…)
References and Notes
1 Center for AI Safety, Statement on AI risk (2023); https://www.safe.ai/work/statement-on-ai-risk. GO TO REFERENCE GOOGLE SCHOLAR
2 L. Weidinger et al., in Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, (Association for Computing Machinery, 2022), 214–219. GO TO REFERENCE CROSSREF GOOGLE SCHOLAR
3 D. Hadfield-Menell, A. Dragan, P. Abbeel, S. Russell, in Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, C. Sierra, Ed. (International Joint Conferences on Artificial Intelligence, 2017), 220–227. GOOGLE SCHOLAR
4 M. Kinniment et al., arXiv:2312.11671 (18 December 2023). GOOGLE SCHOLAR
5 I. R. McKenzie et al., arXiv:2306.09479 (15 June 2023). GO TO REFERENCE GOOGLE SCHOLAR
6 R. Ngo, L. Chan, S. Mindermann, arXiv:2209.00626 (20 August 2022). GOOGLE SCHOLAR
7 E. Hubinger et al., arXiv:2401.05566 (10 January 2024). GOOGLE SCHOLAR
8 M. K. Cohen, N. Kolt, Y. Bengio, G. K. Hadfield, S. Russell, Science 384, 36 (2024). CROSSREF PUBMED GOOGLE SCHOLAR
9 T. Shevlane et al., arXiv:2305.15324 (24 May 2023). GOOGLE SCHOLAR
10 L. Koessler, J. Schuett, arXiv:2307.08823 (17 July 2023). GO TO REFERENCE GOOGLE SCHOLAR
11 D. Hendrycks, N. Carlini, J. Schulman, J. Steinhardt, arXiv:2109.13916 (28 September 2021). GO TO REFERENCE GOOGLE SCHOLAR
12 N. Kolt et al., arXiv:2404.02675 (3 April 2024). GO TO REFERENCE GOOGLE SCHOLAR
13 M. Phuong et al., arXiv:2403.13793 (20 March 2024). GO TO REFERENCE GOOGLE SCHOLAR
14 J. Clymer, N. Gabrieli, D. Krueger, T. Larsen, arXiv:2403.10462 (15 March 2024). GO TO REFERENCE GOOGLE SCHOLAR
15 T. A. Kelly, SAE Trans. J. Mater. Manu 113, 257 (2004). GO TO REFERENCE GOOGLE SCHOLAR
- Efetue login ou registre-se para postar comentários