Aperçu des sections
- Aula 1.1
- Aula 1.2
- Aula 1.3
- Aula 2.1
- Aula 2.2
- Aula 3.1
- Aula 3.2
- Aula 3.3
- Aula 4.1
- Aula 4.2
- Aula 5.1
- Aula 5.2
-
Dia 12/03/2025 (14:00 - 17:00)
Parte 1
-
1. Processamento reproduzível e aberto de dados - introdução
(partes deste bloco reproduzem material disponibilizado pelo Earth Lab da Universidade do Colorado, EUA)
O que é ciência reproduzível aberta, e qual a importância para a automação, robótica e desenvolvimento tecnológico?
A ciência aberta envolve a disponibilização de métodos, dados e resultados para todos. A importância para a automação, robótica e desenvolvimento tecnológico em geral, é que os avanços dependem e podem ser acelerados pelo livre acesso aos resultados científicos, e pelo livre acesso aos procedimentos usados por cientistas e pesquisadores para obter esses resultados. A ciência aberta precisa ser, segundo Gezelter (2009) :
- Transparente
- na coleta de dados,
- nos métodos de processamento e análise e
- na derivação de resultados
- Pública em termos de dados e métodos de processamento associados
- Irrestrita na comunicação de resultados
- Apoiada frequentemente pela colaboração
A ciência reproduzível é aquela que permite a qualquer pessoa (inclusive o próprio autor)
- compreender as etapas da análise
- replicar as etapas da análise
- reaplicar as etapas da análise aos mesmos dados ou até a dados novos
Resultados científicos reproduzíveis abertos e fluxos de trabalho facilmente compartilháveis permitem a colaboração com outras pessoas, bem como a publicação aberta de dados e fluxos de trabalho que efetivamente contribuam para um maior conhecimento científico. Na prática, segundo o OpenScience project (que se dedica à produção de software científico de código aberto) fazer ciência aberta significa produzir código aberto, manter os dados abertos, disponibilizar acesso aberto ao código e aos dados, e disponibilizar blocos de notas abertos. Dessa forma, promove-se a transparência
- da metodologia experimental,
- das observações e
- da coleta de dados,
ao mesmo tempo que se oferece
- disponibilidade pública,
- reutilização de dados científicos,
- acessibilidade pública,
- transparência na comunicação científica, e
- uso de ferramentas web para colaboração científica.
Open access at Elsevier
"Elsevier is one of the fastest-growing open access publishers in the world. Nearly all of Elsevier's 2,800 journals now enable open access publishing, including 760+ journals which are fully open access journals". Clique aqui para mais informação.
Compartilhar, Publicar e Arquivar Resultados de Pesquisa
Compartilhar, publicar e arquivar são etapas importantes para que o nosso trabalho possa ser reproduzido. Vamos estudar a sequência de slides preparados pela equipe do Earth Lab (Bolder, Colorado, USP) sobre essas três etapas.Justificativa
A ciência reproduzível aberta se justifica pelo que vem sendo chamado de crise da reprodutibilidade da ciência. Em uma das edições do programa NOVA, o episódio What Makes Science True? (O que torna a ciência verdadeira?) exibido no dia 01/Set/2017, afirma que a ciência pode estar passando pelo que alguns chamam de crise de reprodutibilidade. NOVA é um dos programas de divulgação da ciência mais assistidos na televisão americana, e se propõe a produzir programação científica aprofundada na forma de documentários e minisséries. NOVA é produzido pela WGBH em Boston (EUA) desde 1974 e é semanalmente e transmitido pela rede PBS de televisão pública norte-americana.
O que torna a
ciência verdadeira?O episódio exibido em 2017 apresenta a questão: o que torna a ciência confiável? E a resposta é: a ciência é confiável quando a reprodução dos resultados de um experimento é possível. A reprodução dos resultados de um experimento é uma das marcas de um achado científico válido. Entretanto, parece que muitas vezes, afirmações científicas têm sido feitas sem a possibilidade de replicar resultados, levando inclusive a ensaios clínicos falhos. O citado vídeo examina a crise de reprodutibilidade e relata o resultado de cinco experimentos projetados para testar a reprodutibilidade de estudos da biologia do câncer.
As virtudes do uso de software aberto, como estratégia para tornar a ciência mais confiável, também são mencionadas na palestra oferecida por Joseph J. Allaire (criador da interface RStudio para R). Um dos pontos mais enfatizados nessa palestra é a reprodutibilidade, garantida pelo fato de que open software é mais resiliente, participatório e acessível.
Segundo J.J. Allaire,
vantagens do uso de software aberto
para a Ciência AbertaVantagens
Existem fortes razões para tornar a ciência aberta a norma aceita. A principal razão é a crescente sensação de que a ciência atingiu uma crise de reprodutibilidade, onde vários cientistas admitem que suas próprias organizações têm tido dificuldade em reproduzir os resultados de publicações anteriores. A crise de reprodutibilidade é atribuída a vários fatores: ênfase exagerada na novidade como um requisito para publicação, análises estatísticas deficientes, perda de experiência laboratorial conforme se graduam os alunos e pós doutorandos, atualizações de versões de software e dados, e a inadequação das seções de metodologia em descrever todas as etapas necessárias para realização do trabalho.
Um dos fundamentos da ciência é que os cientistas sejam capazes de, independentemente, submeter teorias e modelos a testes semelhantes em locais diferentes, em equipamentos diferentes, em momentos diferentes e obter respostas semelhantes. A razão pela qual os artigos científicos precisam ser detalhados nas seções de metodologia é para permitir que outros pesquisadores verifiquem os resultados experimentais por si próprios. Como grande parte da ciência moderna depende de experimentos numéricos e simulações de computador, devemos também prestar muita atenção à reprodutibilidade na modelagem e da simulação. Experimentos numéricos em modelos simples e pequenos conjuntos de dados podem ser reproduzíveis tanto em princípio quanto na prática com pouco esforço por parte dos pesquisadores. No entanto, conforme os experimentos numéricos se tornam mais complexos e os conjuntos de dados tornam-se maiores, os cálculos que são reproduzíveis em princípio não são mais reproduzíveis na prática sem acesso ao código, aos dados e aos meta dados que descrevem como os dados foram organizados.
As vantagens do código aberto estão na redução de custos gerada pela possibilidade de reutilização de componentes de software desenvolvidos de forma comunitária. Ser capaz de acessar o código-fonte que gerou os resultados em um artigo permite que os cientistas que estão aprendendo o tópico “enxerguem os bastidores” e recriem esses cálculos sem ter que reinventar cada parte de um código complexo. Esta é uma enorme economia de eficiência. Ter o código-fonte disponível publicamente também traz oportunidades de colaboração inesperadas. Muitos grupos que lançaram códigos científicos de código aberto relatam histórias semelhantes de pesquisadores em todo o mundo enviando relatórios de bugs, correções de bugs, aprimoramentos de código ou documentação para um projeto simplesmente porque estava disponível para eles usarem e modificarem. Colaborações inesperadas às vezes podem render resultados científicos reais.
Como o código-fonte aberto se tornou comum no setor de tecnologia, as ferramentas para disponibilizar código se tornaram mais populares. Por exemplo, são dois os serviços mais populares de compartilhamento de código: GitHub e GitLab (para entender as diferença entre os dois, clique aqui).
Esses serviços, além de fornecerem controle de revisão, mantém um histórico de cada modificação efetuada no código. Isso aumenta a reprodutibilidade, fornecendo informações exatas da versão usada para gerar uma publicação específica. O código escrito para ser lançado publicamente geralmente acaba sendo mais limpo (e menos cheio de erros) do que o script rápido que nunca verá a luz do dia. Uma vez concluída uma etapa, fica registrado um repositório de conhecimento para quem assumir a tarefa em seguida. O código-fonte aberto publicamente acessível, portanto, fornece um repositório contínuo de conhecimento que o código fechado não oferece.
Uma das recomendações do padrão de pesquisa reproduzível é que os componentes do código usado durante a pesquisa seja liberado sob uma licença de código aberto, enquanto os dados (que são cobertos por um conjunto diferente de leis de direitos autorais) sejam liberados sob uma licença CC0. Licenças de código aberto são licenças que estão em conformidade com a Definição de código aberto. Elas permitem que o software seja usado, modificado e compartilhado livremente. Existem diferentes categorias de código aberto. As mais comuns são GNU General Public License e MIT License.
Às estratégias de licenciamento de código aberto se somam as iniciativas de compartilhamento de conhecimento e criatividade. O Creative Commons (CC) é uma organização mundial sem fins lucrativos que visa promover o compartilhamento do conhecimento e da criatividade como forma de transformação social. O Creative Commons se notabiliza pelas suas licenças de direito autoral, que ajudam: 1) aqueles que buscam incentivar a reutilização de suas obras, oferecendo-as para uso público sob condições generosas e padronizadas; 2) aqueles que querem fazer uso criativo de obras alheias; e 3) aqueles que desejam se beneficiar dessa simbiose. O CC possui afiliados ao redor do mundo, inclusive no Brasil, que ajudam a garantir que as licenças funcionem internacionalmente e a aumentar a conscientização de compartilhamento.
Tradução (chatGPT):
"There are strong reasons to make open science the accepted norm. The main reason is the growing sense that science has reached a reproducibility crisis, where several scientists admit that their own organizations have had difficulty reproducing the results of previous publications. The reproducibility crisis is attributed to several factors: exaggerated emphasis on novelty as a requirement for publication, deficient statistical analyses, loss of laboratory experience as students and postdocs graduate, updates to software and data, and inadequacy of methodology sections in describing all the necessary steps for carrying out the work.
One of the foundations of science is that scientists should be able to independently subject theories and models to similar tests in different locations, on different equipment, at different times, and obtain similar answers. The reason why scientific articles need to be detailed in the methodology sections is to allow other researchers to verify the experimental results for themselves. As much of modern science relies on numerical experiments and computer simulations, we should also pay close attention to reproducibility in modeling and simulation. Numerical experiments on simple models and small data sets can be reproducible in principle and in practice with little effort on the part of researchers. However, as numerical experiments become more complex and data sets become larger, calculations that are reproducible in principle are no longer reproducible in practice without access to the code, data, and metadata that describe how the data was organized.
The advantages of open source lie in the cost reduction generated by the possibility of reusing software components developed communally. Being able to access the source code that generated the results in an article allows scientists who are learning the topic to "see behind the scenes" and recreate these calculations without having to reinvent each part of a complex code. This is a huge efficiency savings. Having the source code publicly available also brings unexpected collaboration opportunities. Many groups that have released open source scientific codes report similar stories of researchers from around the world sending bug reports, bug fixes, code enhancements, or documentation to a project simply because it was available for them to use and modify. Unexpected collaborations can sometimes yield real scientific results.
As open source has become common in the technology industry, the tools for sharing code have become more popular. For example, the two most popular code sharing services are GitHub and GitLab (to understand the difference between the two, click here).
These services, in addition to providing revision control, keep a record of each modification made to the code. This increases reproducibility by providing exact information about the version used to generate a specific publication. Code written to be publicly released often ends up being cleaner (and less error-prone) than the quick script that will never see the light of day. Once a stage is completed, a repository of knowledge is recorded for whoever takes on the task next. Publicly accessible open source code, therefore, provides a continuous repository of knowledge that closed code does not offer.
One of the recommendations of the reproducible research standard is that the code components used during research be released under an open source license, while the data (which is covered by a different set of copyright laws) be released under a CC0 license. Open source licenses are licenses that comply with the Open Source Definition. They allow software to be used, modified, and shared freely. There are different categories of open source. The most common are the GNU General Public License and the MIT License.
Open source licensing strategies are added to knowledge and creativity sharing initiatives. Creative Commons (CC) is a nonprofit worldwide organization that aims to promote knowledge and creativity sharing as a form of social transformation. Creative Commons is notable for its copyright licenses, which help: 1) those seeking to encourage the reuse of their works by offering them for use under certain conditions and 2) those seeking to use the works of others, by providing clear terms of use."
- Transparente
-
Um exercício com o chatGPT (um algoritmo de inteligência artificial generativa / atualizado em 01 de março de 2024). Também identificado como um algorítmo de inteligência do tipo LLM, o chatGPT reconhece, sintetiza, traduz, prediz e é capaz de gerar texto e outras formas de contexto.
Prompt: Do you agree that access to data and science should be open and free? Whether you have a favorable opinion or not, what arguments would you use to build your case?
chatGPT:
The question of whether access to data and science should be open and free is complex, with strong arguments on both sides. Here's a balanced perspective on the issue:
Arguments for Open and Free Access
1. Promotes Innovation and Progress: Open access to scientific research and data can accelerate discovery and innovation. When researchers and innovators can freely access and build upon the work of others, the pace of scientific progress and technological innovation can increase significantly.
2. Enhances Collaboration: Open access facilitates collaboration among researchers across disciplines and geographical boundaries. It enables scientists to share findings and data more efficiently, fostering a collaborative environment that can lead to groundbreaking discoveries.
3. Democratizes Knowledge: Free access to scientific knowledge and data ensures that anyone, regardless of their institution's financial capabilities or their personal resources, can access the latest research findings. This democratization of knowledge helps level the playing field, especially for researchers from low- and middle-income countries.
4. Improves Transparency and Reproducibility: Open access to data and scientific methodologies allows for greater scrutiny and verification of research findings. This can lead to improvements in research quality and reliability, as other scientists can replicate studies to confirm results.
Arguments Against Open and Free Access
1. Quality and Peer Review Concerns: The traditional publishing model, which often includes paywalls, supports the peer review process and the publication of high-quality journals. Critics argue that open access could undermine these quality control mechanisms, as the financial model for supporting rigorous peer review processes is less clear.
2. Financial Sustainability: Publishers of scientific journals argue that subscriptions and access fees are necessary to cover the costs of publication, including editing, peer review, and distribution. Without these fees, the financial sustainability of the publishing process could be at risk.
3. Data Privacy and Sensitivity: Not all data can be freely shared without considerations of privacy, especially in fields dealing with human subjects, such as medical research. Open access to sensitive data could lead to privacy violations and ethical concerns.
4. Intellectual Property Rights: Researchers and institutions sometimes rely on the potential for patent rights and commercialization to fund their research. Open access could complicate the protection of intellectual property, potentially reducing incentives for investment in research.
Conclusion
The debate over open and free access to data and science is not about whether knowledge sharing is beneficial, but about how to balance the benefits of open access with the need to maintain high-quality research, protect sensitive information, and ensure the financial viability of the publication process. Solutions might include hybrid models that offer a combination of open access and subscription-based services, along with policies that protect privacy and intellectual property while promoting the widest possible dissemination of scientific knowledge.
-