• Home
  • Budding Ideas: AI and Plant Science

AI and Plant Science: Current Tools, Challenges, and the Future

L'IA et la science des plantes : Outils actuels, défis et avenir

One of the first artificial intelligence (AI)-tools you might think of is the large language model (LMM) ChatGPT. Worldwide researchers are using ChatGPT to brainstorm ideas, write code, conduct literature reviews, and edit and write manuscripts and grants (Van Noorden and Perkel 2023). However, one of the major issues with using LLMs when searching the academic literature are ‘hallucinations’ in which ~30-50 % of the time ChatGPT incorrectly states information from a cited reference or worse ~30-50 % of the time whole studies are fabricated (reviewed in Emsley 2023). Instead, researchers should use research-specific AI tools designed to have less hallucination (not still not zero), such as Sematic Scholar, Elicit, Scite, and Inciteful, and Citation Gecko that provide short summaries and interactive maps of relevant connected articles. Looking towards the future, AI developers are seeking to minimize and ideally remove hallucinations as well as develop plant research-specific LLMs, such as the newly released PLLaMa (Yang et al. 2024).

In the last decade, advances in AI-driven machine or computer vision (CV) have enabled plant scientists to accelerate the speed of phenotyping in both small and large plants populations while increasing accuracy and reducing costs and human errors. Going from the micro to macro scale, some examples of CV in plant science include measuring woody cell dimensions, counting stomata, measuring leaf area, detecting signs of plant disease, classifying root architecture, taxonomically identifying plant species in the wild, calculating canopy cover, and measuring plant height in a whole field using drones (reviewed in Mochida et al. 2019). One of the major challenges of implementing CV, requiring a large image dataset for training, can increasingly be overcome through the use of ever growing public plant image datasets (reviewed in Mochida et al. 2019) or through performing data amplification on your dataset (Shoaib et al. 2023). In the future, following in the footsteps of LLMs, large visions models are being  developed that are envisioned to be able to perform any CV task with the need for prior training (reviewed in Wang et al. 2023).

Predictive modeling is another powerful AI-tool, in which a trained machine learning (ML) or deep learning (DL) model can be used to predict a biological outcome. Again going from the micro to macro level, predictive models have been used in plant science to predict gene function, protein folding, protein interactions, protein localization, promoter activity, transcript and metabolic levels, responses to specific plant disease and abiotic stresses, and yield performance of individuals before planting them in the field (reviewed in Dijk et al. 2021; Cembrowska-Lech et al. 2023). Similar to CV, one of the major challenges of implementing ML or DL models, the need for large high quality datasets, can be overcome by combining datasets from collaborators to create a consortium (Sneller et al. 2021, reviewed in Dijk et al. 2021). Over time more advance predictive models will be developed that are better able integrate multiple types of data from different sources, plant species, and ideally between different studies (reviewed in Dijk et al. 2021).

References

Cembrowska-Lech D, Krzemińska A, Miller T, Nowakowska A, Adamski C, Radaczyńska M, Mikiciuk G, Mikiciuk M (2023) An Integrated Multi-Omics and Artificial Intelligence Framework for Advance Plant Phenotyping in Horticulture. Biology (Basel) 12:1298. https://doi.org/10.3390/biology12101298

Dijk ADJ van, Kootstra G, Kruijer W, Ridder D de (2021) Machine learning in plant science and plant breeding. iScience 24. https://doi.org/10.1016/j.isci.2020.101890

Emsley R (2023) ChatGPT: these are not hallucinations – they’re fabrications and falsifications. Schizophr 9:1–2. https://doi.org/10.1038/s41537-023-00379-4

Mochida K, Koda S, Inoue K, Hirayama T, Tanaka S, Nishii R, Melgani F (2019) Computer vision-based phenotyping for improvement of plant productivity: a machine learning perspective. GigaScience 8:giy153. https://doi.org/10.1093/gigascience/giy153

Shoaib M, Shah B, EI-Sappagh S, Ali A, Ullah A, Alenezi F, Gechev T, Hussain T, Ali F (2023) An advanced deep learning models-based plant disease detection: A review of recent research. Front Plant Sci 14. https://doi.org/10.3389/fpls.2023.1158933

Sneller C, Ignacio C, Ward B, Rutkoski J, Mohammadi M (2021) Using Genomic Selection to Leverage Resources among Breeding Programs: Consortium-Based Breeding. Agronomy 11:1555. https://doi.org/10.3390/agronomy11081555

Van Noorden R, Perkel JM (2023) AI and science: what 1,600 researchers think. Nature 621:672–675. https://doi.org/10.1038/d41586-023-02980-0

Wang J, Liu Z, Zhao L, Wu Z, Ma C, Yu S, Dai H, Yang Q, Liu Y, Zhang S, Shi E, Pan Y, Zhang T, Zhu D, Li X, Jiang X, Ge B, Yuan Y, Shen D, Liu T, Zhang S (2023) Review of large vision models and visual prompt engineering. Meta-Radiology 1:100047. https://doi.org/10.1016/j.metrad.2023.100047

Yang X, Gao J, Xue W, Alexandersson E (2024) PLLaMa: An Open-source Large Language Model for Plant Science. arXiv. https://doi.org/10.48550/arXiv.2401.01600

droot Photo by A. Bosorogan

L'un des premiers outils d'intelligence artificielle (IA) auquel vous pouvez penser est le grand modèle de langage (LMM) ChatGPT. Dans le monde entier, les chercheurs utilisent ChatGPT pour trouver des idées, écrire des codes, effectuer des analyses documentaires, éditer et rédiger des manuscrits et des subventions (Van Noorden et Perkel 2023). Toutefois, l'un des principaux problèmes liés à l'utilisation des LLM lors de recherches dans la littérature académique est celui des « hallucinations » : dans 30 à 50 % des cas, ChatGPT énonce de manière incorrecte des informations provenant d'une référence citée ou, pire encore, dans 30 à 50 % des cas, des études entières sont fabriquées (voir Emsley 2023). Au lieu de cela, les chercheurs devraient utiliser des outils d'IA spécifiques à la recherche conçus pour avoir moins d'hallucinations (mais pas encore zéro), tels que Sematic Scholar, Elicit, Scite, et Inciteful, et Citation Gecko qui fournissent de courts résumés et des cartes interactives d'articles pertinents connectés. Dans une perspective d'avenir, les développeurs d'IA cherchent à minimiser et idéalement à supprimer les hallucinations ainsi qu'à développer des LLM spécifiques à la recherche sur les plantes, tels que le PLLaMa récemment publié (Yang et al. 2024).

Au cours de la dernière décennie, les progrès réalisés dans le domaine de la vision artificielle ou informatique ont permis aux phytologues d'accélérer la vitesse du phénotypage des populations de plantes, qu'elles soient petites ou grandes, tout en augmentant la précision et en réduisant les coûts et les erreurs humaines. De l'échelle micro à l'échelle macro, certains exemples de CV dans la science des plantes comprennent la mesure des dimensions des cellules ligneuses, le comptage des stomates, la mesure de la surface des feuilles, la détection des signes de maladie des plantes, la classification de l'architecture des racines, l'identification taxonomique des espèces de plantes dans la nature, le calcul de la couverture de la canopée et la mesure de la hauteur des plantes dans un champ entier à l'aide de drones (examiné dans Mochida et al. 2019). L'un des principaux défis de la mise en œuvre de la CV, qui nécessite un grand ensemble de données d'images pour la formation, peut de plus en plus être surmonté grâce à l'utilisation d'ensembles de données d'images de plantes publiques en constante augmentation (examiné dans Mochida et al. 2019) ou en effectuant une amplification des données sur votre ensemble de données (Shoaib et al. 2023). À l'avenir, dans le sillage des LLM, de grands modèles de visions sont en cours de développement qui sont envisagés pour être en mesure d'effectuer n'importe quelle tâche de CV avec la nécessité d'une formation préalable (examiné dans Wang et al. 2023).

La modélisation prédictive est un autre outil d'IA puissant, dans lequel un modèle d'apprentissage automatique (ML) ou d'apprentissage profond (DL) formé peut être utilisé pour prédire un résultat biologique. Toujours du niveau micro au niveau macro, les modèles prédictifs ont été utilisés en science végétale pour prédire la fonction des gènes, le repliement des protéines, les interactions entre protéines, la localisation des protéines, l'activité des promoteurs, les niveaux de transcription et de métabolisme, les réponses à des maladies végétales spécifiques et à des stress abiotiques, et les performances de rendement des individus avant de les planter dans le champ (examiné dans Dijk et al. 2021 ; Cembrowska-Lech et al. 2023). Comme pour la CV, l'un des principaux défis de la mise en œuvre des modèles ML ou DL, à savoir la nécessité de disposer de grands ensembles de données de haute qualité, peut être surmonté en combinant les ensembles de données des collaborateurs pour créer un consortium (Sneller et al. 2021, revu dans Dijk et al. 2021). Au fil du temps, des modèles prédictifs plus avancés seront développés et seront mieux à même d'intégrer de multiples types de données provenant de différentes sources, d'espèces végétales et, idéalement, de différentes études (revu dans Dijk et al. 2021).

Références

Cembrowska-Lech D, Krzemińska A, Miller T, Nowakowska A, Adamski C, Radaczyńska M, Mikiciuk G, Mikiciuk M (2023) An Integrated Multi-Omics and Artificial Intelligence Framework for Advance Plant Phenotyping in Horticulture. Biology (Basel) 12:1298. https://doi.org/10.3390/biology12101298

Dijk ADJ van, Kootstra G, Kruijer W, Ridder D de (2021) Machine learning in plant science and plant breeding. iScience 24. https://doi.org/10.1016/j.isci.2020.101890

Emsley R (2023) ChatGPT: these are not hallucinations – they’re fabrications and falsifications. Schizophr 9:1–2. https://doi.org/10.1038/s41537-023-00379-4

Mochida K, Koda S, Inoue K, Hirayama T, Tanaka S, Nishii R, Melgani F (2019) Computer vision-based phenotyping for improvement of plant productivity: a machine learning perspective. GigaScience 8:giy153. https://doi.org/10.1093/gigascience/giy153

Shoaib M, Shah B, EI-Sappagh S, Ali A, Ullah A, Alenezi F, Gechev T, Hussain T, Ali F (2023) An advanced deep learning models-based plant disease detection: A review of recent research. Front Plant Sci 14. https://doi.org/10.3389/fpls.2023.1158933

Sneller C, Ignacio C, Ward B, Rutkoski J, Mohammadi M (2021) Using Genomic Selection to Leverage Resources among Breeding Programs: Consortium-Based Breeding. Agronomy 11:1555. https://doi.org/10.3390/agronomy11081555

Van Noorden R, Perkel JM (2023) AI and science: what 1,600 researchers think. Nature 621:672–675. https://doi.org/10.1038/d41586-023-02980-0

Wang J, Liu Z, Zhao L, Wu Z, Ma C, Yu S, Dai H, Yang Q, Liu Y, Zhang S, Shi E, Pan Y, Zhang T, Zhu D, Li X, Jiang X, Ge B, Yuan Y, Shen D, Liu T, Zhang S (2023) Review of large vision models and visual prompt engineering. Meta-Radiology 1:100047. https://doi.org/10.1016/j.metrad.2023.100047

Yang X, Gao J, Xue W, Alexandersson E (2024) PLLaMa: An Open-source Large Language Model for Plant Science. arXiv. https://doi.org/10.48550/arXiv.2401.01600


McGill University

Rob (he/him) is a postdoctoral fellow in Dr. Valerio Hoyos-Villegas lab at McGill University working on developing predictive models for breeding high yielding pulse crops.  For his PhD, Dr. McGee studied the importance of different cell wall components in Arabidopsis under the supervision of Dr. George Haughn at the University of British Columbia.


McGill University

Rob (il/elle) est stagiaire postdoctoral dans le laboratoire du Dr Valerio Hoyos-Villegas à l'Université McGill et travaille sur le développement de modèles prédictifs pour la sélection de légumineuses à haut rendement. Pour son doctorat, le Dr McGee a étudié l'importance des différents composants de la paroi cellulaire chez Arabidopsis sous la supervision du Dr George Haughn à l'Université de Colombie-Britannique.


© Canadian Society of Plant Biologists


Powered by Wild Apricot Membership Software