AlphaFold biyoinformatik alanında yeni bir kapı açtı

AlphaFold, Google’ın yapay zeka şirketi DeepMind tarafından geliştirilen Alpha önekli yapay zeka araçları serisinin biyoenformatik alanı için tasarlanmış olanıdır. AlphaFold proteinlerin üç boyutlu yapılarını daha önce erişilmemiş doğrulukta tahmin edebilmektedir. Biyoenformatikte önemli bir probleme pratik olarak kullanılabilecek bir çözüm üretmeye aday olan AlphaFold’un hem biyoloji alanında çok yararlı olması, hem de derin öğrenme modellerinin özellikle biyoenformatik alanı için ne şekilde oluşturulmaları gerektiği hakkında bilim insanlarına önemli fikirler vermesi beklenmektedir.

Protein yapılarının tahmini niçin önemlidir?

AlphaFold’un temel amacı protein yapılarını yüksek doğrulukla tahmin etmektir. Peki protein yapılarını doğru tahmin etmek neden önemlidir? İşte bu konuda 15 yıldır hastalıklara direnç ve protein katlanması konusunda genetik ve biyoenformatik araştırmalar yapan Prof. Dr. Cemal Ün'den görüş aldık.

Proteinlerin üç boyutlu yapılarının proteinlerin fonksiyonları açısından rolü nedir? Proteinlerin yapılarını tahmin edebilmek biyoloji, tıp, farmakoloji gibi alanlarda neden önemlidir?

Moleküllerin çalışma biçimleri onların yapıları ya da strüktürleri ile ilgilidir. Dolayısıyla bu yapının bilinmesi onların etki mekanizmaları ile ilgili fikir sahibi olmamızı sağlar. Proteinler, amino asitlerden oluşurlar. Amino asitlerin değişik sayılarda arka arkaya dizilip kimyasal bağlarla bağlanması onların primer yapısını belirler. Bu primer yapıda hangi amino asitlerin arka arkaya dizileceği ilgili proteini şifreleyen gen tarafından belirlenir. Genin yapısında bulunan her bir üçlü nükleotid bir amino aside karşılık gelir. Örneğin DNA da ATG dizileri proteinde Metiyonin amino asidi anlamına gelir, GTG dizileri ise Valin amino asidini belirler.  Bu şekilde oluşan primer protein yapısının amino asitleri birbirleriyle etkileşime girerek sekonder yapıları oluştururlar. Sekonder yapı, alfa heliks olabilir ya da beta yaprakçıklar şeklinde olabilir. Daha sonra bu yapı tekrar katlanarak üçüncül yapıyı oluşturur. Tüm bu yapılar söz konusu proteinin görevini doğru biçimde yapması açısından önemlidir. Proteinlerin nasıl yapılacağı bilgisini yapısında barındıran genler, evrimsel olarak statik değil, dinamiktirler. Başka bir deyişle mutasyon geçirebilirler. Bütün genler aynı oranda mutasyon geçirme ihtimaline sahiptir. Bu değişimler potansiyel olarak, onların şifrelediği proteinlerin de birincil yapısını ve buna bağlı olarak da ikincil ve üçüncül yapısını değiştirebilir. Bazı proteinler bu değişimlerden dolayı görevini yapamazlar, hücrede temel önemli fonksiyonları olan proteinler örneğin kromozomların oluşumunda rol alan histon proteinleri bu tür proteinlerdir. Başka bir grup protein ise değişimlere rağmen görevlerini yapabilirler. Fakat mutasyonlar, ya da gen değişimleri sonucunda oluşan amino asit değişimleri proteinlerin çalışma kapasitesini olumlu ya da olumsuz etkileyebilirler ya da örneğin hastalıklara yatkınlık–dirence neden olabilirler.

Örneğin DNA’da 750 harften oluşan PRNP geni insanlarda 250 amino asitten oluşan Prion proteinini şifreler. Bugüne kadar yapılan analizler bu genin içerisinde toplam 42 tane değişim olduğunu göstermektedir. Bu farklılıkların büyük çoğunluğu proteinin görevini yapmasını önemli ölçüde etkilemezken, biri uykusuzluk hastalığına neden olur, 129. sırada bulunan amino asidi değiştiren mutasyon ise insanların Creutzfeldt Jacob hastalığına direnç ya da yatkınlıkla ilişkilidir. Creutzfeldt Jacob hastalığı sığırlarda görülen ve Deli Dana olarak bilinen hastalığın insanlardaki formudur ve ölümcüldür, üstelik bugün itibariyle bir tedavisi de yoktur. Bu hastalık, yanlış katlanmış prion proteinin beslenme ve değişik yollarla insan vücuduna girdikten sonra, insan vücudundaki normal olan prion proteininin de yanlış katlanmasını tetiklemesiyle meydana gelir.

Bazı insanlar Prion genlerinde 129. sırada Metiyonin amino asidini şifreleyen ATG şifresini taşırken bazıları da aynı sırada Valin amino asidini taşıyan GTG dizilerini taşırlar. Prion proteininin 129. sırasındaki Valin amino asidi, bu proteinin dışarıdan giren hastalık yapıcı proteinin kendisini değiştirmesine dirençlidir, dolayısıyla bu tür bir Prion proteine sahip kişiler hastalığa yakalanmazlar.

Öte yandan protein katlanma biçimleri ve üç boyutlu yapıları, insan psikolojisi üzerine de etkili olabilir. Örneğin serotoninle etkileşime girip onun taşınmasını sağlayan bir protein yanlış katlandığı zaman artık serotoninin taşınması işlemini gerçekleştirmeyebilir. Bu durum depresyonla sonuçlanabilir.

İlaç ve aşı geliştirme çalışmalarında da protein yapılarının doğruya yakın bir derecede tahmin edilmesi önemlidir. Hastalık yapan virüslere ait aşı adayı proteinlerin birincil yapısında meydana gelen değişimler sonucu, insan bağışıklık sisteminin proteinleri ile etkileşime giremeyecek hale gelebilir. Proteinler arasındaki etkileşim belirli amino asit motifleri üzerinden gerçekleşir. Bu motiflerin bozulması, ya da üç boyutlu yapının değişmesi ile protein içerisinde gömülü hale gelmesi etkileşimi ortadan kaldırabilir. Dolayısıyla proteinlerin yapısını önceden tahmin edebilirsek, protein-protein etkileşimlerini de güçlü şekilde tahmin edebiliriz. Bunun sonucunda da daha etkin ilaç ve aşı adayları geliştirmemiz olanaklı hale gelir.

Alphafold Hakkında Bildiklerimiz

AlphaFold, birlikte evrim (co-evolution) tabanlı, daha önce çok çeşitli araştırma gruplarının geliştirdiği yöntemlerin bir araya getirilmesiyle oluşturulmuş, verili proteinlerin yapılarını tahmin etme amaçlı eğitilmiş bir derin öğrenme (deep learning) kurulumudur. 2018 yılında protein yapılarını rakiplerine kıyasla açık arayla daha iyi tahmin ettiğini gösteren AlphaFold, üzerine yapılan geliştirmeler sayesinde bu yıl kendi rekor performansını da oldukça aşarak bu alanda pratikte kullanılabilecek dünyadaki ilk aday olduğunu göstermiştir.

Yukarıdaki şekilde GDT (Küresel Uzaklık Testi – Global Distance Test) değişkeni, dizilişi tahmin edilen aminoasitler arasından protein içindeki gerçek pozisyonlarına kabul edilebilir yakınlıkta çıkanların yaklaşık olarak yüzdesini ifade etmektedir. CASP (Protein Yapı Tahmininin Kritik Değerlendirmesi – Critical Assessment of protein Structure Prediction) ise 1995 yılında Moult ve arkadaşlarının [Moult ve ark. 1995] ortaya attığı, protein yapılarını tahmin etme yöntemlerini karşılaştırma ve değerlendirme amaçlı büyük-ölçekli bir deney kurulumudur. CASP iki yılda bir düzenlenmektedir. Şekilde ise yedinci CASP itibariyle her deneyde birinci gelmiş yöntemin GDT değeri gösterilmektedir. Bu şekilden de anlaşılacağı üzere AlphaFold 2018 yılında tüm rakiplerini geride bırakarak en umut vaadeden yöntem olduğunu göstermişti.

Moult, bir protein tahmin yönteminin rekabetçi (competitive) olarak gerçekten kullanılabilmesi için tahminen 90 veya daha yüksek bir GDT skoruna sahip olması gerektiğini belirtmektedir. Buradan yola çıkarak özellikle AlphaFold 2’nin protein yapılarının tahmin edilmesi için pratikte kullanılabilecek dünyadaki ilk aday olduğunu söyleyebiliriz.

AlQuraishi [AlQuraishi, 2019] çalışmasında CASP deneylerinin tarihini incelemiş ve daha önce hiçbir protein tahmin yönteminin AlphaFold gibi açık ara ile birinci olmadığını ortaya koymuştur. Bu ve önceki tüm bulgular bize Derin Öğrenme tekniklerinin büyük ölçekli veriler üzerinde öğrenme gerçekleştiren alternatiflere göre ne kadar başarılı olabileceğini göstermektedir.

Derin öğrenme (deep learning), çeşitli çok katmanlı yapay sinirsel ağların arka arkaya birleştirilmesiyle elde edilen modellerin kullanıldığı tekniklerin tümüne verilen genel bir isimdir. Derin öğrenme modelleri deneysel olarak geliştirilmiş olduklarından henüz bilim insanları bir derin öğrenme modelinin yapısı ile o modelin uygulandığı problem arasındaki karmaşık ilişkiyi tam olarak çözememişlerdir. Bir derin öğrenme modelinde kaç tane yapay sinirsel ağın arka arkaya geldiği, bunların hangi sırayla dizildiği, yapar sinirsel ağların kaç katman ve nöron içerdikleri ve hangi yapıları kullandıkları o derin öğrenme modelinin başarısı ile doğrudan ilişkilidir. Örneğin AlQuraishi [AlQuraishi, 2019] AlphaFold 1’in başarısının yapısındaki evrişimli sinirsel ağlardan (convolutional neural networks) kaynaklı olabileceğini öne sürmüştür. AlphaFold 2’nin makalesi ise henüz yayımlanmamıştır. Bu nedenle bilim insanları AlphaFold 2’nin yapısı hakkında henüz yeterli fikir sahibi değildir. Bilim insanları AlphaFold 2’nin iç yapısını incelediklerinde hiç kuşkusuz bir derin öğrenme modelinin yapısı ve o modelin uygulandığı problem arasındaki karmaşık ilişkiyi çözmek konusunda bir adım daha ilerleyecek ve yapay zekanın gelişimi anlamlı ölçüde bir ilerleme katetmiş olacaktır.

Kaynaklar:

[Moult ve ark., 1995] Moult, J., Pedersen, J. T., Judson, R., & Fidelis, K. (1995). A large‐scale experiment to assess protein structure prediction methods. Proteins: Structure, Function, and Bioinformatics, 23(3), ii-iv.

[AlQuraishi, 2019] AlQuraishi, M. (2019). AlphaFold at CASP13. Bioinformatics, 35(22), 4862-4865.