Gen là đơn vị vật chất di truyền có chức năng nhỏ nhất được tạo thành từ ADN. Theo ước tính, cơ thể người sở hữu từ 20.000 đến 25.000 gen. Do số lượng gen khổng lồ này, các nhà khoa học đã đặt tên cho từng gen để thuận tiện theo dõi và nghiên cứu.
Bài viết này được viết dưới sự hướng dẫn chuyên môn của TS.BS Nguyễn Đình Dũng, Khối Di truyền y học - Trung tâm Công nghệ cao Vinmec.
1. Đặt tên cho các điều kiện di truyền
Các điều kiện di truyền không được đặt tên theo một cách tiêu chuẩn (không giống như các gen, được đặt tên chính thức và ký hiệu bởi một ủy ban chính thức). Các bác sĩ điều trị cho các gia đình mắc chứng rối loạn mới, chưa từng biết trước đây thường là những người đầu tiên đề xuất tên cho tình trạng này. Sau đó, các chuyên gia y tế, nhà nghiên cứu, những người chịu ảnh hưởng bởi tình trạng này và những cá nhân quan tâm khác có thể thống nhất để đổi tên nhằm cải thiện tính chính xác, hữu dụng của tên điều kiện di truyền.
Cách thức đặt tên đóng vai trò quan trọng bởi điều này giúp truyền đạt thông tin một cách chính xác và hiệu quả về tình trạng cụ thể, từ đó cải thiện quá trình chăm sóc bệnh nhân và hỗ trợ các nhà nghiên cứu phát triển phương pháp điều trị mới.
Các điều kiện thường được đặt tên dựa trên một hoặc kết hợp các nguồn sau:
- Khiếm khuyết cơ bản về di truyền hoặc sinh hóa gây ra tình trạng này, như thiếu alpha-1 antitrypsin.
- Biến thể gen hoặc đột biến gây ra tình trạng này, như chứng loạn dưỡng bạch cầu liên quan đến TUBE4A.
- Các dấu hiệu hoặc triệu chứng chính của rối loạn, như tăng amiăng máu kèm theo loạn trương lực cơ, bệnh đa hồng cầu và xơ gan do cryptogenic.
- Các bộ phận của cơ thể bị ảnh hưởng bởi tình trạng này, như hội chứng não-phổi-tuyến giáp.
- Tên của một bác sĩ hoặc nhà nghiên cứu, thường là người đầu tiên mô tả rối loạn, ví dụ như hội chứng Marfan được đặt theo tên của Tiến sĩ Antoine Bernard-Jean Marfan.
- Khu vực địa lý liên quan, như sốt Địa Trung Hải có tính gia đình, xảy ra chủ yếu ở các quần thể giáp biển Địa Trung Hải.
- Tên của bệnh nhân hoặc gia đình mắc bệnh, như bệnh xơ cứng teo cơ một bên thường được gọi là bệnh Lou Gehrig theo tên một cầu thủ bóng chày nổi tiếng được chẩn đoán mắc bệnh này.
Các điều kiện được đặt tên theo một cá nhân cụ thể được gọi là từ ghép. Một số tranh luận đã xảy ra về việc liệu hình thức sở hữu hay không sở hữu của các từ đồng nghĩa được ưu tiên hơn.Theo quy định, các chuyên gia di truyền y học sử dụng một biểu mẫu chưa được xác nhận, biểu mẫu này có khả năng trở thành tiêu chuẩn cho các y bác sĩ trong mọi lĩnh vực y học.
2. Gen được đặt tên thế nào?
Gen là phân tử ADN mang thông tin di truyền, quy định các tính trạng của sinh vật. Một số gen nắm giữ vai trò như hướng dẫn để sản xuất các phân tử gọi là protein. Tuy nhiên, nhiều gen không mã hóa protein mà đảm nhận các chức năng khác.
Ở người, kích thước của các gen rất đa dạng, từ vài trăm bazơ ADN đến hơn 2 triệu bazơ. Một nỗ lực nghiên cứu quy mô quốc tế với tên gọi là Dự án Bộ gen người đã được tiến hành để xác định trình tự bộ gen người và xác định các gen trong đó, ước tính rằng cơ thể người có từ 20.000 đến 25.000 gen.
Mỗi người có hai bản sao của mỗi gen, một từ cha và một từ mẹ. Phần lớn các gen đều giống nhau ở tất cả mọi người, nhưng một số lượng nhỏ (dưới 1% tổng số gen) có sự khác biệt giữa các cá nhân.
Các alen là các dạng khác nhau của cùng một gen với sự khác biệt nhỏ về trình tự các cơ sở ADN của chúng. Những khác biệt nhỏ này góp phần tạo nên những đặc điểm ngoại hình riêng biệt của mỗi người.Các nhà khoa học theo dõi các gen bằng cách đặt tên riêng. Vì tên gen có thể dài, nên các gen cũng được gán ký hiệu là những tổ hợp ngắn gồm các chữ cái (và đôi khi là số) viết tắt của tên gen. Ví dụ, một gen nằm trên nhiễm sắc thể số 7 liên quan đến bệnh xơ nang được gọi là gen điều hòa độ dẫn truyền qua màng của bệnh xơ nang, và được ký hiệu là CFTR.
Ủy ban HUGO về danh mục gen (HGNC) cung cấp một tên chính thức và một ký hiệu (tên viết tắt) cho mỗi gen người đã được xác định. HGNC là một tổ chức phi lợi nhuận, nhận tài trợ từ Viện Nghiên cứu Bộ gen Người Quốc gia Hoa Kỳ và Tổ chức Wellcome Trust của Anh Quốc. Tính đến nay, ủy ban đã đặt tên cho hơn 19.000 trong tổng số khoảng 20.000 đến 25.000 gen mã hóa protein trong bộ gen người.
Trong quá trình nghiên cứu, các nhà khoa học thường sử dụng nhiều tên và ký hiệu khác nhau cho cùng một gen. Để tránh sự nhầm lẫn này, HGNC đã chỉ định một tên và ký hiệu duy nhất cho mỗi gen người. Điều này giúp tổ chức các gen một cách hiệu quả trong các cơ sở dữ liệu lớn và hỗ trợ phát triển nghiên cứu. Dưới đây là hướng dẫn hiện tại của HGNC về việc đặt tên gen người:
Trong trường hợp không có giải pháp thay thế được sự đồng thuận rộng rãi, HGNC vẫn giữ định nghĩa một gen là một đoạn DNA đóng góp vào kiểu hình hoặc chức năng. Nếu không xác định được chức năng, một gen có khả năng được đặc trưng bởi trình tự, phiên mã, hoặc sự tương đồng.
Mỗi gen chỉ được gán một ký hiệu duy nhất; HGNC thường không đặt tên riêng cho các dạng đồng dạng, tức là các bản sao thay thế hoặc các biến thể khác. Điều này có nghĩa là sẽ không có ký hiệu riêng biệt cho các dạng đồng dạng ARN mã hóa protein hoặc không mã hóa của các vị trí mã hóa protein, cũng như các bản phiên mã thay thế từ các vị trí ARN không mã hóa.
Tuy nhiên, trong một số trường hợp đặc biệt và theo yêu cầu của cộng đồng nghiên cứu, các ký hiệu riêng biệt có thể được chấp thuận cho các đoạn gen trong các quỹ tích phức tạp, ví dụ như quỹ tích UGT1. Các quỹ tích lưỡng tính giả định cũng có thể được gán các ký hiệu riêng biệt để đại diện cho các sản phẩm gen khác nhau.
Mỗi gen được đặt tên đều được gán một ký hiệu duy nhất, HGNC ID (theo định dạng HGNC: #) và một tên mô tả. Các ký hiệu này chỉ bao gồm các chữ cái Latinh viết hoa và các chữ số Ả Rập, tránh sử dụng dấu câu ngoại trừ dấu gạch ngang trong một số nhóm cụ thể. Để thuận tiện cho quá trình truy xuất dữ liệu, các ký hiệu không được giống với các chữ viết tắt thông thường. Danh pháp cũng không được chứa tham chiếu đến bất kỳ loài nào hoặc "G" cho gen, và không được gây khó chịu hoặc xúc phạm.
2.1. Gen mã hóa protein
Ủy ban HUGO về danh mục gen đã đề xuất cách đặt tên cho các gen mã hóa protein dựa trên chức năng bình thường chính của sản phẩm gen.
Trong trường hợp không có dữ liệu về chức năng, các gen mã hóa protein có khả năng được đặt tên theo các phương pháp sau:
- Dựa trên các miền cấu trúc đã được công nhận và mô hình được mã hóa bởi gen (ví dụ: BEND7, "miền BEN chứa 7").
- Dựa trên sự tương đồng của các gen trong bộ gen con người (ví dụ: GPRIN3, "thành viên họ gen GPRIN 3").
- Dựa trên sự tương đồng với các gen từ một loài khác (ví dụ: FEM1A, "gen tương đồng fem-1 A").
- Chỉ dựa trên sự tồn tại của khung đọc mở (ví dụ: C17orf50, "khung đọc mở 50 trên nhiễm sắc thể 17").
Để phân nhóm, các gen liên quan được đặt tên bằng cách sử dụng ký hiệu gốc chung dựa trên sự tương đồng về trình tự, chức năng chung hoặc thành viên của phức hợp protein
Khi đề cập đến các gen liên quan đến quá trình miễn dịch cụ thể, mã hóa enzym, thụ thể hoặc kênh ion, Ủy ban HUGO về danh mục gen hỏi ý kiến các nhóm danh pháp chuyên gia. Trong khi đó, đối với các nhóm gen chính khác, Ủy ban thường tham khảo ý kiến từ một nhóm cố vấn khi đặt tên cho các gen mới và thảo luận về các cập nhật danh pháp được đề xuất.
2. 2. Pseudogenes
Gen giả được định nghĩa là một trình tự DNA không tạo ra protein chức năng, nhưng có độ tương đồng cao với gen chức năng. Quá trình đặt tên cho gen giả chỉ xảy ra khi gen có mức độ tương đồng đáng kể với gen tổ tiên chức năng.
Để phân biệt, các gen giả đã qua xử lý được đặt tên theo gen mẹ tương ứng, kết hợp chữ "P" và một số thứ tự gắn sau ký hiệu gen gốc. Ví dụ, "NACAP10" nghĩa là "gen giả NACAP số 10". Cách đánh số này thường được áp dụng riêng cho từng loài.
Đối với các gen giả có trình tự mã hóa tương đồng với các thành viên khác trong họ gen (thường chưa được xác định chức năng), quy ước đặt tên là thêm hậu tố "P" vào tên của thành viên họ gen gốc. Ví dụ: DDX12P được đặt tên đầy đủ là "DEAD/H-box helicase 12, gen giả". Định dạng đặt tên này cũng được áp dụng cho các gen giả có chức năng tương đồng với gen gốc ở các loài khác.
Thông thường, gen giả hiếm khi không có chữ "P" trong tên nếu ký hiệu được đặt ra một cách chính xác, ví dụ như là MMP23A
2. 3. Các gen ARN không mã hóa
Ủy ban HUGO về danh mục gên áp dụng quy tắc đặt tên cho các gen ARN không mã hóa (ncARN) dựa trên loại ARN cụ thể
Đối với các ARN nhỏ, Ủy ban HUGO tuân theo các quy ước đặt tên như sau:
- MicroRNAs được đặt tên bởi miRBase bằng cách gán một ký hiệu cho mỗi chuỗi gốc microRNA theo định dạng "mir- #" và mỗi microRNA trưởng thành theo định dạng "miR- #", tiếp theo là một số duy nhất phản ánh thứ tự gửi đến cơ sở dữ liệu. Sau đó, HGNC phê duyệt một ký hiệu gen cho các gen microRNA của người ở định dạng MIR #; ví dụ, MIR17 đại diện cho gen microRNA, mir-17 đại diện cho chuỗi gốc và miR-17 đại diện cho microRNA trưởng thành.
- ARN vận chuyển (tRNA) được xác định bằng một ID duy nhất cho mỗi gen tRNA trong cơ sở dữ liệu tRNA của bộ gen (GtRNAdb), theo định dạng "tRNA-[mã axit amin ba chữ cái]-[anticodon]-[Mã nhận dạng gen GtRNAdb]". Ví dụ, tRNA-Ala-AGC-1-1.
HGNC sử dụng một hệ thống ký hiệu gen tRNA ngắn gọn và thống nhất, dựa trên định dạng "TR" kết hợp các yếu tố sau: [mã axit amin một chữ cái] - [anticodon] [mã nhận dạng gen gtrnadb], ví dụ: TRA ‐ AGC1‐1.
ncRNA là viết tắt của non-coding RNA, hay RNA phi mã hóa. Đây là một loại phân tử RNA không được dịch mã thành protein, có nghĩa là nó không trực tiếp tạo ra các protein mà cơ thể cần để hoạt động. Các loại ncRNA nhỏ khác được đặt tên dựa trên sự thống nhất của các chuyên gia. Các lớp chính của ncRNA nhỏ bao gồm:
- ARN hạt nhân được đặt tên bằng kí hiệu gốc là "RNU" cho "RNA, hạt nhân nhỏ U #".
- ARN nucleolar nhỏ được đặt tên bằng ký hiệu gốc SNORD # cho các gene "RNA nucleolar nhỏ, hộp C / D"; SNORA # cho các gene "RNA nucleolar nhỏ, hộp H / ACA"; và SCARNA # cho các gene "RNA cụ thể của cơ thể Cajal nhỏ".
- RNA ribosome được đặt tên với các ký hiệu gốc RNA45S, RNA28S, RNA18S, RNA5S, và RNA5-8S.
Để tạo sự thống nhất và dễ dàng phân biệt, các ARN dài không mã hóa (lncRNA) có chức năng tương tự như gen mã hóa protein nên được ưu tiên sử dụng ký hiệu duy nhất dựa trên chức năng được công bố.
LncRNA là viết tắt của long non-coding RNA, hay RNA phi mã hóa dài. Đây là một loại RNA không được dịch thành protein, có độ dài hơn 200 nucleotide. Đối với các gen LncRNA được chú thích trong các dự án RefSeq và GENCODE nhưng thiếu thông tin được công bố đầy đủ để đặt tên theo hệ thống, quy ước đặt tên sau đây sẽ được áp dụng:
- Các lncRNA liên quan đến gen mã hóa protein được gán ký hiệu gốc - LINC #, với số có 5 chữ số, ví dụ: LINC01018.
- Các lncRNA trái nghĩa với khoảng gen của gen mã hóa protein được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐AS #, ví dụ: FAS-AS1.
- Các lncRNA khác nhau (chia sẻ trình tự khởi động hai chiều) gen mã hóa protein được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐DT, ví dụ: ABCF1-DT.
- Các lncRNA chứa trong intron của gen mã hóa protein trên cùng một sợi được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐IT #, ví dụ: AOAH-IT1.
- Các lncRNA chồng lên gen mã hóa protein trên cùng một sợi được gán định dạng ký hiệu [biểu tượng mã hóa gen protein] ‐OT #, ví dụ: C5-OT1.
- Các lncRNA có chứa các gen microRNA hoặc snoRNA bên trong các intron hoặc exon được đặt tên là các gen chủ, ví dụ: MIR17HG, SNHG7.
2. 3. Các gen ARN không mã hóa
Ủy ban HUGO về danh mục gene đặt tên cho các gen ARN không mã hóa (ncARN) theo loại ARN của chúng.
Đối với các ARN nhỏ, Ủy ban HUGO về danh mục gene tuân theo các quy ước đặt tên của chúng như sau:
- MicroRNAs: miRBase gán cho mỗi chuỗi vòng lặp gốc microRNA một ký hiệu ở định dạng “mir‐ #” và mỗi miRNA trưởng thành một ký hiệu ở định dạng “miR‐ #”, theo sau là một số tuần tự duy nhất phản ánh thứ tự gửi đến cơ sở dữ liệu. Sau đó, HGNC phê duyệt một ký hiệu gen cho các gen miRNA của người ở định dạng MIR #; ví dụ, MIR17 đại diện cho gen miRNA, mir ‐ 17 đại diện cho vòng lặp gốc và miR ‐ 17 đại diện cho miRNA trưởng thành.
- ARN vận chuyển (tRNA): Cơ sở dữ liệu tRNA của bộ gen (GtRNAdb) chỉ định một ID duy nhất cho mỗi gen tRNA ở định dạng tRNA‐ [mã axit amin ba chữ cái] - [anticodon] - [Mã nhận dạng gen GtRNAdb ]. Ví dụ tRNA ‐ Ala ‐ AGC ‐ 1‐1.
HGNC chỉ định một ký hiệu gen tRNA hơi ngắn gọn nhưng tương đương ở định dạng TR [mã axit amin một chữ cái] - [anticodon] [mã nhận dạng gen gtrnadb], ví dụ: TRA ‐ AGC1‐1.
Các lớp ncRNA nhỏ khác được đặt tên với sự cộng tác của các cố vấn chuyên môn. Các lớp chính của ncRNA nhỏ bao gồm:
- ARN hạt nhân nhỏ: Được đặt tên bằng ký hiệu gốc “RNU” cho “RNA, hạt nhân nhỏ U #”.
- ARN nucleolar nhỏ: Được đặt tên với ký hiệu gốc SNORD # cho các gen “RNA nucleolar nhỏ, hộp C / D”; SNORA # cho các gen “RNA nucleolar nhỏ, hộp H / ACA”; và SCARNA # cho các gen “RNA cụ thể của cơ thể Cajal nhỏ”.
- RNA ribosome: Được đặt tên với các ký hiệu gốc RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S.
Các ARN dài không mã hóa (lncRNA) được ưu tiên cung cấp các ký hiệu duy nhất dựa trên chức năng được công bố tương tự như các gen mã hóa protein. Các gen LncRNA đã được chú thích bởi các dự án RefSeq và GENCODE mà không có thông tin được công bố phù hợp để làm cơ sở cho một biểu tượng tồn tại được đặt tên theo cách có hệ thống sau:
- Các LncRNA có liên quan đến gen mã hóa protein được gán ký hiệu gốc - LINC # theo sau là số có 5 chữ số, ví dụ: LINC01018.
- Các LncRNA trái nghĩa với khoảng gen của gen mã hóa protein được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐AS #, ví dụ: FAS-AS1.
- Các LncRNA khác nhau (chia sẻ trình tự khởi động hai chiều) gen mã hóa protein được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐DT, ví dụ: ABCF1-DT.
- Các LncRNA chứa trong intron của gen mã hóa protein trên cùng một sợi được gán định dạng ký hiệu [ký hiệu gen mã hóa protein] ‐IT #, ví dụ: AOAH-IT1.
- Các LncRNA chồng lên gen mã hóa protein trên cùng một sợi được gán định dạng ký hiệu [biểu tượng mã hóa gen protein] ‐OT #, ví dụ: C5-OT1.
- Các LncRNA có chứa các gen microRNA hoặc snoRNA bên trong các intron hoặc exon được đặt tên là các gen chủ, ví dụ: MIR17HG, SNHG7.
2.4. Các gen bản sao đọc qua (Readthrough transcripts)
Các bản sao đọc qua được tạo thành từ các vùng lân cận của gen, bao gồm cả phần mã hóa và / hoặc không mã hóa của hai hoặc nhiều gen. HGNC chỉ đặt tên cho những bản sao đọc qua đã được chú thích nhất quán bởi cả chú thích RefSeq tại NCBI và chú thích GENCODE tại Ensembl.
Các bản sao này thuộc loại " bản sao đọc qua" và được ký hiệu bằng cách sử dụng hai (hoặc nhiều) ký hiệu từ các gen mẹ, được phân tách bằng dấu gạch ngang, ví dụ: ZNF511-PRAP1 và được gọi là "[ký hiệu] Đọc qua", ví dụ: "ZNF511-PRAP1 Đọc qua". Tên cũng có thể bao gồm thông tin bổ sung về trạng thái mã hóa tiềm năng của bản sao, chẳng hạn như “(NMD candidate)”.
Trước đây, HGNC chỉ cung cấp ký hiệu chính thức cho các gen nằm trên bộ gen tham chiếu của con người. Tuy nhiên, trong một số trường hợp đặc biệt, HGNC cũng chấp nhận đặt tên cho gen theo yêu cầu của các cộng đồng chuyên ngành có ủy ban danh pháp riêng, ví dụ như cộng đồng nghiên cứu về hệ thống kháng nguyên bạch cầu người (HLA).
Việc đặt tên cho các biến thể cấu trúc trong tương lai sẽ bị hạn chế đối với những biến thể trên các locus thay thế đã được Hiệp hội Tham chiếu Bộ gen (GRC) đưa vào hệ gen tham chiếu của con người. Ký tự gạch dưới được dành riêng cho các gen được chú thích trên các locus tham chiếu thay thế, ví dụ: C4B_2 là bản sao thứ hai của C4B trên quỹ tích tham chiếu thay thế 6p21.3.
3. Nguyên lý hoạt động của gen di truyền
Dựa trên nguyên lý hoạt động của gen di truyền được công bố qua các nghiên cứu khoa học, các nhà nghiên cứu có thể khẳng định rằng gen chủ yếu nằm trên trên các nhiễm sắc thể.
Các thông tin di truyền ADN đóng vai trò trung tâm trong việc sản xuất protein điều khiển tế bào và được gói gọn cẩn thận trong cấu trúc nhiễm sắc thể.
Chính vì vậy, hoạt động của gen di truyền có khả năng được hình dung như một quy trình tổng hợp diễn ra bên trong nhân tế bào, bao gồm hai bước chính: sao chép ADN và phiên mã ARN. Hay nói cách khác, phiên mã ARN chính là bước đầu tiên trong quá trình di truyền.
Thông tin biểu hiện của gen di truyền trong quá trình hoạt động được biểu thị bằng một chuỗi gồm bốn chữ cái, mỗi chữ cái đại diện cho một bazơ nitơ.
Mỗi gen đại diện cho một đơn vị thông tin di truyền trên một đoạn ADN cụ thể, trải qua quá trình phiên mã thành ARN và dịch mã thành Protein. Từ đó, thông tin được lưu trữ trong các chuỗi ADN được biểu thị dưới dạng các polyme sinh học hoặc Protein.
Các rối loạn phổ biến trong vật chất di truyền có thể được phân loại thành hai nhóm chính: rối loạn di truyền đơn gen và rối loạn di truyền đa gen . Hiểu được quá trình hoạt động của gen di truyền là cực kỳ quan trọng trong quá trình xác định các rối loạn di truyền. Những rối loạn này thường là nguyên nhân gốc rễ của nhiều bệnh di truyền khác nhau. Vì vậy, quá trình chẩn đoán và phát hiện các bệnh này kịp thời là vô cùng quan trọng.
Để đặt lịch khám tại viện, Quý khách vui lòng bấm số HOTLINE hoặc đặt lịch trực tiếp TẠI ĐÂY. Tải và đặt lịch khám tự động trên ứng dụng MyVinmec để quản lý, theo dõi lịch và đặt hẹn mọi lúc mọi nơi ngay trên ứng dụng.