LeetCode-Repeated DNA Sequence

LiBlog發表於2016-08-31

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

For example,

Given s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT", Return: ["AAAAACCCCC", "CCCCCAAAAA"].

Analysis:

We want to code a 10-letter-long substring into a integer, to perform hashset add and check for duplication.

Since each letter only has 4 cases: A,C,G,T, we can use 2-bit to represent it. Therefore, we can use a 20-bits integer to represent the substring.

Solution:

public class Solution {
    // Use mask to only maintain the last 20 bits.
    int mask = (1 << 20) - 1;

    public List<String> findRepeatedDnaSequences(String s) {
        List<String> resList = new ArrayList<String>();
        if (s.length() < 10)
            return resList;

        HashSet<Integer> codeSet = new HashSet<Integer>();
        HashSet<Integer> resSet = new HashSet<Integer>();
        char[] charArray = s.toCharArray();

        // Get code of the first 9 letters.
        int code = 0;
        for (int i = 0; i < 9; i++) {
            code = moveCode(code, charArray[i]);
        }

        for (int i = 9; i < s.length(); i++) {
            // Get code.
            code = moveCode(code, charArray[i]);
            // if current code has existed and have not appeared twice (i.e.,
            // not added to resList), then add it into resList.
            if (!codeSet.add(code) && resSet.add(code)) {
                resList.add(s.substring(i - 9, i + 1));
            }
        }
        return resList;
    }

    public int moveCode(int value, char c) {
        value <<= 2;
        // if (c=='A') value += 0;
        if (c == 'C')  value += 1;
        if (c == 'G')  value += 2;
        if (c == 'T')  value += 3;
        value &= mask;
        return value;
    }

}

【Ac自動機+矩陣加速】poj 2778 DNA Sequence
2017-08-09
矩陣
poj--2778DNA Sequence+AC自動機+矩陣快速冪
2020-04-04
矩陣
DNA
2024-08-03
sequence to sequence模型
2018-05-16
模型
POJ 2778-DNA Sequence（AC自動機+構建鄰接矩陣+矩陣快速冪）
2016-08-10
矩陣
FPGA DNA 獲取
2024-07-19
FPGA
ORACLE SEQUENCE
2012-02-07
Oracle
Sequence recognition
2024-04-16
DNA雙序列對比
2024-07-24
Rosalind-002：DNA轉錄為RNA（Transcribing DNA into RNA）
2020-11-11
ROS
ORACLE SEQUENCE用法
2020-11-10
Oracle
PostgreSQL 序列（Sequence）
2023-11-05
SQL
PostgreSQL sequence (一)
2022-03-07
SQL
Oracle - Sequence序列
2018-01-15
Oracle
Oracle Sequence Nocache
2013-12-03
Oracle
Oracle序列sequence
2018-01-17
Oracle
DNA的三維視覺化：通過OpenGL實現一個DNA鏈
2014-05-10
視覺化
【轉】MySQL中增加sequence管理功能（模擬建立sequence）
2015-02-09
MySql
論文閱讀：Sequence to sequence learning for joint extraction of entities and relations
2024-07-29
python sequence序列
2019-05-18
Python
mysql實現sequence
2020-12-17
MySql
3. Swift Sequence
2017-03-29
Swift
Oracle之Sequence（序列）
2017-09-20
Oracle
request gap sequence is Failed
2013-12-02
AI
ACM Longest Repeated Sequence
2014-04-05
ACM
Oracle Sequence Audses$研究
2010-12-08
Oracle
oracle sequence語法
2010-06-27
Oracle
oracle sequence 試用
2006-07-06
Oracle
詳解序列（sequence）
2012-02-07
裁剪序列Cut the Sequence
2024-06-08
F - Two Sequence Queries
2024-06-09
E. Block Sequence
2024-06-02
BloC
Increasing Sequence with Fixed OR
2024-08-11
Rainbow Bracket Sequence
2024-09-18
AIRacket
DNA硬碟成大資料福音:1克DNA可儲存700TB的資料
2012-10-09
硬碟大資料
中國研製出DNA邏輯閘 DNA計算機關鍵技術獲突破(轉)
2007-08-12
計算機
oracle的scn及sequence
2023-01-16
Oracle
Linux_Arithmetic_Sequence
2017-10-16
Linux

LeetCode-Repeated DNA Sequence

相關文章